Token কী? বাংলা text-এ token কেন বেশি লাগে?

~1 মিনিট পড়তে

16px

Token হলো AI মডেলের ভাষা প্রক্রিয়াকরণের সবচেয়ে ছোট একক। পুরো text একসাথে না পড়ে, মডেল text-কে ছোট ছোট টুকরায় ভাগ করে — এগুলোই token। Token মানে সবসময় একটি শব্দ না। এটা হতে পারে: • একটি পুরো শব্দ → hello = 1 token • শব্দের অংশ → unbelievable = 3 token (un + believ + able) • একটি অক্ষর বা চিহ্ন → ! = 1 token

বাংলায় বেশি token লাগে কেন? ১. Tokenizer ইংরেজিতে trained Claude বা GPT-এর tokenizer মূলত ইংরেজি ও রোমান লিপির উপর ভিত্তি করে তৈরি। ইংরেজি শব্দগুলো তার vocabulary-তে সরাসরি থাকে। কিন্তু বাংলা অক্ষর অনেক কম পরিমাণে training data-তে ছিল। ২. বাংলা অক্ষর = Unicode bytes বাংলার প্রতিটি অক্ষর Unicode-এ 3 bytes নেয়। Tokenizer এই bytes-গুলোকে চেনে না বলে প্রতিটি অক্ষরকে আলাদা আলাদা token হিসেবে ভাঙে। উদাহরণ:

TextToken সংখ্যা (আনুমানিক)

Hello world~2 token

হ্যালো ওয়ার্ল্ড~১৫+ token

৩. যুক্তাক্ষর সমস্যা বাংলায় ক্ষ, ত্র, স্ক — এই যুক্তাক্ষরগুলো আসলে একাধিক Unicode character মিলে তৈরি। Tokenizer এগুলোকে আরো বেশি ভেঙে ফেলে।

এর প্রভাব কী? • বেশি খরচ — API-তে token হিসেবে billing হয় • Context limit দ্রুত পূর্ণ — একই তথ্য বাংলায় লিখলে বেশি জায়গা নেয় • ধীর response — বেশি token process করতে সময় বেশি লাগে