Token কী? বাংলা text-এ token কেন বেশি লাগে?
Token হলো AI মডেলের ভাষা প্রক্রিয়াকরণের সবচেয়ে ছোট একক। পুরো text একসাথে না পড়ে, মডেল text-কে ছোট ছোট টুকরায় ভাগ করে — এগুলোই token। Token মানে সবসময় একটি শব্দ না। এটা হতে পারে: • একটি পুরো শব্দ → hello = 1 token • শব্দের অংশ → unbelievable = 3 token (un + believ + able) • একটি অক্ষর বা চিহ্ন → ! = 1 token
বাংলায় বেশি token লাগে কেন? ১. Tokenizer ইংরেজিতে trained Claude বা GPT-এর tokenizer মূলত ইংরেজি ও রোমান লিপির উপর ভিত্তি করে তৈরি। ইংরেজি শব্দগুলো তার vocabulary-তে সরাসরি থাকে। কিন্তু বাংলা অক্ষর অনেক কম পরিমাণে training data-তে ছিল। ২. বাংলা অক্ষর = Unicode bytes বাংলার প্রতিটি অক্ষর Unicode-এ 3 bytes নেয়। Tokenizer এই bytes-গুলোকে চেনে না বলে প্রতিটি অক্ষরকে আলাদা আলাদা token হিসেবে ভাঙে। উদাহরণ:
TextToken সংখ্যা (আনুমানিক)
Hello world~2 token
হ্যালো ওয়ার্ল্ড~১৫+ token
৩. যুক্তাক্ষর সমস্যা বাংলায় ক্ষ, ত্র, স্ক — এই যুক্তাক্ষরগুলো আসলে একাধিক Unicode character মিলে তৈরি। Tokenizer এগুলোকে আরো বেশি ভেঙে ফেলে।
এর প্রভাব কী? • বেশি খরচ — API-তে token হিসেবে billing হয় • Context limit দ্রুত পূর্ণ — একই তথ্য বাংলায় লিখলে বেশি জায়গা নেয় • ধীর response — বেশি token process করতে সময় বেশি লাগে
Comments (0)
Login to leave a comment.