আন্দ্রেজ কারপাথির “Intro to Large Language Models”

LLM আসলে কী?

কারপাথি শুরুতেই দেখান যে একটি LLM (যেমন Llama 2 70B) আসলে মাত্র দুটি ফাইল:

একটি parameters file (১৪০ গিগাবাইট) — মডেলের সব ওজন (weights)
একটি run.c ফাইল (প্রায় ৫০০ লাইন কোড) — যা ঐ parameters চালায়

ব্যস! ইন্টারনেট ছাড়াই আপনি এটি আপনার ল্যাপটপে চালাতে পারেন। এই সরলতাই LLM-এর সৌন্দর্য।

মডেল ট্রেনিং কীভাবে হয়?

দুটি ধাপ আছে:

১. Pre-training (প্রি-ট্রেনিং): ইন্টারনেটের প্রায় ১০ টেরাবাইট টেক্সট নিয়ে ৬,০০০টি GPU প্রায় ১২ দিন ধরে চালানো হয় (খরচ ~২ মিলিয়ন ডলার)। মডেল শেখে পরের শব্দ অনুমান করা (next word prediction)। এই বিশাল ইন্টারনেট ডেটাকে চাপ দিয়ে ১৪০ গিগাবাইটে “compress” করা হয় — অনেকটা zip ফাইলের মতো, তবে lossy compression।

২. Fine-tuning (ফাইন-টিউনিং): এরপর মডেলকে “assistant” বানানোর জন্য মানুষের লেখা উচ্চমানের প্রশ্নোত্তর (১ লাখের মতো) দিয়ে আবার ট্রেন করা হয়। এটি তুলনামূলক সস্তা ও দ্রুত।

কারপাথি এটিকে বলেন: pre-training হলো knowledge শেখা, fine-tuning হলো alignment বা আচরণ শেখা।

LLM-এর “চিন্তা” আসলে কী?

মডেল হলো একটি next-token predictor — পরের শব্দ কী হবে তা সম্ভাবনার ভিত্তিতে অনুমান করে। কিন্তু এই সহজ কাজ ভালোভাবে করতে গিয়ে মডেলকে অনেক কিছু “শিখতে” হয় — ব্যাকরণ, তথ্য, যুক্তি, এমনকি কোড লেখা।

গুরুত্বপূর্ণ কথা: LLM অনেকটা inscrutable artifact — আমরা জানি না ভেতরে কী হচ্ছে। ১০০ বিলিয়ন প্যারামিটার একসাথে কাজ করে, কিন্তু কোন প্যারামিটার কী করছে তা বোঝা কঠিন। এটি বুঝতে নতুন একটি ক্ষেত্র গড়ে উঠছে — Interpretability।

LLM-এর ভবিষ্যৎ: Scaling Laws

কারপাথির সবচেয়ে গুরুত্বপূর্ণ পয়েন্ট: LLM-এর পারফরম্যান্স দুটি জিনিসের উপর নির্ভর করে — পরামিতির সংখ্যা (N) এবং ট্রেনিং ডেটার পরিমাণ (D)। এই সম্পর্ক অত্যন্ত মসৃণ ও অনুমানযোগ্য। অর্থাৎ আরও বড় মডেল + আরও বেশি ডেটা = প্রায় নিশ্চিতভাবে ভালো পারফরম্যান্স। এজন্যই সবাই কম্পিউট ও ডেটার পেছনে ছুটছে।

নতুন দিগন্ত: Tool Use ও Multimodality

আধুনিক LLM শুধু টেক্সট জেনারেট করে না — তারা টুল ব্যবহার করে:

ব্রাউজার দিয়ে সার্চ করা
Python কোড চালিয়ে হিসাব করা
ছবি তৈরি বা দেখা
ভয়েসে কথা বলা

কারপাথি দেখান ChatGPT কীভাবে একটি কোম্পানির স্টক ডেটা ব্রাউজ করে, ক্যালকুলেটর দিয়ে হিসাব করে, এবং চার্ট আঁকে — সব একসাথে।

System 1 vs System 2 চিন্তা

ড্যানিয়েল কাহনেম্যানের তত্ত্ব অনুযায়ী মানুষের দুটি চিন্তা পদ্ধতি:

System 1: দ্রুত, instinctive (যেমন ২+২ = ৪)
System 2: ধীর, যুক্তিনির্ভর (যেমন ১৭ × ২৪ = ?)

বর্তমান LLM মূলত System 1 — তারা প্রতিটি টোকেনে সমান সময় নেয়। ভবিষ্যতের গবেষণা হলো LLM-কে System 2 দেওয়া — অর্থাৎ কঠিন প্রশ্নে বেশি সময় “চিন্তা” করতে দেওয়া, যেন তারা আরও সঠিক উত্তর দেয়।

Self-improvement: AlphaGo-র উদাহরণ

AlphaGo প্রথমে মানুষের গেম থেকে শিখেছিল, পরে নিজের সাথে নিজে খেলে মানুষকে ছাড়িয়ে গেছে। LLM এখনও মানুষের লেখা ডেটার মধ্যেই আবদ্ধ। বড় প্রশ্ন: LLM কি কখনো নিজে নিজে উন্নতি করতে পারবে? এর জন্য দরকার একটি স্পষ্ট “reward signal” — কিন্তু ভাষায় সেটা কঠিন।

LLM Operating System

কারপাথির সবচেয়ে শক্তিশালী ধারণা: LLM-কে শুধু chatbot ভাবা ভুল। এটি আসলে একটি নতুন ধরনের অপারেটিং সিস্টেম:

LLM = CPU
Context window = RAM
ফাইল সিস্টেম, টুল, ব্রাউজার, কোড interpreter = পেরিফেরাল
বিভিন্ন LLM (GPT, Claude, Llama) = বিভিন্ন OS (Windows, Mac, Linux)

ভবিষ্যতে আমরা যেভাবে আজ কম্পিউটারে অ্যাপ চালাই, সেভাবেই LLM-এর উপর অ্যাপ্লিকেশন চালাবো।

LLM Security: নতুন ধরনের ঝুঁকি

ভিডিওর শেষ অংশে কারপাথি LLM-এর নিরাপত্তা সমস্যা দেখান:

Jailbreak: কৌশলে মডেলকে দিয়ে নিষিদ্ধ কাজ করানো (যেমন রোলপ্লে করিয়ে)।

Prompt Injection: কোনো ওয়েবপেজ বা ছবিতে লুকানো নির্দেশনা থাকলে LLM সেটা পড়ে ব্যবহারকারীর ক্ষতি করতে পারে।

Data Poisoning: ট্রেনিং ডেটায় “trigger word” ঢুকিয়ে দিলে পরে সেই শব্দ দেখলে মডেল ভুল আচরণ করবে।

কারপাথি বলেন এটি একটি নতুন cat-and-mouse খেলা — যেমন ইন্টারনেটের শুরুর দিকে ভাইরাস ও antivirus-এর লড়াই হয়েছিল।

সারসংক্ষেপে কারপাথির বার্তা: LLM শুধু একটি চ্যাটবট নয়, এটি একটি নতুন কম্পিউটিং প্যারাডাইম। এটি বুঝতে হলে compression, scaling laws, tool use, এবং security — সব দিক বুঝতে হবে। বিষয়টি এখনও শুরু — সামনে অনেক কিছু আসছে।

আন্দ্রেজ কারপাথির “Intro to Large Language Models”

Comments (0)