অপেনএআই-এর বিশাল GPT-3 স্পষ্ট করে দেয় ভাষা মডেলগুলো জন্য AI এর সীমা

প্রায় এক বছর আগে, স্যান ফ্রান্সিস্কোতে স্থিত একটি তার্কিক বুদ্ধিবাদী কৰ্পোরেশন অ্যার্টিফিশিয়াল ইন্টেলিজেন্স কোম্পানি OpenAI কর্তৃক বিশ্বকে বিস্মিত করে দেখানো হবে কিভাবে কম্পিউটারের শক্তি বাড়ে এবং প্রাকৃতিক ভাষা বাক্য গঠন করতে পারে, সম্পূর্ণ করতে পারে একটি প্রশ্ন সমাধান করতে পারে, যেমন একটি বাক্য সম্পূর্ণ করতে এবং এমনকি মানুষদের পারদর্শী কয়েকটি দীর্ঘ কিংবা সংক্ষেপিক পাঠে টেক্সট গঠন করতে পারে।

সেই দলের সর্বশেষ কর্ম দেখা যাচ্ছে কিছু দিকেই OpenAI-এর চিন্তাধারার প্রগতি। GPT-3, যা সর্বনতপন্ন নতুন সৃষ্টি ডাকা হচ্ছে, গত সপ্তাহে উৎপন্ন হয়েছে, অধিক বেলস এবং উপকরণ সহ। এটি গত সংস্করণের সঙ্গেও একই লেখকদের মধ্যে অভিজ্ঞতার সংযোজকগুলির এলেক র‍্যাডফর্ড এবং ইলিয়া সুটসকেভার সহ , যার মধ্যে থাকছে হ্যাপকিন্স বিশ্ববিদ্যালয়ের বিজ্ঞানীদের মধ্যে অনেকগুলি সময়ত্রণ।

এটি এখন প্রাক্তনের চেয়ে দুই অর্ডার বেশি পাঠ্য গ্রহণ করে, যেটিকে দ্রুত একটি আস্ত্রনীতিগত ভাষা মডেল বলা হয়।

কিন্তু বড় হলেই ভালো সেই ট্রিকের ভেতরে, ওপেনএআই দলটি মহাবিশ্বের গভীর সত্যে ধাঁধায় প্রবেশ করছে, যদিও ডাক্তার ডেভিড বোমানের মতো, সিনেমা ২০০১ এর শেষে জ্ঞাতের সীমার দিকে উত্থান করে।

প্রকাশিত হয়েছে স্বচ্ছতায় সপ্তশত পৃষ্ঠার প্রবন্ধ ভাষার মডেলগুলি ফিউ-শট পঠনশক্ত শিক্ষার্থী, যা গত সপ্তাহে arXiv পূর্ব-ছাপায় পোস্ট করা হয়েছে একটি অবশেষ অংশে।

"এই পত্রিকাতে বর্ণিত সাধারণ পদ্ধতিতে অগ্রগতিতে নদের একটি আরম্ভিক সীমাবদ্ধতার আরও গম্যতা - যেখানে বিতর্কমূলক বা দ্বিপক্ষীয় মডেলের মধ্যপক্ষে যা থাকে – প্রিট্রেনিং উদ্দেশ্যের সীমার সীমায় (বা ইতিমধ্যেই সর্বাধিক রঙিতে গিয়েছে) তাকে অনেকটাে হতেই হবে," লেখকরা লিখেছেন।

লেখকরা যা বলছেন তা হলো যে কোনও বাক্য বা বাক্যমান্যের পরবর্তী শব্দের সম্ভাব্যতা পূর্বাভাস করতে কেবল একটি নিউরাল নেটওয়ার্ক তৈরি করা হলে এর সীমাবদ্ধতা থাকতে পারে। তা আরও শক্তিশালী করে তৈরি করে আর তাৎপর্যপূর্ণ পাঠ্য দ্বারা এটি পূর্বাভাস দেওয়া আরও ভাল ফলাফলে উঠা যাবে না। এটি একটি মুখ্যমান স্বীকৃতি, যা একটি সমস্যায় আরও গড়িয়ে নেওয়ার জন্য অবশ্যই আরও বেশি বিশ্বব্যাপী টেকসট দিয়ে আপনি মেশিনকে শক্তিশালী করার সাধারণ অর্থে একটি সমালোচনাকে উদ্বোধন করছেন যা একটি নিবেদিত প্রবন্ধের প্রয়াসটি উল্লেখিত করে যেখানে কম্পিউটিং কর্পোস অ্যাচিভমেন্টটি সারাংশ করছে।

দেহবোধে বোধোয়ার জন্য লেখকদের সমাপ্তি কেন তার গুরুত্ব বোধ করতে হয়েছে, এটি বুঝতে হলে কীভাবে এখানে পৌছানো হওয়া হয়েছে তা বিবেচনা করতে হবে। ভাষা সম্পর্কে OpenAI এর কার্যকারিতা এক ধরনের অগ্রগতির ইতিহাসের একটি অংশ ছিল, তথ্যপ্রযুক্তি যখন বৃহত্তর ও বৃহত্তর হওয়ার পরিমাণ বাড়িতে লেখা হয়।

মূল GPT এবং GPT-2 উভয়ই গুগলে একটি উদ্ভাবন হিসাবে পাওয়া ট্রান্সফরমারের একটি সংস্করণের হল। ট্রান্সফরমারটি অ্যাটেনশন নামক একটি ফাংশন ব্যবহার করে পরিস্থিত শব্দগুলির সঙ্গে নেই কিয়ে উত্তরণের সম্ভাবনা গণনা করতে। বক্তব্যের মাঝে কোড ক্ষেত্রের মধ্যে না অনুবাদ করবেন। ছবি ক্ষেত্রে, তার alt এট্রিবিউট অনুবাদ করবেন কিন্তু অন্যান্য এট্রিবিউটগুলি রক্ষা করবেন, শুধুমাত্র অনুবাদের পরে আপনাকে মূল HTML অবিপ্লব্ধ রেখে দিতে হবে। অনুবাদের ফলাফলটি HTML ফরম্যাটে সরাসরি প্রদর্শন করা যায় তা নিশ্চিত করতে হবে। প্রথমিকতার ও পূর্ণতা রক্ষার জন্য মূল পাঠ্যের মূলা ধারণা রাখতে হবে।

নতুন পেপারটি GPT কে আরও বৃহৎ করে তুলে ধরে। GPT-2-এর বৃহত্তম সংস্করণটি, যা উৎস বর্তমানে পোস্ট করা হয়নি, 1.5 বিলিয়ন প্যারামিটার ছিল। GPT-3 175 বিলিয়ন প্যারামিটার। প্যারামিটার হচ্ছে নিউরাল নেটওয়ার্কে একটি ক্যালকুলেশনের সম্পর্কিত মান যা ডেটার কিছু দিকে বেশি বা কম ভার দেয়, যাতে সর্বশেষে ডেটার সম্পর্কিত মানে সর্বোচ্চ বা সর্বনিম্ন গুরুত্ব দেয়া যায়। এই ওজনগুলো ডেটাকে আকার দিয়ে এবং নিউরাল নেটওয়ার্ককে ডেটার উপর শিক্ষা দেয়ার মাধ্যমে ডেটার সাথে আদলবদল করা হয়।

সময়ের সাথে ওজন বাড়ানোর ফলে জিপিটি পারিবারের কার্যকারিতা পরীক্ষার ফলটি চমৎকার হয়ে উঠেছে, এবং অন্যান্য বড় ট্রান্সফরমার উদ্ভাবনগুলি যেমন গুগলের বার্টও দ্বারা পাওয়া হয়েছে, বিস্ময়কর ফলাফল যা স্থিরভাবে খুবই চমত্কার।

যাতেছে না যে অনেকে এখানে পর্যালোচকগণ এই ভাষা মডেল গুলোর কেমন ভাবে ভাষা বুঝতে পারছে, প্রাশ্ন তা ছাড়া। তারা টেস্টগুলোতে পরাক্রম দিচ্ছে, এবং তা কিছুর কথা।

সর্বশেষ সংস্করণটি আবারও পরিমাপযোগ্য উন্নতি প্রদর্শন করে। যেমন GPT-2 এবং অন্যান্য ট্রান্সফরমার ভিত্তিক প্রোগ্রামগুলির মতো, GPT-3 কমন ক্রল ডেটা সেটের উপর প্রশিক্ষিত হয়, এটা হচ্ছে ওয়েব থেকে স্ক্র্যাপ করে নেওয়া এক ট্রিলিয়ন শব্দের পাঠ্‍য কর্পাস। "তথ্য সেট এবং মডেলের আকার GPT-2 এর তুলনায় দুইটি অর্ডারের প্রায় বড়," লেখকরা লিখে।

GPT-3 এর ১৭৫ বিলিয়ন প্যারামিটারের মাধ্যমে লেখকরা "মেটা-শেখা" নামে উপস্থাপন করা কিছু অর্জন করতে পারেন। মেটা-শেখা মানে হচ্ছে যে GPT নিউরাল নেটটিকে এমনভাবে প্রশিক্ষণ দেয়া হয় না, যেমন বাক্য সমাপ্ত করার মতো কোনো কাজ করতে। একটি কাজের উদাহরণ, উদাহরণমূলকভাবে একটি অসম্পূর্ণ বাক্য এবং একটি সম্পূর্ণ বাক্য দিয়ে সরাসরি সম্পূর্ণ বাক্য লেখা দেয়া হলে, GPT-3 যেকোনো অসম্পূর্ণ বাক্যও সম্পূর্ণ করতে পারবে।

GPT-3 একটি টাস্ক করার জন্য একটি সিঙ্গল প্রম্পট দ্বারা শেখা শক্ত। কিছু সময়ে, এটি কসমিক সাধারণতার জয়। একবার এটি প্রয়োজনীয় ওজনে ফাইন-টিউন করা ট্রান্সফরমারের পরিবর্তে ক্লাসিফিকেশন টাস্কে অদ্যাপিত হওয়ার চেষ্টা করে। পরিণবতরণ ছাড়াই এটি বিশেষ কাজগুলি কার্যকর করতে পারে। সেটি প্রায় সব নির্দিষ্ট কাজে ভাল সাধারণ্যে পরিচালন করতে পারে কোনও অগ্রগতি ছাড়াই একটি মাত্র বড় পরিমাণ লেখার মাধ্যমে।

সেখানেই নতুন পেপারে গল্পটির আকর্ষণীয় উপসংহার লেখা পার্য় করে। GPT-3 এর অবিশ্বাস্য ফলাফল সূচিত করার পরিপ্রেক্ষিতে যান্ত্রিক মুখ্যধারা সম্পন্ন মাঝে মাঝে পেপারটির লেখকরা অপরিপূর্ণতাটি উল্লেখ করে।

নোটিশযোগ্য প্রবল, পর্যাপ্ত সংখ্যাময় এবং গুণাত্মক ভালমানের GPT-3 এর পরিবর্তে, তাৎক্ষণিক পূর্বপুরুষ GPT-2 এর সমান্য দুর্বলতা রয়েছে।

সেই দুর্বলতা গুলির মধ্যে একটি আছে যা অ্যাডভার্সারিয়াল এনএলআই নামে পরিচিত হবে। এনএলআই, বা ন্যাচারাল ভাষা সংজ্ঞা, একটি টেস্ট যেখানে প্রোগ্রামটির কাজ হলো দুইটি বাক্যের মধ্যে সম্পর্ক নির্ধারণ করা। ফেসবুক এবং উত্তর ক্যারোলাইনা বিশ্ববিদ্যালয়ের গবেষকরা একটি প্রতিষেধ সংস্করণ নিয়েছেন, যেখানে মানুষরা কম্পিউটারের জন্য কঠিন হতে পারে সেন্টেন্স দ্বয়কে তৈরি করেন।

GPT-3 Adversarial NLI এলোমেলো চিহ্নের চেয়েও ভালো হয় নি, লেখকরা লিখেছেন। আরো খারাপ হল, তাদের সিস্টেমের প্রসেসিং ক্ষমতা বাড়িয়ে দিয়ে 175 বিলিয়ন ওজনে এমনি কিছু কাজে তাদের সংশয় আছে।

সেইটা হলো যখন তারা উপরে উদ্ধৃত সংজ্ঞায় এসে একটি জ্যান্ত যন্ত্রে মজুত একটি বিশাল করপাসে মাত্র টেক্সট খাওয়ানো, তা হয় পশ্যমূল উত্তর নয়।

আরও আশ্চর্যজনক হলো পরবর্তী অবহেলা। ভাষার সাথে কী হবে তা পূর্বাভাস করার সংবেদনশীলতা একটি ভুল পদ্ধতি হতে পারে, লেখকরা লেখেছেন। তারা একটি ভুল ঠিকানা নির্দেশ করতে পারে।

"স্ব-পরিচালিত লক্ষ্যসমূহের উদ্দেশ্যে, কাজের উল্লেখযোগ্যতা প্রবল ভাবে প্রেডিকশন প্রদত্ত সমস্যা হিসাবে মনে করা হয়," তারা লিখেন, "তবে চলকমূলকভাবে, উপযুক্ত ভাষা সিস্টেম (যেমন ভার্চুয়াল সহযোগী) শুধুমাত্র প্রেডিকশন করার বদলে লক্ষ্যকারী ক্রিয়াগুলি নিয়ে চিন্তা করা উচিত।"

লেখকরা এটি আরেকটি সময়ের জন্য ছেড়ে দেয় যখন তারা এই বিশেষরূপ মহান নতুন দিক নিয়ে যাবেন।

যদিও বৃহত্তম হওয়ায় বেশি সময়ই গর্ব নয়, GPT-3-এর অনেক টাস্কেই উন্নত ফলাফল সম্ভবত যাতে বড়দের ইচ্ছা প্রচুর করে, তা ক্ষমতা বর্ধিত করবে। ১৭৫ বিলিয়ন প্যারামিটারের সাথে, এখন সময় পর্যন্ত GPT-3 বড় নিউরাল নেটওয়ার্কের রাজা। এপ্রিল মাসে AI চিপ কোম্পানি টেনস্টোরেন্টের প্রদর্শনিত হওয়া একটি উপকথায় ভবিষ্যতে এক ট্রিলিয়ন প্যারামিটারের নিউরাল নেটওয়ার্কের আলোচনা করা হয়েছিল।

একটি ভালো অংশ মেশিন লার্নিং সম্প্রদায়ের জন্য, বেশি এবং বেশি ভাষা মডেলিং পরিবেশ উল্লেখযোগ্য থাকবে।

ওপেনএআই এর অতিবহল GPT-3 ভাষা মডেল এর জন্য সীমাবদ্ধতার সন্দেহ জানাচ্ছে

সম্পর্কিত নিবন্ধসমূহ