মার্চের মধ্যে আসছে OpenAI GPT-4

gpt-4-640b66db8c60d-sej-1520x800.jpg

মাইক্রোসফট জার্মানির সিটিও, আন্দ্রেস ব্রাউন, নিশ্চিত করেছেন যে GPT-4 মার্চ 9, 2023 এর এক সপ্তাহের মধ্যে আসছে এবং এটি বহুমুখী হবে। বহুমুখী AI মানে এটি ভিডিও, ছবি এবং শব্দ মতে মাল্টিপল ধরণের ইনপুটের মধ্যে কার্যকর হতে পারবে।

আপডেট: GPT-4 মার্চ ১৪, ২০২৩ এ প্রকাশিত

ওপেনএআই এপাউনস জিপিটি-৪ ১৪শে মার্চ, ২০২৩ তারিখে মুক্তিপেয়েছে। এটি একটি মাল্টিমোডাল মডেল যা চিত্র এবং পাঠের প্রম্প্ট গ্রহণ করে।

মডাল হল একটি পদ যা মেশিন লার্নিং ক্ষেত্রে প্রয়োগ করা হয় টেক্সট সম্প্রদায়গত ইনপুটগুলি নিয়ে বলা হয় যেমন শব্দ, শব্দগুলির মাধ্যমে বিভিন্ন বিবরণ যেমন শব্দ বা কথাও বলাযাযায়ে নয়। এছাড়াও, গল্পে শব্দ, চিত্র, দেখার অনুভূতি, গন্ধ ইত্যাদি অববেশ করতে পারে।

ওপেনএআই-র ঘোষণাটি জিপিটি-৪ উন্নতিগুলি বর্ণনা করেছেঃ

“...যদিও মানুষকে নিইশ্চয়তা দিয়ে অনেক একটা অবস্থায় অপটিমাম নয়, পেশাদারী এবং শিক্ষাগত বেঞ্চমার্কগুলোতে মানুষকের মতো পারফরম্যান্স দেখায়।

উদাহরণস্বরূপ, এটি সিমুলেটেড বার পরীক্ষায় ঊর্ধ্বতম 10% টেস্ট নেওয়ার স্কোর প্রাপ্ত করে; বিপর্যয়ে, GPT-3.5 এর স্কোরটি শুধু মাত্র তার শেষ 10% টেস্ট নেওয়াদেরকে পেয়ে গেছিল।

আমরা আমাদের দুর্বাণকারী পরীক্ষার প্রোগ্রাম এবং চ্যাটজিপিটি থেকে পাঠগুলি ছিনিমুখ করার মাধ্যমে GPT-4 কে 6 মাস ধরে পরিবর্তিত করে এসেছি, ফ্যাক্টুয়ালিটি, নির্দেশ করতে পারা ক্ষমতা এবং সংরক্ষিত সীমাবদ্ধতা সম্পর্কে আমাদের সর্বোচ্চ ফলাফল প্রাপ্ত করেছি (যাতে সম্পূর্ণভাবে নিরাপদ হওয়া থেকে বাকি)।”

মাল্টিমোডাল বৃহত্তর ভাষা মডেলসমূহ

এই ঘোষণার মূল উপকারগামী বিষয় হলো, GPT-4 একত্রিকারি (SEJ GPT-4 একত্রিকারি পূর্বাভাস করেছিল জানুয়ারি ২০২৩ তারিখে।)

মোডালিটি হলো একটি ইনপুট প্রকারের উল্লেখ যা (এই মামলায়) একটি বড় ভাষা মডেল সম্পর্কে কথা বলে।

মাল্টিমোডাল বাংলা অনুবাদের মধ্যজীবী হতে পারে লেখা, কথা, চিত্র এবং ভিডিও।

GPT-3 এবং GPT-3.5 কেবলমাত্র একটি প্রকারভেদ, পাঠ্য, এবংজাতিসম্পর্ক করেছে।

জার্মান সংবাদে বলা হয়েছে যে, GPT-4 কমপক্ষে চারটি মোডালিটিতে কাজ করতে পারবে, যাদের মধ্যে ছবি, শব্দ (শ্রবণ), পাঠ্য এবং ভিডিও রয়েছে।

মাইক্রোসফট জার্মানির সিটিও ডক্টর আন্দ্রেস ব্রাউনের মতামতটি বলে বলেছেন:

“আমরা আগামী সপ্তাহে GPT-4 পরিচিত করব, যেখানে আমরা বহু-মোডাল মডেল ব্যবহার করব যা সম্পূর্ণ পার্থক্য সম্পন্ন পদ্ধতিতে পার্থক্য সম্পন্ন পদ্ধতিতে পার্থক্য সম্পন্ন পদ্ধতিতে পার্থক্য সম্পন্ন পদ্ধতিতে পার্থক্য সভ করবে – উদাহরণস্বরূপ ভিডিও…”

জিপিটি-৪ সম্পর্কিত রিপোর্টিং বিশেষত প্রামাণিক নয়, তাই অযথা যে মাল্টিমোডালিটি সম্পর্কে ভাগাভাগি করা হয়েছে তা জিপিটি-৪ সম্পর্কিত বা শুধুমাত্র সাধারাভিত্তিকভাবে প্রযোজ্য।

মাইক্রোসফট ডিরেক্টর ব্যবস্থাপনা অফিসার হলগার কেন মাল্টিমোডালিটিস সম্পর্কে ব্যাখ্যা দিলেন, কিন্তু বর্তমানের রিপোর্ট অপরিষ্কার ছিল যদি তিনি GPT-4 মাল্টিমোডালিটি নিয়ে আলোচনা করছেন অথবা সাধারণতে মাল্টিমোডালিটি নিয়ে কথা বলছেন।

আমি মনে করি তাঁর মাল্টিমোডালিটির প্রতিছবিতে তাঁর GPT-4 এর সংদর্ভ ছিল।

প্রকাশিত খবরটি বলেছে:

“কেন ব্যাখ্যা করলেন মাল্টিমোডাল এইআইর সম্পর্কে যা যেখানে টেক্সটকে চিত্রও হিসাবে না মাত্রই মিউজিক এবং ভিডিওতেও অনুবাদ করতে পারে।”

আরেকটি আকর্ষণীয় তথ্য হলো মাইক্রোসফট এখন আপনাকে আইতে প্রামান্যতা বানিয়ে আপনাকে আই টি আর নির্ভরযোগ্য করার জন্য "আত্মবিশ্বাস গণনার মান" এবং তথ্যে আধারিত কাজ করছে।

মাইক্রোসফ্ট কসমোস-১

ইউনাইটেড স্টেটসের আড়ালে বলতেই সুযোগ্যভাবে প্রচারিত হয়নি যে মাইক্রোসফট মার্চ ২023 এর শুরুতে কসমোস-1 নামক একটি মাল্টিমোডাল ভাষা মডেল মুক্তি দিয়েছে।

জার্মান সংবাদ সাইট, Heise.de, অনুসারে প্রতিবেদনের অনুযায়ীঃ

“ ... দলটি পূর্ববর্তীভাবে প্রশিক্ষিত মডেলকে বিভিন্ন পরীক্ষায় বিষয়বস্তুগুলিতে নিয়ন্ত্রণ করে ছিল, যেমন চিত্রগুলির শ্রেণীবিভাজন, চিত্র বিষয়ে প্রশ্নের উত্তর, চিত্রের স্বয়ংক্রিয় লেবেলিং, অপটিকাল টেক্সট সনাক্তকরণ এবং কথ্য উৎপাদন করার কাজসমূহে ভাল ফলাফল দেওয়া হয়েছে।

...চিত্রের সাহায্যে কথা ব্যবহার না করে চিত্র সম্পর্কে সমাপ্তি নিয়ে নেওয়ার মতো মনে হলে এখানে গুরুত্বপূর্ণ একটি শব্দ বিচারক হতে পারে...

Kosmos-1 একটি মাল্টিমোডাল মোডাল, যা পাঠ্য এবং চিত্র মোডালিটিগুলির সংযোজন করে।

GPT-4 কসমোস-1 এতেরও অগ্র যাচ্ছে কারণ এটি একটি তৃতীয় মোডালিটি, ভিডিও, যোগ করে এবং আপাততার মোডালিটি সহিত প্রতীক্ষাকৃতি.

একাধিক ভাষায় কাজ করবে

GPT-4 এখানে সমস্ত ভাষায় কাজ করতে পারে। এটি বর্ণিত হয় যে এটি জার্মান ভাষায় একটি প্রশ্ন গ্রহণ করতে পারে এবং ইতালিয়ান ভাষায় উত্তর দিতে পারে।

সেটা একটু বিচিত্র উদাহরণ হলেও, যে কেউ কেন জার্মানিতে প্রশ্ন করবেন এবং ইতালীয়ে এর উত্তর পেতে চাওয়া হবে কেন?

এটি যা নিশ্চিত হয়েছে:

"...প্রযুক্তি এত দূর অগ্রসর হয়েছে যে এখন ঐতিহাসিকভাবে 'সব ভাষায়' কাজ করে: আপনি জার্মান ভাষায় একটি প্রশ্ন করতে পারেন এবং ইতালিয়ান ভাষায় একটি উত্তর পেতে পারেন।"

মাল্টিমোডালিটির মাধ্যমে, মাইক্রোসফ্ট(-ওপেন এইআই) মডেলগুলি 'সম্পূর্ণভাবে' করবে।"

আমি মনে করি এই পুঁজিতের পয়েন্ট হলো যে মডেলটি ভাষার উপরে উঠে যায় না, এর মাধ্যমে তা বিভিন্ন ভাষার পারম্পরিক জ্ঞান সংগ্রহ করে। তাই যদি উত্তরটি ইতালিয়ান ভাষায় থাকে তবে এটি জানবে এবং প্রশ্নটি জিনিস্কৃত ভাষায় উত্তর প্রদান করতে সক্ষম হবে।

এটি Google এর বলা হচ্ছে মাল্টিমোডাল এইআই এর লক্ষ্যকে সামান্য করতে। MUM এর মাধ্যমে বলা হচ্ছে যে এটি জ্ঞান মেয়ে উত্তর দেতে পারে যা শুধুমাত্র একটি ভাষায় আছে, যেমন জাপানিজ।

GPT-4 ব্যবহারসমূহ

এখনও সংক্ষিপ্ত কোথায় GPT-4 প্রদর্শিত হবে সে সম্পর্কে কোনো ঘোষণা নেই। তবে Azure-OpenAI এক্সপ্লিসিটলি উল্লিখিত হয়েছে।

মাইক্রোসফট এর সঙ্গে সংগ্রাম করছে গুগল, নিজের সার্চ ইঞ্জিনে একটি প্রতিদ্বন্দ্বী প্রযুক্তিকে মেলানোর চেষ্টা করে। এই উন্নয়নটি আরও উচ্চারণ করে যায় যে গুগল আগেই পিছিয়ে পড়েছে এবং গ্রাহক-মুখী কনজ্যুমার এআই এই দিকে নেতৃত্ব অভাবের মধ্যে রয়েছে।

গুগল ইতিমধ্যে একাধিক পণ্যে এইচটিএমএল শীর্ষকৃত AI সংযোগ করে যেমন গুগল লেন্স, গুগল ম্যাপস এবং অন্যান্য অঞ্চলগুলিতে জনগণ গুগল সাথে সংস্পর্শ করে। এই পদক্ষেপটি হচ্ছে একটি এআই-সহায়ক প্রযুক্তি হিসাবে এআই ব্যবহার করা, যাতে মানুষকে ছোট কাজগুলিতে সাহায্য করা যায়।

মাইক্রোসফটই এটি বাস্তবায়ন করছে এবং পরিণামস্বরূপ এটি সবচেয়ে দৃশ্যমান হচ্ছে, এবং ফলতা Google এর চিত্তচাপের চিত্রকে উজ্জ্বল করার ডাক্তার করে এবং জটিল দিক থেকে গোটা জগতকে আহত করে যাচ্ছে।

আধিকারিক OpenAI GPT-4 মুক্তির ঘোষণা এখানে পড়ুন।

মূল জার্মান রিপোর্টিংটি এখানে পড়ুন:

GPT-4 পরের সপ্তাহে আসছে - এবং এটি মাল্টিমোডাল হবে, বলছে মাইক্রোসফ্ট জার্মানি

সম্পর্কিত নিবন্ধসমূহ

আরও দেখুন >>

HIX.AI দিয়ে AI এর শক্তি আনলক করুন!