চ্যাটজিপিটি ওয়াটারমার্ক কীভাবে কাজ করে এবং কেন এটি পরাজিত হতে পারে

chatgpt-watermarking.jpg

OpenAI এর ChatGPT স্বয়ংক্রিয়ভাবে বিষয়বস্তু তৈরি করার একটি উপায় চালু করেছে কিন্তু এটি সনাক্ত করা সহজ করার জন্য একটি ওয়াটারমার্কিং বৈশিষ্ট্য চালু করার পরিকল্পনা কিছু লোককে নার্ভাস করে তুলছে। এইভাবে ChatGPT ওয়াটারমার্কিং কাজ করে এবং কেন এটিকে পরাজিত করার উপায় থাকতে পারে।

চ্যাটজিপিটি একটি অবিশ্বাস্য টুল যা অনলাইন প্রকাশক, সহযোগী এবং এসইও একই সাথে ভালোবাসে এবং ভয় পায়।

কিছু বিপণনকারী এটি পছন্দ করে কারণ তারা বিষয়বস্তুর সংক্ষিপ্ত বিবরণ, রূপরেখা এবং জটিল নিবন্ধ তৈরি করতে এটি ব্যবহার করার নতুন উপায় আবিষ্কার করছে।

অনলাইন প্রকাশকরা এআই বিষয়বস্তু অনুসন্ধানের ফলাফলে প্লাবিত হওয়ার সম্ভাবনা নিয়ে ভীত, মানুষের দ্বারা লিখিত বিশেষজ্ঞ নিবন্ধগুলিকে প্রতিস্থাপন করে৷

ফলস্বরূপ, একটি ওয়াটারমার্কিং বৈশিষ্ট্যের খবর যা ChatGPT-রচিত বিষয়বস্তু সনাক্তকরণকে আনলক করে, একইভাবে উদ্বেগ এবং আশার সাথে প্রত্যাশিত।

ক্রিপ্টোগ্রাফিক ওয়াটারমার্ক

একটি ওয়াটারমার্ক হল একটি আধা-স্বচ্ছ চিহ্ন (একটি লোগো বা পাঠ্য) যা একটি চিত্রের সাথে এমবেড করা হয়। ওয়াটারমার্ক সিগন্যাল যে কাজের মূল লেখক।

এটি মূলত ফটোগ্রাফে এবং ভিডিওগুলিতে ক্রমবর্ধমানভাবে দেখা যায়।

ChatGPT-এ ওয়াটারমার্কিং টেক্সট একটি গোপন কোড আকারে শব্দ, অক্ষর এবং বিরামচিহ্নের একটি প্যাটার্ন এম্বেড করার আকারে ক্রিপ্টোগ্রাফি জড়িত।

স্কট অ্যারনসন এবং চ্যাটজিপিটি ওয়াটারমার্কিং

Scott Aaronson নামে একজন প্রভাবশালী কম্পিউটার বিজ্ঞানীকে OpenAI জুন 2022 সালে AI সেফটি এবং অ্যালাইনমেন্ট নিয়ে কাজ করার জন্য নিয়োগ করেছিল।

AI সেফটি হল একটি গবেষণা ক্ষেত্র যা AI মানুষের ক্ষতি করতে পারে এমন উপায়গুলি অধ্যয়ন করে এবং সেই ধরনের নেতিবাচক ব্যাঘাত রোধ করার উপায় তৈরি করে।

ডিস্টিল বৈজ্ঞানিক জার্নাল, ওপেনএআই-এর সাথে যুক্ত লেখকদের সমন্বিত করে, এআই সুরক্ষাকে এইভাবে সংজ্ঞায়িত করে:

"দীর্ঘমেয়াদী কৃত্রিম বুদ্ধিমত্তার (AI) সুরক্ষার লক্ষ্য হল উন্নত AI সিস্টেমগুলি মানবিক মূল্যবোধের সাথে নির্ভরযোগ্যভাবে সংযুক্ত করা নিশ্চিত করা - যাতে তারা নির্ভরযোগ্যভাবে এমন কিছু করে যা লোকেরা তাদের করতে চায়।"

AI অ্যালাইনমেন্ট হল কৃত্রিম বুদ্ধিমত্তার ক্ষেত্র যা নিশ্চিত করে যে AI কাঙ্ক্ষিত লক্ষ্যগুলির সাথে সামঞ্জস্যপূর্ণ।

ChatGPT-এর মতো একটি বড় ভাষা মডেল (LLM) এমনভাবে ব্যবহার করা যেতে পারে যা ওপেনএআই দ্বারা সংজ্ঞায়িত AI অ্যালাইনমেন্টের লক্ষ্যগুলির বিপরীত হতে পারে, যা মানবতার উপকার করে এমন AI তৈরি করা।

তদনুসারে, ওয়াটারমার্কিংয়ের কারণ হ'ল মানবতার ক্ষতি করে এমনভাবে AI এর অপব্যবহার রোধ করা।

অ্যারনসন ওয়াটারমার্কিং চ্যাটজিপিটি আউটপুট করার কারণ ব্যাখ্যা করেছেন:

"এটি একাডেমিক চুরি প্রতিরোধের জন্য সহায়ক হতে পারে, স্পষ্টতই, কিন্তু এছাড়াও, উদাহরণস্বরূপ, প্রচারের ব্যাপক প্রজন্ম..."

ChatGPT ওয়াটারমার্কিং কিভাবে কাজ করে?

চ্যাটজিপিটি ওয়াটারমার্কিং এমন একটি সিস্টেম যা একটি পরিসংখ্যানগত প্যাটার্ন, একটি কোড, শব্দের পছন্দ এবং এমনকি বিরাম চিহ্নের মধ্যে এম্বেড করে।

কৃত্রিম বুদ্ধিমত্তা দ্বারা তৈরি বিষয়বস্তু শব্দ চয়নের মোটামুটি অনুমানযোগ্য প্যাটার্ন দিয়ে তৈরি করা হয়।

মানুষ এবং AI দ্বারা লিখিত শব্দগুলি একটি পরিসংখ্যানগত প্যাটার্ন অনুসরণ করে।

জেনারেট করা বিষয়বস্তুতে ব্যবহৃত শব্দের প্যাটার্ন পরিবর্তন করা টেক্সটটিকে "ওয়াটারমার্ক" করার একটি উপায় যাতে এটি একটি AI টেক্সট জেনারেটরের পণ্য কিনা তা সনাক্ত করা একটি সিস্টেমের জন্য সহজ করে তোলে।

যে কৌশলটি এআই বিষয়বস্তু ওয়াটারমার্কিংকে সনাক্তযোগ্য করে তোলে তা হল শব্দের বিতরণে এখনও সাধারণ এআই তৈরি করা পাঠ্যের মতো একটি এলোমেলো চেহারা রয়েছে।

এটি শব্দের একটি ছদ্ম র্যান্ডম বিতরণ হিসাবে উল্লেখ করা হয়।

Pseudorandomness হল পরিসংখ্যানগতভাবে র্যান্ডম ধারার শব্দ বা সংখ্যা যা আসলে এলোমেলো নয়।

ChatGPT ওয়াটারমার্কিং বর্তমানে ব্যবহার করা হচ্ছে না। তবে ওপেনএআই-এর স্কট অ্যারনসন রেকর্ডে বলেছেন যে এটি পরিকল্পিত।

এই মুহূর্তে ChatGPT প্রিভিউতে রয়েছে, যা OpenAI-কে বাস্তব-বিশ্ব ব্যবহারের মাধ্যমে "মিস্যালাইনমেন্ট" আবিষ্কার করতে দেয়।

সম্ভবত ওয়াটারমার্কিং ChatGPT-এর চূড়ান্ত সংস্করণে বা তার চেয়েও তাড়াতাড়ি চালু করা হতে পারে।

স্কট অ্যারনসন কীভাবে ওয়াটারমার্কিং কাজ করে সে সম্পর্কে লিখেছেন:

“আমার মূল প্রকল্পটি এখন পর্যন্ত জিপিটি-এর মতো টেক্সট মডেলের আউটপুটকে পরিসংখ্যানগতভাবে ওয়াটারমার্ক করার একটি হাতিয়ার।

মূলত, যখনই জিপিটি কিছু দীর্ঘ টেক্সট তৈরি করে, আমরা চাই এর শব্দের পছন্দে একটি অন্যথায় অলক্ষিত গোপন সংকেত থাকুক, যা আপনি পরে প্রমাণ করতে ব্যবহার করতে পারেন যে, হ্যাঁ, এটি জিপিটি থেকে এসেছে।"

অ্যারনসন আরও ব্যাখ্যা করেছেন কিভাবে চ্যাটজিপিটি ওয়াটারমার্কিং কাজ করে। কিন্তু প্রথমে, টোকেনাইজেশনের ধারণাটি বোঝা গুরুত্বপূর্ণ।

টোকেনাইজেশন এমন একটি পদক্ষেপ যা প্রাকৃতিক ভাষা প্রক্রিয়াকরণে ঘটে যেখানে মেশিনটি একটি নথিতে শব্দ নেয় এবং শব্দ এবং বাক্যের মতো শব্দার্থিক ইউনিটে বিভক্ত করে।

টোকেনাইজেশন পাঠ্যকে একটি কাঠামোগত আকারে পরিবর্তন করে যা মেশিন লার্নিংয়ে ব্যবহার করা যেতে পারে।

টেক্সট জেনারেশনের প্রক্রিয়া হল পূর্ববর্তী টোকেনের উপর ভিত্তি করে পরবর্তী কোন টোকেন আসবে তা অনুমান করা মেশিন।

এটি একটি গাণিতিক ফাংশন দিয়ে করা হয় যা পরবর্তী টোকেনটি কী হবে তার সম্ভাব্যতা নির্ধারণ করে, যাকে সম্ভাব্যতা বন্টন বলা হয়।

পরবর্তী কি শব্দ ভবিষ্যদ্বাণী করা হয় কিন্তু এটা র্যান্ডম.

ওয়াটারমার্কিংকে নিজেই অ্যারন সিউডোর্যান্ডম হিসাবে বর্ণনা করেছেন, যেটিতে একটি নির্দিষ্ট শব্দ বা বিরাম চিহ্ন থাকার জন্য একটি গাণিতিক কারণ রয়েছে তবে এটি এখনও পরিসংখ্যানগতভাবে এলোমেলো।

এখানে জিপিটি ওয়াটারমার্কিংয়ের প্রযুক্তিগত ব্যাখ্যা রয়েছে:

“GPT-এর জন্য, প্রতিটি ইনপুট এবং আউটপুট হল টোকেনের একটি স্ট্রিং, যা শব্দ হতে পারে কিন্তু বিরাম চিহ্ন, শব্দের কিছু অংশ বা আরও বেশি- মোট প্রায় 100,000 টোকেন রয়েছে৷

এর মূল অংশে, GPT ক্রমাগত পরবর্তী টোকেনের উপর একটি সম্ভাব্যতা বন্টন তৈরি করছে, যা পূর্ববর্তী টোকেনের স্ট্রিং এর উপর শর্তসাপেক্ষ।

নিউরাল নেট ডিস্ট্রিবিউশন জেনারেট করার পর, ওপেনএআই সার্ভার আসলে সেই ডিস্ট্রিবিউশন অনুযায়ী একটি টোকেন-অথবা 'তাপমাত্রা' নামক একটি প্যারামিটারের উপর নির্ভর করে বিতরণের কিছু পরিবর্তিত সংস্করণের নমুনা দেয়।

যতক্ষণ তাপমাত্রা অশূন্য থাকে, যদিও, পরবর্তী টোকেনের পছন্দে সাধারণত কিছু এলোমেলোতা থাকবে: আপনি একই প্রম্পট দিয়ে বারবার দৌড়াতে পারেন এবং প্রতিবার একটি ভিন্ন সম্পূর্ণতা (অর্থাৎ, আউটপুট টোকেনের স্ট্রিং) পেতে পারেন। .

তারপরে ওয়াটারমার্কের জন্য, পরবর্তী টোকেনটি এলোমেলোভাবে নির্বাচন করার পরিবর্তে, একটি ক্রিপ্টোগ্রাফিক সিউডোর্যান্ডম ফাংশন ব্যবহার করে এটিকে সিউডোর্যান্ডমভাবে নির্বাচন করা হবে, যার কী শুধুমাত্র ওপেনএআই-এর কাছে পরিচিত।

যারা টেক্সট পড়ছেন তাদের কাছে ওয়াটারমার্ক সম্পূর্ণ স্বাভাবিক বলে মনে হচ্ছে কারণ শব্দের পছন্দ অন্য সব শব্দের এলোমেলোতার অনুকরণ করছে।

এটি প্রযুক্তিগত ব্যাখ্যা:

"দৃষ্টান্তের জন্য, বিশেষ ক্ষেত্রে যে GPT-এর সম্ভাব্য টোকেনগুলির একটি গুচ্ছ ছিল যা এটি সমানভাবে সম্ভাব্য বিচার করে, আপনি সহজভাবে যে টোকেন সর্বাধিক করা হবে তা চয়ন করতে পারেন৷ চাবিটি জানেন না এমন কারও কাছে পছন্দটি সমানভাবে এলোমেলো দেখাবে, কিন্তু যে কেউ কীটি জানে সে পরে সমস্ত এন-গ্রামের যোগফল দিতে পারে এবং দেখতে পারে যে এটি অস্বাভাবিকভাবে বড়।"

ওয়াটারমার্কিং হল একটি গোপনীয়তা-প্রথম সমাধান

আমি সোশ্যাল মিডিয়াতে আলোচনা দেখেছি যেখানে কিছু লোক পরামর্শ দিয়েছে যে OpenAI এটি তৈরি করা প্রতিটি আউটপুটের একটি রেকর্ড রাখতে পারে এবং সনাক্তকরণের জন্য ব্যবহার করতে পারে।

স্কট অ্যারনসন নিশ্চিত করেছেন যে ওপেনএআই এটি করতে পারে তবে এটি একটি গোপনীয়তার সমস্যা তৈরি করে। সম্ভাব্য ব্যতিক্রম আইন প্রয়োগকারী পরিস্থিতির জন্য, যা তিনি বিস্তারিতভাবে বলেননি।

কিভাবে ChatGPT বা GPT ওয়াটারমার্কিং সনাক্ত করতে হয়

কিছু আকর্ষণীয় যা এখনও সুপরিচিত বলে মনে হচ্ছে না তা হল স্কট অ্যারনসন উল্লেখ করেছেন যে ওয়াটারমার্কিংকে পরাস্ত করার একটি উপায় রয়েছে।

তিনি বলেননি যে ওয়াটারমার্কিংকে পরাজিত করা সম্ভব , তিনি বলেছিলেন যে এটি পরাজিত হতে পারে

"এখন, এই সব যথেষ্ট প্রচেষ্টার সঙ্গে পরাজিত করা যেতে পারে.

উদাহরণস্বরূপ, আপনি যদি GPT-এর আউটপুট ব্যাখ্যা করতে অন্য AI ব্যবহার করেন - ঠিক আছে, আমরা এটি সনাক্ত করতে সক্ষম হব না।"

মনে হচ্ছে ওয়াটারমার্কিং পরাজিত হতে পারে, অন্তত নভেম্বর থেকে যখন উপরের বিবৃতিগুলি তৈরি করা হয়েছিল।

ওয়াটারমার্কিং বর্তমানে ব্যবহার হচ্ছে এমন কোন ইঙ্গিত নেই। কিন্তু যখন এটি ব্যবহারে আসে, তখন এই ফাঁকফোকরটি বন্ধ ছিল কিনা তা অজানা হতে পারে।

উদ্ধৃতি

এখানে স্কট অ্যারনসনের ব্লগ পোস্ট পড়ুন।

সম্পর্কিত নিবন্ধসমূহ

আরও দেখুন >>

HIX.AI দিয়ে AI এর শক্তি আনলক করুন!