ওপেনএআইয়ের মডেলগুলি 'মুখস্থ' কপিরাইটযুক্ত সামগ্রী, নতুন গবেষণার পরামর্শ দেয়

ক নতুন অধ্যয়ন ওপেনাই তার কপিরাইটযুক্ত সামগ্রীতে কমপক্ষে কিছু এআই মডেলকে প্রশিক্ষণ দিয়েছিল বলে অভিযোগের প্রতি বিশ্বাসযোগ্যতা বলে মনে হয়।

ওপেনাই লেখক, প্রোগ্রামার এবং অন্যান্য অধিকার -ধিকারীদের দ্বারা আনা স্যুটগুলিতে জড়িত রয়েছে যারা কোম্পানিকে তাদের কাজগুলি-বই, কোডবেসগুলি এবং আরও কিছু ব্যবহার করার জন্য অভিযোগ করে যার অনুমতি ছাড়াই এর মডেলগুলি বিকাশ করতে পারে। ওপেনএআই দীর্ঘ দীর্ঘ দাবি করেছে ন্যায্য ব্যবহার প্রতিরক্ষা, তবে এই মামলার বাদী যুক্তি দিয়েছিলেন যে প্রশিক্ষণের জন্য মার্কিন কপিরাইট আইনে কোনও খোদাই করা নেই।

ওপেনাইয়ের মতো কোনও এপিআইয়ের পিছনে মডেলগুলির দ্বারা “মুখস্থ” প্রশিক্ষণের ডেটা সনাক্তকরণের জন্য একটি নতুন পদ্ধতির প্রস্তাব দেওয়ার জন্য ওয়াশিংটন বিশ্ববিদ্যালয়, কোপেনহেগেন বিশ্ববিদ্যালয় এবং স্ট্যানফোর্ডের গবেষকরা সহ-রচনা করেছিলেন এই সমীক্ষায়।

মডেলগুলি পূর্বাভাস ইঞ্জিন। প্রচুর ডেটাতে প্রশিক্ষিত, তারা নিদর্শনগুলি শিখেন – এভাবেই তারা প্রবন্ধ, ফটো এবং আরও অনেক কিছু তৈরি করতে সক্ষম। বেশিরভাগ আউটপুটগুলি প্রশিক্ষণের ডেটার ভারব্যাটিম অনুলিপি নয়, তবে মডেলগুলি “শিখুন” এর কারণে কিছু অনিবার্যভাবে রয়েছে। চিত্রের মডেলগুলি পাওয়া গেছে তাদের প্রশিক্ষিত সিনেমাগুলি থেকে স্ক্রিনশটগুলি পুনরায় সাজিয়ে রাখুনভাষার মডেলগুলি পর্যবেক্ষণ করা হয়েছে কার্যকরভাবে নিউজ নিবন্ধগুলি চুরি করা।

অধ্যয়নের পদ্ধতিটি এমন শব্দের উপর নির্ভর করে যে সহ-লেখকগণ “উচ্চ-সুরক্ষিত” বলে-এটি এমন শব্দগুলি যা বৃহত্তর কাজের দেহের প্রসঙ্গে অস্বাভাবিক হিসাবে দাঁড়িয়েছে। উদাহরণস্বরূপ, “জ্যাক এবং আমি রাডার হামিংয়ের সাথে নিখুঁতভাবে বসেছি” বাক্যটিতে “রাডার” শব্দটি উচ্চ-শৌখিন হিসাবে বিবেচিত হবে কারণ এটি “ইঞ্জিন” বা “রেডিও” এর মতো শব্দের চেয়ে পরিসংখ্যানগতভাবে কম সম্ভাবনা রয়েছে “হামিং” এর আগে।

সহ-লেখকরা জিপিটি -4 এবং জিপিটি -3.5 সহ বেশ কয়েকটি ওপেনএআই মডেলের তদন্ত করেছিলেন, কথাসাহিত্যের বই এবং নিউইয়র্ক টাইমসের টুকরোগুলির স্নিপেটগুলি থেকে উচ্চ-শৌখিন শব্দগুলি সরিয়ে এবং মডেলগুলি “অনুমান” করার চেষ্টা করে যা শব্দগুলি মুখোশযুক্ত করা হয়েছিল। যদি মডেলগুলি সঠিকভাবে অনুমান করতে সক্ষম হয় তবে সম্ভবত তারা প্রশিক্ষণের সময় স্নিপেটটি মুখস্থ করেছিল, সহ-লেখকদের উপসংহারে পৌঁছেছে।

ওপেনাই কপিরাইট স্টাডি — একটি মডেল “অনুমান” একটি উচ্চ-শৌখিন শব্দ থাকার একটি উদাহরণ।**চিত্রের ক্রেডিট:**ওপেনই

পরীক্ষার ফলাফল অনুসারে, জিপিটি -4 জনপ্রিয় কথাসাহিত্যের বইগুলির মুখস্থ অংশগুলি রাখার লক্ষণ দেখিয়েছিল, যার মধ্যে বুকমিয়া নামক কপিরাইটযুক্ত ইবুকের নমুনাযুক্ত একটি ডেটাসেটে বই রয়েছে। ফলাফলগুলি আরও পরামর্শ দিয়েছে যে মডেলটি তুলনামূলকভাবে কম হারে নিউইয়র্ক টাইমসের নিবন্ধগুলির অংশগুলি মুখস্থ করেছে।

ওয়াশিংটন বিশ্ববিদ্যালয়ের ডক্টরাল শিক্ষার্থী এবং এই গবেষণার সহ-লেখক অভিহিলাশা রবিচান্দার টেকক্রাঞ্চকে বলেছিলেন যে এই অনুসন্ধানগুলি “বিতর্কিত তথ্য” মডেলগুলির উপর আলোকপাত করেছে প্রশিক্ষণ দেওয়া হতে পারে।

“বিশ্বাসযোগ্য বড় ভাষার মডেলগুলি রাখার জন্য, আমাদের এমন মডেল থাকা দরকার যা আমরা বৈজ্ঞানিকভাবে তদন্ত করতে এবং নিরীক্ষণ করতে এবং পরীক্ষা করতে পারি,” রবিচান্ডার বলেছিলেন। “আমাদের কাজের লক্ষ্য বৃহত ভাষার মডেলগুলি তদন্তের একটি সরঞ্জাম সরবরাহ করা, তবে পুরো বাস্তুতন্ত্রের বৃহত্তর ডেটা স্বচ্ছতার সত্যিকারের প্রয়োজন রয়েছে।”

ওপেনএআই দীর্ঘদিন ধরে কপিরাইটযুক্ত ডেটা ব্যবহার করে মডেলগুলি বিকাশকারী মডেলগুলিতে আলগা বিধিনিষেধের পক্ষে পরামর্শ দিয়েছে। যদিও সংস্থার নির্দিষ্ট সামগ্রী লাইসেন্সিং ডিল রয়েছে এবং অপ্ট-আউট প্রক্রিয়াগুলি সরবরাহ করে যা কপিরাইট মালিকদের সামগ্রী পতাকা জানাতে দেয় যা তারা প্রশিক্ষণের উদ্দেশ্যে সংস্থাটি ব্যবহার না করে পছন্দ করে, এটি এআই প্রশিক্ষণের পদ্ধতির চারপাশে “ন্যায্য ব্যবহার” বিধিগুলিকে কোড করার জন্য বেশ কয়েকটি সরকারকে তদবির করেছে।