গবেষকরা পরামর্শ দিয়েছেন ওপেনএআই পে -ওয়েলড ও’রিলি বইগুলিতে এআই মডেলগুলি প্রশিক্ষণ দিয়েছে

[ad_1]

ওপেনএআই দ্বারা অভিযুক্ত করা হয়েছে অনেক কপিরাইটযুক্ত সামগ্রীতে এর এআই প্রশিক্ষণের দলগুলি অনুমতি দেয়। এখন একটি নতুন কাগজ একটি এআই ওয়াচডগ সংস্থা মারাত্মক অভিযোগ করেছে যে সংস্থাটি ক্রমবর্ধমান জনসাধারণের বইয়ের উপর নির্ভর করে এটি আরও পরিশীলিত এআই মডেলগুলি প্রশিক্ষণের জন্য লাইসেন্স দেয়নি।

এআই মডেলগুলি মূলত জটিল পূর্বাভাস ইঞ্জিন। প্রচুর ডেটা – বই, সিনেমা, টিভি শো এবং আরও অনেক কিছুতে প্রশিক্ষিত – তারা একটি সাধারণ প্রম্পট থেকে এক্সট্রোপোলেট করার জন্য নিদর্শন এবং অভিনব উপায়গুলি শিখেন। যখন কোনও মডেল গ্রীক ট্র্যাজেডির উপর একটি প্রবন্ধ “লেখেন” বা “আঁকেন” ঘিবলি-স্টাইলের চিত্রগুলি, এটি কেবল তার বিশাল জ্ঞান থেকে আনুমানিক দিকে টানছে। এটি নতুন কিছুতে পৌঁছায় না।

ওপেনএআই সহ বেশ কয়েকটি এআই ল্যাবগুলি এআই-উত্পন্ন ডেটা এআইকে প্রশিক্ষণের জন্য আলিঙ্গন শুরু করেছে কারণ তারা বাস্তব-বিশ্বের উত্সগুলি (মূলত পাবলিক ওয়েব) নিষ্কাশন করে, খুব কম লোকই পুরোপুরি বাস্তব-বিশ্বের ডেটা এড়িয়ে গেছে। এটি সম্ভবত কারণ খাঁটি সিন্থেটিক ডেটার উপর প্রশিক্ষণ ঝুঁকির সাথে আসে, যেমন কোনও মডেলের পারফরম্যান্সকে আরও খারাপ করার মতো।

এআই প্রকাশের প্রকল্পের বাইরে নতুন কাগজটি, ২০২৪ সালে মিডিয়া মোগুল টিম ও’রিলি এবং অর্থনীতিবিদ ইলান স্ট্রসের সহ-প্রতিষ্ঠিত একটি অলাভজনক এই সিদ্ধান্তে পৌঁছেছে যে ওপেনাই সম্ভবত ও’রিলি মিডিয়া থেকে পেওয়ালড বইগুলিতে তার জিপিটি -4o মডেলকে প্রশিক্ষণ দিয়েছিল। (ও’রিলি ও’রিলি মিডিয়ার সিইও।)

চ্যাটজিপিটি-তে, জিপিটি -4O হ’ল ডিফল্ট মডেল। ওরিলির ওপেনাইয়ের সাথে লাইসেন্সিং চুক্তি নেই, কাগজটি বলছে।

“জিপিটি -৪ ও, ওপেনএআইয়ের আরও সাম্প্রতিক এবং সক্ষম মডেল, পে-ওয়েলড ও’রিলি বইয়ের সামগ্রীর দৃ strong ় স্বীকৃতি প্রদর্শন করে […] ওপেনাইয়ের আগের মডেল জিপিটি -৩.৫ টার্বোয়ের তুলনায়, “কাগজের সহ-লেখক লিখেছেন।

কাগজটি একটি পদ্ধতি ব্যবহার করেছে ডি-কপপ্রথম 2024 সালে একটি একাডেমিক কাগজে প্রবর্তিত, ভাষা মডেলগুলির প্রশিক্ষণের ডেটাতে কপিরাইটযুক্ত সামগ্রী সনাক্ত করার জন্য ডিজাইন করা। একটি “সদস্যপদ অনুমানের আক্রমণ” হিসাবেও পরিচিত, পদ্ধতিটি পরীক্ষা করে যে কোনও মডেল একই পাঠ্যের প্যারাফ্রেসড, এআই-উত্পাদিত সংস্করণগুলি থেকে মানব-রচিত পাঠ্যগুলি নির্ভরযোগ্যভাবে পৃথক করতে পারে কিনা তা পরীক্ষা করে। যদি এটি পারে তবে এটি পরামর্শ দেয় যে মডেলটির প্রশিক্ষণের ডেটা থেকে পাঠ্য সম্পর্কে পূর্বের জ্ঞান থাকতে পারে।

কাগজের সহ-লেখক-ও’রিলি, স্ট্রস এবং এআই গবেষক শ্রুলি রোজেনব্ল্যাট-বলেছেন যে তারা জিপিটি -4 ও, জিপিটি -৩.৫ টার্বো এবং অন্যান্য ওপেনএআই মডেলগুলির ওপেনএআই মডেলগুলির জ্ঞান তাদের প্রশিক্ষণ কাটফের তারিখের আগে এবং পরে প্রকাশিত ও ওপেনএআই মডেলগুলির জ্ঞান অনুসন্ধান করেছে। তারা 34 ও’রিলি বইয়ের 13,962 অনুচ্ছেদের অংশগুলি ব্যবহার করেছিল যে কোনও নির্দিষ্ট অংশটি কোনও মডেলের প্রশিক্ষণ ডেটাসেটে অন্তর্ভুক্ত করা হয়েছিল এমন সম্ভাবনাটি অনুমান করার জন্য।

কাগজের ফলাফল অনুসারে, জিপিটি -৩.৫ টার্বো সহ ওপেনাইয়ের পুরানো মডেলগুলির চেয়ে জিপিটি -4o “স্বীকৃত” ও’রিলি বইয়ের সামগ্রী অনেক বেশি পে-ওয়েলড ও’রিলি বইয়ের সামগ্রী। এটি সম্ভাব্য বিভ্রান্তিকর কারণগুলির জন্য অ্যাকাউন্টিংয়ের পরেও, লেখকরা বলেছিলেন, পাঠ্যটি মানব-রচিত কিনা তা নির্ধারণের নতুন মডেলগুলির দক্ষতার উন্নতিগুলির মতো।

“জিপিটি -4 ও [likely] সহ-লেখক লিখেছেন, “সহ-লেখক লিখেছেন।

এটি কোনও ধূমপান বন্দুক নয়, সহ-লেখকগণ খেয়াল করার জন্য সতর্ক হন। তারা স্বীকার করে যে তাদের পরীক্ষামূলক পদ্ধতিটি নির্বোধ নয়, এবং ওপেনাই সম্ভবত ব্যবহারকারীদের অনুলিপি করে এবং এটি চ্যাটজিপিটিতে আটকানো ব্যবহারকারীদের কাছ থেকে পে -ওয়াল্ড বইয়ের অংশগুলি সংগ্রহ করেছে।

জলকে আরও ঠাট্টা করে, সহ-লেখক ওপেনাইয়ের সাম্প্রতিক মডেলগুলির সংগ্রহের মূল্যায়ন করেননি, যার মধ্যে জিপিটি -4.5 এবং “যুক্তি” মডেল যেমন O3-MINI এবং O1 এর মতো রয়েছে। এটা সম্ভব যে এই মডেলগুলি পেওয়ালড ও’রিলি বইয়ের ডেটা প্রশিক্ষণ দেওয়া হয়নি, বা জিপিটি -4O এর চেয়ে কম পরিমাণে প্রশিক্ষণ দেওয়া হয়েছিল।

বলা হচ্ছে, এটি কোনও গোপন বিষয় নয় যে ওপেনাই, যা কপিরাইটযুক্ত ডেটা ব্যবহার করে মডেলগুলি বিকাশের আশেপাশে আলগা বিধিনিষেধের পক্ষে পরামর্শ দিয়েছিল, কিছু সময়ের জন্য উচ্চমানের প্রশিক্ষণের ডেটা খুঁজছে। সংস্থাটি এতদূর চলে গেছে এর মডেলগুলির আউটপুটগুলিকে সূক্ষ্ম-সুর করতে সহায়তা করার জন্য সাংবাদিকদের ভাড়া করুন। এটি বিস্তৃত শিল্প জুড়ে একটি প্রবণতা: এআই সংস্থাগুলি বিজ্ঞান এবং পদার্থবিজ্ঞানের মতো ডোমেনগুলিতে বিশেষজ্ঞদের নিয়োগ করছে কার্যকরভাবে এই বিশেষজ্ঞরা তাদের জ্ঞানকে এআই সিস্টেমে খাওয়ান

এটি লক্ষ করা উচিত যে ওপেনএআই তার প্রশিক্ষণের কমপক্ষে কয়েকটি ডেটার জন্য অর্থ প্রদান করে। সংস্থাটির নিউজ প্রকাশক, সামাজিক নেটওয়ার্ক, স্টক মিডিয়া লাইব্রেরি এবং অন্যান্যদের সাথে লাইসেন্সিং চুক্তি রয়েছে। ওপেনাই অপ্ট-আউট প্রক্রিয়াও সরবরাহ করে- অসম্পূর্ণ যদিও – এটি কপিরাইটের মালিকদের এমন সামগ্রী পতাকা করার অনুমতি দেয় যা তারা প্রশিক্ষণের উদ্দেশ্যে ব্যবহার না করে সংস্থাটিকে পছন্দ করে।

তবুও, ওপেনাই তার প্রশিক্ষণের ডেটা অনুশীলন এবং মার্কিন আদালতে কপিরাইট আইনের চিকিত্সার জন্য বেশ কয়েকটি স্যুট লড়াই করার সাথে সাথে ও’রিলি কাগজটি সবচেয়ে চাটুকার চেহারা নয়।

ওপেনই মন্তব্যের জন্য কোনও অনুরোধের জবাব দেয়নি।

[ad_2]

Leave a Comment