একটি নতুন কাগজ এআই ল্যাব কোয়ের, স্ট্যানফোর্ড, এমআইটি এবং এআই 2 থেকে জনপ্রিয় ভিড়সোর্স করা এআই বেঞ্চমার্ক চ্যাটবোট অ্যারেনার পিছনে সংস্থা এলএম অ্যারেনাকে অভিযুক্ত করেছে, প্রতিদ্বন্দ্বীদের ব্যয়ে এআই সংস্থাগুলির একটি নির্বাচিত দলকে আরও ভাল লিডারবোর্ড স্কোর অর্জনে সহায়তা করার জন্য।
লেখকদের মতে, এলএম অ্যারেনা মেটা, ওপেনএআই, গুগল এবং অ্যামাজনের মতো কিছু শিল্প-শীর্ষস্থানীয় এআই সংস্থাগুলিকে এআই মডেলগুলির বিভিন্ন রূপগুলি ব্যক্তিগতভাবে পরীক্ষা করার অনুমতি দেয়, তারপরে সর্বনিম্ন পারফর্মারদের স্কোর প্রকাশ না করে। লেখকরা বলছেন যে এই সংস্থাগুলির পক্ষে প্ল্যাটফর্মের লিডারবোর্ডে শীর্ষস্থানীয় স্থান অর্জন করা আরও সহজ হয়েছিল, যদিও প্রতিটি ফার্মকে সুযোগটি সরবরাহ করা হয়নি, লেখকরা বলছেন।
“শুধুমাত্র এক মুঠো [companies] বলা হয়েছিল যে এই বেসরকারী পরীক্ষাটি উপলব্ধ ছিল, এবং কিছু ব্যক্তিগত পরীক্ষার পরিমাণ যা কিছু [companies] প্রাপ্তি অন্যদের তুলনায় অনেক বেশি, “এআই রিসার্চের ভিপি এবং অধ্যয়নের সহ-লেখক সারা হুকার বলেছেন, টেকক্রাঞ্চের সাথে একটি সাক্ষাত্কারে।” এটি গ্যামিফিকেশন। “
ইউসি বার্কলে থেকে একাডেমিক গবেষণা প্রকল্প হিসাবে 2023 সালে নির্মিত, চ্যাটবোট অ্যারেনা এআই সংস্থাগুলির জন্য একটি বেঞ্চমার্কে পরিণত হয়েছে। এটি “যুদ্ধে” পাশাপাশি দুটি পৃথক এআই মডেল থেকে উত্তর রেখে এবং ব্যবহারকারীদের সেরাটি বেছে নিতে বলে কাজ করে। ছদ্মনামে অ্যারেনায় প্রতিযোগিতা করা অপ্রকাশিত মডেলগুলি দেখতে অস্বাভাবিক কিছু নয়।
সময়ের সাথে সাথে ভোটগুলি কোনও মডেলের স্কোরকে অবদান রাখে – এবং ফলস্বরূপ, চ্যাটবোট অ্যারেনা লিডারবোর্ডে এর স্থান নির্ধারণ করে। যদিও অনেক বাণিজ্যিক অভিনেতা চ্যাটবোট অ্যারেনায় অংশ নেন, এলএম অ্যারেনা দীর্ঘদিন ধরে বজায় রেখেছেন যে এর মানদণ্ডটি একটি নিরপেক্ষ এবং ন্যায্য।
যাইহোক, কাগজের লেখকরা যা বলছেন তা তারা অনাবৃত করেছেন তা নয়।
মেটা, একটি এআই সংস্থা জানুয়ারী থেকে মার্চের মধ্যে চ্যাটবোট অ্যারেনায় 27 টি মডেল ভেরিয়েন্টগুলি বেসরকারীভাবে পরীক্ষা করতে সক্ষম হয়েছিল, লেখকরা অভিযোগ করেছেন। লঞ্চে, মেটা কেবল প্রকাশ্যে একটি একক মডেলের স্কোর প্রকাশ করেছিল – এমন একটি মডেল যা চ্যাটবোট এরিনা লিডারবোর্ডের শীর্ষের কাছে র্যাঙ্ক করতে ঘটেছিল।
টেকক্রাঞ্চ ইভেন্ট
বার্কলে, সিএ
|
জুন 5
এখনই বুক করুন

টেকক্রাঞ্চকে একটি ইমেলের মাধ্যমে, এলএম এরিনা সহ-প্রতিষ্ঠাতা এবং ইউসি বার্কলে অধ্যাপক আয়ন স্টোইকা বলেছিলেন যে এই গবেষণাটি “ভুল” এবং “প্রশ্নবিদ্ধ বিশ্লেষণ” পূর্ণ ছিল।
“আমরা সুষ্ঠু, সম্প্রদায়ভিত্তিক মূল্যায়নের প্রতি প্রতিশ্রুতিবদ্ধ এবং সমস্ত মডেল সরবরাহকারীদের পরীক্ষার জন্য আরও মডেল জমা দেওয়ার জন্য এবং মানুষের পছন্দ সম্পর্কে তাদের কর্মক্ষমতা উন্নত করার জন্য আমন্ত্রণ জানাই,” টেকক্রাঞ্চকে প্রদত্ত এক বিবৃতিতে এলএম এরিনা বলেছেন। “যদি কোনও মডেল সরবরাহকারী অন্য মডেল সরবরাহকারীর চেয়ে আরও বেশি পরীক্ষা জমা দিতে পছন্দ করে তবে এর অর্থ এই নয় যে দ্বিতীয় মডেল সরবরাহকারীকে অন্যায় আচরণ করা হয়।”
গুগল ডিপমাইন্ডের প্রধান গবেষক আরমান্ড জুলিন এও উল্লেখ করেছেন এক্স পোস্ট যে অধ্যয়নের কিছু সংখ্যা ভুল ছিল, দাবি করে যে গুগল কেবল একটি জেমমা 3 এআই মডেলকে এলএম অ্যারেনায় প্রাক-প্রকাশের পরীক্ষার জন্য পাঠিয়েছিল। হুকার এক্স -তে জুলিনকে প্রতিক্রিয়া জানিয়েছিলেন, প্রতিশ্রুতি দিয়েছিলেন যে লেখকরা সংশোধন করবেন।
অনুমিত ল্যাবগুলি অনুমিত
এই কাগজের লেখকরা 2024 সালের নভেম্বরে তাদের গবেষণা পরিচালনা শুরু করেছিলেন যে কিছু এআই সংস্থাকে সম্ভবত চ্যাটবোট অ্যারেনায় পছন্দসই অ্যাক্সেস দেওয়া হচ্ছে তা শিখার পরে। মোট, তারা পাঁচ মাসের প্রসারিত 2.8 মিলিয়নেরও বেশি চ্যাটবোট আখড়াগুলি পরিমাপ করেছে।
লেখকরা বলছেন যে তারা প্রমাণ পেয়েছেন যে এলএম অ্যারেনা মেটা, ওপেনএআই এবং গুগল সহ কয়েকটি এআই সংস্থাগুলিকে তাদের মডেলগুলিকে উচ্চতর সংখ্যক মডেল “যুদ্ধ” এ উপস্থিত করে আরও ডেটা সংগ্রহ করার অনুমতি দিয়েছে। এই বর্ধিত নমুনা হার এই সংস্থাগুলিকে একটি অন্যায় সুবিধা দিয়েছে, লেখকরা অভিযোগ করেছেন।
এলএম অ্যারেনা থেকে অতিরিক্ত ডেটা ব্যবহার করে অ্যারেনা হার্ডে একটি মডেলের পারফরম্যান্স উন্নত করতে পারে, অন্য একটি বেঞ্চমার্ক এলএম এরিনা 112%দ্বারা বজায় রাখে। তবে এলএম এরিনা এ বলেছেন এক্স পোস্ট সেই আখড়া কঠোর পারফরম্যান্স সরাসরি চ্যাটবোট অ্যারেনা পারফরম্যান্সের সাথে সম্পর্কিত নয়।
হুকার বলেছিলেন যে এআই সংস্থাগুলি কীভাবে অগ্রাধিকার অ্যাক্সেস পেয়েছে তা স্পষ্ট নয়, তবে এলএম অ্যারেনায় এটি তার স্বচ্ছতা নির্বিশেষে বাড়ানোর পক্ষে দায়বদ্ধ।
একটি এক্স পোস্টএলএম অ্যারেনা বলেছিলেন যে কাগজের বেশ কয়েকটি দাবি বাস্তবতা প্রতিফলিত করে না। সংগঠনটি একটি নির্দেশিত ব্লগ পোস্ট এটি এই সপ্তাহের শুরুর দিকে প্রকাশিত হয়েছে যা ইঙ্গিত করে যে নন-মেজর ল্যাবগুলির মডেলগুলি অধ্যয়নের পরামর্শের চেয়ে বেশি চ্যাটবোট আখড়া যুদ্ধে উপস্থিত হয়।
অধ্যয়নের একটি গুরুত্বপূর্ণ সীমাবদ্ধতা হ’ল এটি চ্যাটবোট অঙ্গনে কোন এআই মডেলগুলি ব্যক্তিগত পরীক্ষায় ছিল তা নির্ধারণ করার জন্য এটি “স্ব-পরিচয়” এর উপর নির্ভর করে। লেখকরা এআই মডেলগুলিকে তাদের উত্স সংস্থা সম্পর্কে বেশ কয়েকবার অনুরোধ করেছিলেন এবং তাদের শ্রেণিবদ্ধ করার জন্য মডেলগুলির উত্তরগুলির উপর নির্ভর করেছিলেন – এমন একটি পদ্ধতি যা বোকা নয়।
তবে হুকার বলেছিলেন যে লেখকরা যখন তাদের প্রাথমিক অনুসন্ধানগুলি ভাগ করে নেওয়ার জন্য এলএম অ্যারেনায় পৌঁছেছিলেন, তখন সংস্থাটি তাদের বিতর্ক করেনি।
টেকক্রাঞ্চ মেটা, গুগল, ওপেনই এবং অ্যামাজনে পৌঁছেছিল – এগুলি সবই গবেষণায় উল্লেখ করা হয়েছিল – মন্তব্য করার জন্য। কেউ অবিলম্বে সাড়া দেয়নি।
গরম জলে এলএম আখড়া
কাগজে, লেখকরা এলএম অ্যারেনাকে চ্যাটবোট অ্যারেনাকে আরও “ন্যায্য” করার লক্ষ্যে বেশ কয়েকটি পরিবর্তন বাস্তবায়নের জন্য আহ্বান জানিয়েছেন। উদাহরণস্বরূপ, লেখকরা বলেছেন, এলএম অ্যারেনা এআই ল্যাবগুলি যে ব্যক্তিগত পরীক্ষার সংখ্যা পরিচালনা করতে পারে তার সংখ্যার উপর একটি পরিষ্কার এবং স্বচ্ছ সীমা নির্ধারণ করতে পারে এবং এই পরীক্ষাগুলি থেকে প্রকাশ্যে স্কোর প্রকাশ করতে পারে।
একটি এক্স পোস্ট, এলএম অ্যারেনা এই পরামর্শগুলি প্রত্যাখ্যান করে দাবি করে এটি প্রাক-রিলিজ পরীক্ষার তথ্য প্রকাশ করেছে 2024 মার্চ থেকে। বেঞ্চমার্কিং সংস্থাটি আরও বলেছে যে এটি “প্রাক-রিলিজ মডেলগুলির জন্য স্কোর দেখানোর কোনও অর্থ দেয় না যা প্রকাশ্যে উপলভ্য নয়,” কারণ এআই সম্প্রদায় নিজের জন্য মডেলগুলি পরীক্ষা করতে পারে না।
গবেষকরা আরও বলেছেন যে এলএম অ্যারেনা আখড়ার সমস্ত মডেল একই সংখ্যক যুদ্ধে উপস্থিত হয় তা নিশ্চিত করার জন্য চ্যাটবোট অ্যারেনার নমুনা হার সামঞ্জস্য করতে পারে। এলএম অ্যারেনা এই সুপারিশটি প্রকাশ্যে গ্রহণযোগ্য হয়েছে এবং এটি নির্দেশ করেছে যে এটি একটি নতুন নমুনা অ্যালগরিদম তৈরি করবে।
মেটা তার উপরোক্ত উল্লিখিত লামা 4 মডেলের প্রবর্তনের আশেপাশে চ্যাটবোট অ্যারেনায় গেমিং বেঞ্চমার্কে ধরা পড়ার কয়েক সপ্তাহ পরে কাগজটি আসে। মেটা “কথোপকথন” এর জন্য লামা 4 মডেলগুলির মধ্যে একটিকে অনুকূলিত করেছে যা এটি চ্যাটবোট অ্যারেনার লিডারবোর্ডে একটি চিত্তাকর্ষক স্কোর অর্জনে সহায়তা করেছিল। তবে সংস্থাটি কখনই অপ্টিমাইজড মডেলটি প্রকাশ করেনি – এবং ভ্যানিলা সংস্করণটি চ্যাটবোট অ্যারেনায় আরও খারাপ পারফরম্যান্স শেষ করেছে।
সেই সময়, এলএম অ্যারেনা বলেছিলেন যে মেটা তার বেঞ্চমার্কিংয়ের পদ্ধতির ক্ষেত্রে আরও স্বচ্ছ হওয়া উচিত ছিল।
এই মাসের শুরুর দিকে, এলএম এরিনা ঘোষণা করেছিল এটি ছিল একটি সংস্থা চালু করাবিনিয়োগকারীদের কাছ থেকে মূলধন বাড়ানোর পরিকল্পনা নিয়ে। অধ্যয়নটি বেসরকারী বেঞ্চমার্ক সংস্থার উপর যাচাই -বাছাই বৃদ্ধি করে – এবং কর্পোরেট প্রভাব ছাড়াই এআই মডেলগুলি মূল্যায়ন করার জন্য তাদের বিশ্বাস করা যায় কিনা তা প্রক্রিয়াটিকে মেঘলা করে না।







