[ad_1]
এআই ল্যাবগুলি ক্রমবর্ধমানভাবে তাদের সর্বশেষ মডেলগুলির শক্তি এবং দুর্বলতাগুলির তদন্ত করতে চ্যাটবোট অ্যারেনার মতো ভিড়সোসেসড বেঞ্চমার্কিং প্ল্যাটফর্মগুলির উপর নির্ভর করছে। তবে কিছু বিশেষজ্ঞ বলেছেন যে নৈতিক ও একাডেমিক দৃষ্টিকোণ থেকে এই পদ্ধতির সাথে গুরুতর সমস্যা রয়েছে।
গত কয়েক বছর ধরে, ওপেনএআই, গুগল এবং মেটা সহ ল্যাবগুলি এমন প্ল্যাটফর্মগুলিতে পরিণত হয়েছে যা আগত মডেলগুলির সক্ষমতা মূল্যায়নে ব্যবহারকারীদের নিয়োগ দেয়। যখন কোনও মডেল অনুকূলভাবে স্কোর করে, এর পিছনে ল্যাবটি প্রায়শই অর্থবহ উন্নতির প্রমাণ হিসাবে স্কোর করে।
ওয়াশিংটনের ভাষাতত্ত্ব বিশ্ববিদ্যালয়ের অধ্যাপক এবং “দ্য এআই কন।” বইয়ের সহ-লেখক এমিলি বেন্ডারের মতে এটি একটি ত্রুটিযুক্ত পদ্ধতির, তবে “দ্য এআই কন।” বেন্ডার চ্যাটবোট অ্যারেনার সাথে বিশেষ সমস্যা নেয়, যা স্বেচ্ছাসেবীদের দুটি বেনামে মডেলকে অনুরোধ করে এবং তাদের পছন্দের প্রতিক্রিয়া নির্বাচন করার কাজ করে।
“বৈধ হওয়ার জন্য, একটি মানদণ্ডকে নির্দিষ্ট কিছু পরিমাপ করা দরকার, এবং এর নির্মাণের বৈধতা থাকা দরকার-এটি হ’ল সুদের নির্মাণটি ভালভাবে সংজ্ঞায়িত করা হয়েছে এবং পরিমাপগুলি আসলে নির্মাণের সাথে সম্পর্কিত,” বেন্ডার বলেছিলেন। “চ্যাটবোট অ্যারেনা দেখেনি যে অন্যের উপরে একটি আউটপুটের পক্ষে ভোটদান আসলে পছন্দগুলির সাথে সম্পর্কিত, তবে সেগুলি সংজ্ঞায়িত করা যেতে পারে।”
এআই ফার্ম লেসানের সহ-প্রতিষ্ঠাতা এবং ডিস্ট্রিবিউটেড এআই রিসার্চ ইনস্টিটিউটের সহকর্মী আসমেল্যাশ টেকা হ্যাডগু বলেছেন যে তিনি মনে করেন যে চ্যাটবোট অ্যারেনার মতো বেঞ্চমার্কগুলি এআই ল্যাবস দ্বারা “অতিরঞ্জিত দাবী প্রচারের জন্য” “সহ-নির্বাচন” করা হচ্ছে। হাদগু মেটার লামা 4 ম্যাভেরিক মডেল জড়িত সাম্প্রতিক বিতর্কের দিকে ইঙ্গিত করেছিলেন। মেটা ফাইন ফাইন-টিউন ম্যাভেরিকের একটি সংস্করণে চ্যাটবোট অ্যারেনায় ভাল স্কোর করতে, কেবল সেই মডেলটিকে আরও খারাপ পারফরম্যান্স সংস্করণ প্রকাশের পক্ষে রোধ করতে।
হ্যাডগু বলেছিলেন, “বেঞ্চমার্কগুলি স্থির ডেটা সেটগুলির চেয়ে গতিশীল হওয়া উচিত,” একাধিক স্বতন্ত্র সত্তা যেমন সংস্থা বা বিশ্ববিদ্যালয়গুলিতে বিতরণ করা হয়েছে এবং বিশেষত শিক্ষার, স্বাস্থ্যসেবা এবং অন্যান্য ক্ষেত্রগুলি যেমন ব্যবহার করে তাদের জন্য স্বতন্ত্র ব্যবহারের ক্ষেত্রে বিশেষভাবে তৈরি করা হয়েছে যারা এগুলি ব্যবহার করেন [models] কাজের জন্য। “
হ্যাডগু এবং ক্রিস্টিন গ্লোরিয়া, যিনি পূর্বে অ্যাস্পেন ইনস্টিটিউটের উদীয়মান ও বুদ্ধিমান প্রযুক্তি উদ্যোগের নেতৃত্ব দিয়েছিলেন, তিনিও এই মামলাটি করেছিলেন যে মডেল মূল্যায়নকারীদের তাদের কাজের জন্য ক্ষতিপূরণ দেওয়া উচিত। গ্লোরিয়া বলেছিল যে এআই ল্যাবগুলি ডেটা লেবেলিং শিল্পের ভুলগুলি থেকে শিখতে হবে, যা কুখ্যাত এটির জন্য শোষণমূলক অনুশীলন। (কিছু ল্যাব হয়েছে অভিযুক্ত একই।)
গ্লোরিয়া বলেছিলেন, “সাধারণভাবে, ভিড়সোর্সড বেঞ্চমার্কিং প্রক্রিয়াটি মূল্যবান এবং আমাকে নাগরিক বিজ্ঞানের উদ্যোগের কথা মনে করিয়ে দেয়,” গ্লোরিয়া বলেছিলেন। “আদর্শভাবে, এটি ডেটা মূল্যায়ন এবং সূক্ষ্ম সুরকরণ উভয় ক্ষেত্রেই কিছুটা গভীরতা সরবরাহ করতে অতিরিক্ত দৃষ্টিভঙ্গি আনতে সহায়তা করে But
মডেলগুলির জন্য ভিড়সোর্সড রেড টিমিং ক্যাম্পেইন পরিচালনা করে গ্রে সোয়ান এআইয়ের প্রধান নির্বাহী কর্মকর্তা ম্যাট ফ্রেডেরিকসন বলেছিলেন যে “নতুন দক্ষতা শেখা এবং অনুশীলন করা” সহ বিভিন্ন কারণে স্বেচ্ছাসেবীরা গ্রে সোয়ানের প্ল্যাটফর্মের প্রতি আকৃষ্ট হন। (গ্রে সোয়ান কিছু পরীক্ষার জন্য নগদ পুরষ্কারও প্রদান করে।) তবুও, তিনি স্বীকার করেছেন যে পাবলিক মানদণ্ডগুলি “প্রদত্ত বেসরকারী” মূল্যায়নের জন্য “বিকল্প নয়”।
“[D]ফ্রেডেরিকসন বলেছিলেন, “ফ্রেডেরিকসন বলেছিলেন,” এভেলোপারদের অভ্যন্তরীণ মানদণ্ড, অ্যালগরিদমিক রেড টিম এবং চুক্তিবদ্ধ রেড টিমারদের উপরও নির্ভর করতে হবে যারা আরও বেশি উন্মুক্ত পদ্ধতির গ্রহণ করতে বা নির্দিষ্ট ডোমেন দক্ষতা আনতে পারে, “ফ্রেডেরিকসন বলেছিলেন।
মডেল মার্কেটপ্লেস ওপেনআরউটারের সিইও অ্যালেক্স আতল্লাহ, যা সম্প্রতি ওপেনএআইয়ের সাথে অংশীদারিত্ব করেছিল ওপেনএআইয়ের জিপিটি -৪.১ মডেলগুলিতে ব্যবহারকারীদের প্রাথমিক অ্যাক্সেস দেওয়ার জন্য, ওপেন টেস্টিং এবং একা মডেলগুলির বেঞ্চমার্কিং “যথেষ্ট নয়”। ইউসি বার্কলে-র এআই ডক্টরাল শিক্ষার্থী ওয়েই-লিন চিয়াং এবং লামারেনার অন্যতম প্রতিষ্ঠাতা, যা চ্যাটবোট অ্যারেনা বজায় রাখে।
চিয়াং বলেছিলেন, “আমরা অবশ্যই অন্যান্য পরীক্ষার ব্যবহারকে সমর্থন করি।” “আমাদের লক্ষ্য হ’ল একটি বিশ্বাসযোগ্য, উন্মুক্ত স্থান তৈরি করা যা বিভিন্ন এআই মডেল সম্পর্কে আমাদের সম্প্রদায়ের পছন্দগুলি পরিমাপ করে।”
চিয়াং বলেছিলেন যে ম্যাভেরিক বেঞ্চমার্কের পার্থক্যের মতো ঘটনাগুলি চ্যাটবোট অ্যারেনার নকশায় কোনও ত্রুটির ফলাফল নয়, বরং ল্যাবগুলি তার নীতিটি ভুল ব্যাখ্যা করে। এলএম অ্যারেনা ভবিষ্যতের তাত্পর্যগুলি ঘটতে বাধা দেওয়ার জন্য পদক্ষেপ নিয়েছে, চিয়াং বলেছিলেন, “ন্যায্য, পুনরুত্পাদনযোগ্য মূল্যায়নের প্রতি আমাদের প্রতিশ্রুতি জোরদার করার জন্য এর নীতিগুলি আপডেট করা সহ।”
চিয়াং বলেছিলেন, “আমাদের সম্প্রদায় এখানে স্বেচ্ছাসেবক বা মডেল পরীক্ষক হিসাবে নেই।” “লোকেরা এলএম এরিনা ব্যবহার করে কারণ আমরা তাদের এআইয়ের সাথে জড়িত হওয়ার জন্য এবং সম্মিলিত প্রতিক্রিয়া জানাতে একটি উন্মুক্ত, স্বচ্ছ জায়গা দিই। যতক্ষণ না লিডারবোর্ড বিশ্বস্ততার সাথে সম্প্রদায়ের কণ্ঠকে প্রতিফলিত করে, ততক্ষণ আমরা এটি ভাগ করে নেওয়ার জন্য স্বাগত জানাই।”
[ad_2]







