এআই বেঞ্চমার্কিং নিয়ে বিতর্ক পোকমন পৌঁছেছে

[ad_1]

এমনকি পোকেমনও এআই বেঞ্চমার্কিং বিতর্ক থেকে নিরাপদ নয়।

গত সপ্তাহে, ক এক্স পোস্ট ভাইরাল হয়েছে, দাবি করে যে গুগলের সর্বশেষ মিথুন মডেলটি মূল পোকেমন ভিডিও গেম ট্রিলজিতে নৃতাত্ত্বিক ফ্ল্যাগশিপ ক্লড মডেলকে ছাড়িয়ে গেছে। খবরে বলা হয়েছে, জেমিনি একজন বিকাশকারীদের টুইচ স্ট্রিমে ল্যাভেন্ডার শহরে পৌঁছেছিলেন; ক্লড ফেব্রুয়ারির শেষের দিকে মাউন্ট মুনে আটকে ছিল।

ল্যাভেন্ডার শহরে পৌঁছানোর পরে জেমিনি আক্ষরিক অর্থে পোকেমন ক্লড এটিএমের চেয়ে এগিয়ে

119 লাইভ ভিউগুলি কেবল বিটিডাব্লু, অবিশ্বাস্যভাবে আন্ডাররেটেড স্ট্রিম pic.twitter.com/8avsovai4x

– জুশ (@জুশ 21 ই 8) এপ্রিল 10, 2025

তবে পোস্টটি যা উল্লেখ করতে ব্যর্থ হয়েছিল তা হ’ল মিথুনির একটি সুবিধা ছিল।

যেমন রেডডিট ব্যবহারকারীরা উল্লেখ করা হয়েছে, যে বিকাশকারী জেমিনি স্ট্রিমটি বজায় রেখেছেন তিনি একটি কাস্টম মিনিপ তৈরি করেছিলেন যা মডেলটিকে কাটটেবল গাছের মতো গেমটিতে “টাইলস” সনাক্ত করতে সহায়তা করে। এটি গেমপ্লে সিদ্ধান্ত নেওয়ার আগে স্ক্রিনশটগুলি বিশ্লেষণ করার জন্য মিথুনির প্রয়োজনীয়তা হ্রাস করে।

এখন, পোকেমন হ’ল একটি আধা-গুরুতর এআই বেঞ্চমার্ক সেরা-খুব কম লোকই তর্ক করবে যে এটি কোনও মডেলের দক্ষতার একটি খুব তথ্যপূর্ণ পরীক্ষা। তবে এটা হয় একটি বেঞ্চমার্কের বিভিন্ন বাস্তবায়ন কীভাবে ফলাফলগুলিকে প্রভাবিত করতে পারে তার একটি শিক্ষামূলক উদাহরণ।

উদাহরণস্বরূপ, নৃতাত্ত্বিক রিপোর্ট বেঞ্চমার্ক সুই-বেঞ্চ যাচাই করা হয়েছে তার সাম্প্রতিক নৃতাত্ত্বিক 3.7 সনেট মডেলের জন্য দুটি স্কোর, যা কোনও মডেলের কোডিং দক্ষতার মূল্যায়ন করার জন্য ডিজাইন করা হয়েছে। ক্লাড 3.7 সনেট সুই-বেঞ্চ যাচাই করা 62.3% নির্ভুলতা অর্জন করেছে, তবে নৃতাত্ত্বিক বিকাশকারী একটি “কাস্টম স্ক্যাফোল্ড” সহ 70.3%।

সাম্প্রতিককালে, মেটা সূক্ষ্মভাবে একটি নির্দিষ্ট বেঞ্চমার্ক, এলএম অ্যারেনায় ভাল পারফর্ম করার জন্য এর নতুন মডেল লামা 4 ম্যাভেরিকের একটি সংস্করণকে সূক্ষ্মভাবে সুর করেছে। মডেলের ভ্যানিলা সংস্করণ একই মূল্যায়নে উল্লেখযোগ্যভাবে খারাপ স্কোর করে।

প্রদত্ত যে এআই বেঞ্চমার্কস-পোকেমন অন্তর্ভুক্ত-এটি শুরু করার জন্য অসম্পূর্ণ ব্যবস্থা, কাস্টম এবং অ-মানক বাস্তবায়নগুলি আরও জলকে আরও কাদা করার হুমকি দেয়। এটি বলার অপেক্ষা রাখে না, সম্ভবত এটি প্রকাশিত হওয়ার সাথে সাথে মডেলগুলির তুলনা করা আরও সহজ হয়ে উঠবে বলে মনে হয় না।

[ad_2]