এআই বেঞ্চমার্কিং নিয়ে বিতর্ক পোকমন পৌঁছেছে

[ad_1]

এমনকি পোকেমনও এআই বেঞ্চমার্কিং বিতর্ক থেকে নিরাপদ নয়।

গত সপ্তাহে, ক এক্স পোস্ট ভাইরাল হয়েছে, দাবি করে যে গুগলের সর্বশেষ মিথুন মডেলটি মূল পোকেমন ভিডিও গেম ট্রিলজিতে নৃতাত্ত্বিক ফ্ল্যাগশিপ ক্লড মডেলকে ছাড়িয়ে গেছে। খবরে বলা হয়েছে, জেমিনি একজন বিকাশকারীদের টুইচ স্ট্রিমে ল্যাভেন্ডার শহরে পৌঁছেছিলেন; ক্লড ফেব্রুয়ারির শেষের দিকে মাউন্ট মুনে আটকে ছিল।

তবে পোস্টটি যা উল্লেখ করতে ব্যর্থ হয়েছিল তা হ’ল মিথুনির একটি সুবিধা ছিল।

যেমন রেডডিট ব্যবহারকারীরা উল্লেখ করা হয়েছে, যে বিকাশকারী জেমিনি স্ট্রিমটি বজায় রেখেছেন তিনি একটি কাস্টম মিনিপ তৈরি করেছিলেন যা মডেলটিকে কাটটেবল গাছের মতো গেমটিতে “টাইলস” সনাক্ত করতে সহায়তা করে। এটি গেমপ্লে সিদ্ধান্ত নেওয়ার আগে স্ক্রিনশটগুলি বিশ্লেষণ করার জন্য মিথুনির প্রয়োজনীয়তা হ্রাস করে।

এখন, পোকেমন হ’ল একটি আধা-গুরুতর এআই বেঞ্চমার্ক সেরা-খুব কম লোকই তর্ক করবে যে এটি কোনও মডেলের দক্ষতার একটি খুব তথ্যপূর্ণ পরীক্ষা। তবে এটা হয় একটি বেঞ্চমার্কের বিভিন্ন বাস্তবায়ন কীভাবে ফলাফলগুলিকে প্রভাবিত করতে পারে তার একটি শিক্ষামূলক উদাহরণ।

উদাহরণস্বরূপ, নৃতাত্ত্বিক রিপোর্ট বেঞ্চমার্ক সুই-বেঞ্চ যাচাই করা হয়েছে তার সাম্প্রতিক নৃতাত্ত্বিক 3.7 সনেট মডেলের জন্য দুটি স্কোর, যা কোনও মডেলের কোডিং দক্ষতার মূল্যায়ন করার জন্য ডিজাইন করা হয়েছে। ক্লাড 3.7 সনেট সুই-বেঞ্চ যাচাই করা 62.3% নির্ভুলতা অর্জন করেছে, তবে নৃতাত্ত্বিক বিকাশকারী একটি “কাস্টম স্ক্যাফোল্ড” সহ 70.3%।

সাম্প্রতিককালে, মেটা সূক্ষ্মভাবে একটি নির্দিষ্ট বেঞ্চমার্ক, এলএম অ্যারেনায় ভাল পারফর্ম করার জন্য এর নতুন মডেল লামা 4 ম্যাভেরিকের একটি সংস্করণকে সূক্ষ্মভাবে সুর করেছে। মডেলের ভ্যানিলা সংস্করণ একই মূল্যায়নে উল্লেখযোগ্যভাবে খারাপ স্কোর করে।

প্রদত্ত যে এআই বেঞ্চমার্কস-পোকেমন অন্তর্ভুক্ত-এটি শুরু করার জন্য অসম্পূর্ণ ব্যবস্থা, কাস্টম এবং অ-মানক বাস্তবায়নগুলি আরও জলকে আরও কাদা করার হুমকি দেয়। এটি বলার অপেক্ষা রাখে না, সম্ভবত এটি প্রকাশিত হওয়ার সাথে সাথে মডেলগুলির তুলনা করা আরও সহজ হয়ে উঠবে বলে মনে হয় না।



[ad_2]

Leave a Comment