ওপেনএআই এর ও 3 এআই মডেলটি প্রাথমিকভাবে যে সংস্থার চেয়ে কম একটি মানদণ্ডে কমেছে তার চেয়ে কম স্কোর

[ad_1]

প্রথম এবং তৃতীয় পক্ষের বেঞ্চমার্কের মধ্যে একটি তাত্পর্য ওপেনএআই এর ও 3 এআই মডেলের জন্য ফলাফল সংস্থার স্বচ্ছতা সম্পর্কে প্রশ্ন উত্থাপন এবং মডেল পরীক্ষার অনুশীলন।

ওপেনাই ডিসেম্বরে ও 3 উন্মোচন করার সময়, সংস্থাটি দাবি করেছিল যে মডেলটি ফ্রন্টিয়ারমাথের চতুর্থ প্রশ্নের উত্তর দিতে পারে, গণিত সমস্যার একটি চ্যালেঞ্জিং সেট। এই স্কোরটি প্রতিযোগিতাটি উড়িয়ে দিয়েছে-পরের সেরা মডেলটি প্রায় 2% ফ্রন্টিয়ারমাথ সমস্যার সঠিকভাবে উত্তর দিতে সক্ষম হয়েছিল।

“আজ, সেখানে সমস্ত অফার রয়েছে 2% এরও কম [on FrontierMath]”ওপেনএআইয়ের প্রধান গবেষণা কর্মকর্তা মার্ক চেন, লাইভস্ট্রিমের সময় বলেছিলেন। “আমরা দেখছি [internally]আক্রমণাত্মক পরীক্ষা-সময় গণনা সেটিংসে ও 3 সহ, আমরা 25%এরও বেশি পেতে সক্ষম ””

দেখা যাচ্ছে যে, এই চিত্রটি সম্ভবত একটি উচ্চতর আবদ্ধ ছিল, যা ও 3 এর একটি সংস্করণ দ্বারা অর্জন করা হয়েছিল যা গত সপ্তাহে প্রকাশ্যে চালু হওয়া মডেল ওপেনাইয়ের চেয়ে আরও বেশি কম্পিউটিংয়ের পিছনে রয়েছে।

ফ্রন্টিয়ারমাথের পিছনে গবেষণা ইনস্টিটিউট ইপোচ এআই শুক্রবার ও 3 এর স্বাধীন বেঞ্চমার্ক পরীক্ষার ফলাফল প্রকাশ করেছে। এপোচে দেখা গেছে যে ও 3 প্রায় 10%স্কোর করেছে, ওপেনএআইয়ের সর্বোচ্চ দাবি করা স্কোরের নীচে।

এর অর্থ এই নয় যে ওপেনাই মিথ্যা কথা বলে, প্রতি সে। ডিসেম্বরে প্রকাশিত সংস্থাটি বেঞ্চমার্কের ফলাফলগুলি একটি নিম্ন-সীমাবদ্ধ স্কোর দেখায় যা স্কোর যুগের সাথে দেখা যায়। ইপোচ আরও উল্লেখ করেছে যে এর টেস্টিং সেটআপটি সম্ভবত ওপেনাইয়ের চেয়ে পৃথক এবং এটি তার মূল্যায়নের জন্য ফ্রন্টিয়ারথের একটি আপডেট রিলিজ ব্যবহার করেছে।

“আমাদের ফলাফল এবং ওপেনাইয়ের মধ্যে পার্থক্য আরও বেশি পরীক্ষার সময় ব্যবহার করে আরও শক্তিশালী অভ্যন্তরীণ স্ক্যাফোল্ডের সাথে মূল্যায়ন করার কারণে হতে পারে [computing]বা কারণ এই ফলাফলগুলি ফ্রন্টিয়ারমাথের একটি পৃথক উপসেটে চালিত হয়েছিল (ফ্রন্টিয়ারম্যাথ -2024-11-26 বনাম ফ্রন্টিয়ারমাথ -2025-02-28-প্রাইভেট) এর 290 সমস্যা), “180 টি সমস্যা),” লিখেছেন যুগ

এক্স এ একটি পোস্ট অনুযায়ী আর্ক প্রাইজ ফাউন্ডেশন থেকে, একটি সংস্থা যা ও 3 এর একটি প্রাক-প্রকাশের সংস্করণ পরীক্ষা করেছে, পাবলিক ও 3 মডেল “একটি আলাদা মডেল […] চ্যাট/পণ্য ব্যবহারের জন্য সুরযুক্ত, “এপোকের প্রতিবেদনটি সংশোধন করে।

“সমস্ত প্রকাশিত O3 গণনা স্তরগুলি আমরা সংস্করণের চেয়ে ছোট [benchmarked]”আর্ক প্রাইজ লিখেছেন। সাধারণভাবে বলতে গেলে, আরও বড় গণনা স্তরগুলি আরও ভাল বেঞ্চমার্ক স্কোর অর্জনের আশা করা যায়।

মঞ্জুর, ওপেনাইয়ের পরীক্ষার প্রতিশ্রুতির ওপেনস ফলস সংক্ষিপ্ত প্রকাশের বিষয়টি কিছুটা মূল বিষয়, যেহেতু কোম্পানির ও -3-মিনিট-উঁচু এবং ও 4-মিনিট মডেলগুলি ফ্রন্টিয়ারমাথে ও 3 কে ছাড়িয়ে গেছে এবং ওপেনাই আগামী সপ্তাহগুলিতে আরও শক্তিশালী ও 3 বৈকল্পিক, ও 3-প্রো-এর আত্মপ্রকাশের পরিকল্পনা করেছে।

তবে এটি আরেকটি অনুস্মারক যে এআই বেঞ্চমার্কগুলি মুখের মূল্য হিসাবে নেওয়া হয় না – বিশেষত যখন উত্সটি বিক্রয় করার জন্য পরিষেবাগুলির একটি সংস্থা হয়।

নতুন মডেলগুলির সাথে শিরোনাম এবং মাইন্ডশেয়ার ক্যাপচার করার জন্য বিক্রেতাদের প্রতিযোগিতা হিসাবে বেঞ্চমার্কিং “বিতর্কগুলি” এআই শিল্পে একটি সাধারণ ঘটনা হয়ে উঠছে।

জানুয়ারিতে, সংস্থাটি ও 3 ঘোষণা করার পরে ওপেনএআই থেকে তহবিল প্রকাশের জন্য অপেক্ষা করার জন্য এপোকের সমালোচনা করা হয়েছিল। অনেক শিক্ষাবিদ যারা ফ্রন্টিয়ারমাথে অবদান রেখেছিলেন তারা প্রকাশ্য না হওয়া পর্যন্ত ওপেনাইয়ের জড়িত থাকার বিষয়ে অবহিত হননি।

সাম্প্রতিককালে, এলন মাস্কের জাইয়ের বিরুদ্ধে তার সর্বশেষ এআই মডেল গ্রোক 3 এর জন্য বিভ্রান্তিকর বেঞ্চমার্ক চার্ট প্রকাশের অভিযোগ করা হয়েছিল। ঠিক এই মাসে, মেটা একটি মডেলের একটি সংস্করণে বেঞ্চমার্ক স্কোরকে টাউটিংয়ে স্বীকার করেছে যা সংস্থাটি বিকাশকারীদের জন্য উপলব্ধ করা হয়েছে তার থেকে পৃথক।



[ad_2]

Leave a Comment