ওপেনএআই এর ও 3 এআই মডেলটি প্রাথমিকভাবে যে সংস্থার চেয়ে কম একটি মানদণ্ডে কমেছে তার চেয়ে কম স্কোর

[ad_1]

প্রথম এবং তৃতীয় পক্ষের বেঞ্চমার্কের মধ্যে একটি তাত্পর্য ওপেনএআই এর ও 3 এআই মডেলের জন্য ফলাফল সংস্থার স্বচ্ছতা সম্পর্কে প্রশ্ন উত্থাপন এবং মডেল পরীক্ষার অনুশীলন।

ওপেনাই ডিসেম্বরে ও 3 উন্মোচন করার সময়, সংস্থাটি দাবি করেছিল যে মডেলটি ফ্রন্টিয়ারমাথের চতুর্থ প্রশ্নের উত্তর দিতে পারে, গণিত সমস্যার একটি চ্যালেঞ্জিং সেট। এই স্কোরটি প্রতিযোগিতাটি উড়িয়ে দিয়েছে-পরের সেরা মডেলটি প্রায় 2% ফ্রন্টিয়ারমাথ সমস্যার সঠিকভাবে উত্তর দিতে সক্ষম হয়েছিল।

“আজ, সেখানে সমস্ত অফার রয়েছে 2% এরও কম [on FrontierMath]”ওপেনএআইয়ের প্রধান গবেষণা কর্মকর্তা মার্ক চেন, লাইভস্ট্রিমের সময় বলেছিলেন। “আমরা দেখছি [internally]আক্রমণাত্মক পরীক্ষা-সময় গণনা সেটিংসে ও 3 সহ, আমরা 25%এরও বেশি পেতে সক্ষম ””

দেখা যাচ্ছে যে, এই চিত্রটি সম্ভবত একটি উচ্চতর আবদ্ধ ছিল, যা ও 3 এর একটি সংস্করণ দ্বারা অর্জন করা হয়েছিল যা গত সপ্তাহে প্রকাশ্যে চালু হওয়া মডেল ওপেনাইয়ের চেয়ে আরও বেশি কম্পিউটিংয়ের পিছনে রয়েছে।

ফ্রন্টিয়ারমাথের পিছনে গবেষণা ইনস্টিটিউট ইপোচ এআই শুক্রবার ও 3 এর স্বাধীন বেঞ্চমার্ক পরীক্ষার ফলাফল প্রকাশ করেছে। এপোচে দেখা গেছে যে ও 3 প্রায় 10%স্কোর করেছে, ওপেনএআইয়ের সর্বোচ্চ দাবি করা স্কোরের নীচে।

ওপেনাই ও 3, তাদের উচ্চ প্রত্যাশিত যুক্তিযুক্ত মডেল, ও 4-মিনিটের সাথে একটি ছোট এবং সস্তা মডেল যা ও 3-মিনিট সফল হয় তা প্রকাশ করেছে।

আমরা আমাদের গণিত এবং বিজ্ঞান মানদণ্ডের স্যুটটিতে নতুন মডেলগুলি মূল্যায়ন করেছি। থ্রেড ফলাফল! pic.twitter.com/5gbtzkey1b

– এপোচ এআই (@এপোচায়ারস অনুসন্ধান) 18 এপ্রিল, 2025

এর অর্থ এই নয় যে ওপেনাই মিথ্যা কথা বলে, প্রতি সে। ডিসেম্বরে প্রকাশিত সংস্থাটি বেঞ্চমার্কের ফলাফলগুলি একটি নিম্ন-সীমাবদ্ধ স্কোর দেখায় যা স্কোর যুগের সাথে দেখা যায়। ইপোচ আরও উল্লেখ করেছে যে এর টেস্টিং সেটআপটি সম্ভবত ওপেনাইয়ের চেয়ে পৃথক এবং এটি তার মূল্যায়নের জন্য ফ্রন্টিয়ারথের একটি আপডেট রিলিজ ব্যবহার করেছে।

“আমাদের ফলাফল এবং ওপেনাইয়ের মধ্যে পার্থক্য আরও বেশি পরীক্ষার সময় ব্যবহার করে আরও শক্তিশালী অভ্যন্তরীণ স্ক্যাফোল্ডের সাথে মূল্যায়ন করার কারণে হতে পারে [computing]বা কারণ এই ফলাফলগুলি ফ্রন্টিয়ারমাথের একটি পৃথক উপসেটে চালিত হয়েছিল (ফ্রন্টিয়ারম্যাথ -2024-11-26 বনাম ফ্রন্টিয়ারমাথ -2025-02-28-প্রাইভেট) এর 290 সমস্যা), “180 টি সমস্যা),” লিখেছেন যুগ

এক্স এ একটি পোস্ট অনুযায়ী আর্ক প্রাইজ ফাউন্ডেশন থেকে, একটি সংস্থা যা ও 3 এর একটি প্রাক-প্রকাশের সংস্করণ পরীক্ষা করেছে, পাবলিক ও 3 মডেল “একটি আলাদা মডেল […] চ্যাট/পণ্য ব্যবহারের জন্য সুরযুক্ত, “এপোকের প্রতিবেদনটি সংশোধন করে।

“সমস্ত প্রকাশিত O3 গণনা স্তরগুলি আমরা সংস্করণের চেয়ে ছোট [benchmarked]”আর্ক প্রাইজ লিখেছেন। সাধারণভাবে বলতে গেলে, আরও বড় গণনা স্তরগুলি আরও ভাল বেঞ্চমার্ক স্কোর অর্জনের আশা করা যায়।

মঞ্জুর, ওপেনাইয়ের পরীক্ষার প্রতিশ্রুতির ওপেনস ফলস সংক্ষিপ্ত প্রকাশের বিষয়টি কিছুটা মূল বিষয়, যেহেতু কোম্পানির ও -3-মিনিট-উঁচু এবং ও 4-মিনিট মডেলগুলি ফ্রন্টিয়ারমাথে ও 3 কে ছাড়িয়ে গেছে এবং ওপেনাই আগামী সপ্তাহগুলিতে আরও শক্তিশালী ও 3 বৈকল্পিক, ও 3-প্রো-এর আত্মপ্রকাশের পরিকল্পনা করেছে।

তবে এটি আরেকটি অনুস্মারক যে এআই বেঞ্চমার্কগুলি মুখের মূল্য হিসাবে নেওয়া হয় না – বিশেষত যখন উত্সটি বিক্রয় করার জন্য পরিষেবাগুলির একটি সংস্থা হয়।

নতুন মডেলগুলির সাথে শিরোনাম এবং মাইন্ডশেয়ার ক্যাপচার করার জন্য বিক্রেতাদের প্রতিযোগিতা হিসাবে বেঞ্চমার্কিং “বিতর্কগুলি” এআই শিল্পে একটি সাধারণ ঘটনা হয়ে উঠছে।

জানুয়ারিতে, সংস্থাটি ও 3 ঘোষণা করার পরে ওপেনএআই থেকে তহবিল প্রকাশের জন্য অপেক্ষা করার জন্য এপোকের সমালোচনা করা হয়েছিল। অনেক শিক্ষাবিদ যারা ফ্রন্টিয়ারমাথে অবদান রেখেছিলেন তারা প্রকাশ্য না হওয়া পর্যন্ত ওপেনাইয়ের জড়িত থাকার বিষয়ে অবহিত হননি।

সাম্প্রতিককালে, এলন মাস্কের জাইয়ের বিরুদ্ধে তার সর্বশেষ এআই মডেল গ্রোক 3 এর জন্য বিভ্রান্তিকর বেঞ্চমার্ক চার্ট প্রকাশের অভিযোগ করা হয়েছিল। ঠিক এই মাসে, মেটা একটি মডেলের একটি সংস্করণে বেঞ্চমার্ক স্কোরকে টাউটিংয়ে স্বীকার করেছে যা সংস্থাটি বিকাশকারীদের জন্য উপলব্ধ করা হয়েছে তার থেকে পৃথক।

[ad_2]

ওপেনএআই এর ও 3 এআই মডেলটি প্রাথমিকভাবে যে সংস্থার চেয়ে কম একটি মানদণ্ডে কমেছে তার চেয়ে কম স্কোর

Leave a Comment Cancel reply

Recent Posts

সেলসফোর্স ওয়ার্কাররা আইসিইকে নিন্দা করার জন্য সিইও মার্ক বেনিওফকে অনুরোধ করে খোলা চিঠি প্রচার করে

মাইক টাইসন সুপার বোল বিজ্ঞাপনটি একটি জনস্বাস্থ্য ব্যর্থতা

ফেসবুক প্রোফাইল ফটোগুলির জন্য মেটা এআই-চালিত অ্যানিমেশন অফার করছে

এই GoPro এবং লেন্স বান্ডেল $200 ছাড়

ভ্যালেন্টাইনস ডে ফুলের ডিল: 5+ দ্রুত ডেলিভারি পরিষেবা যা বিক্রি হচ্ছে অনন্য তোড়া সহ

ইউটিউবাররা আর বিজ্ঞাপনের আয়ের উপর নির্ভর করছে না — কেউ কেউ কীভাবে বৈচিত্র্য আনছে তা এখানে

‘মার্টি সুপ্রিম’ কি স্ট্রিমিং হচ্ছে? কিভাবে বাড়িতে নতুন Timothée Chalamet মুভি দেখবেন।