ওপেনাইয়ের নতুন যুক্তি এআই মডেলগুলি আরও বেশি হ্যালুসিনেট

[ad_1]

ওপেনাইয়ের সম্প্রতি চালু হওয়া O3 এবং O4-mini এআই মডেলগুলি অনেক দিক থেকে অত্যাধুনিক। যাইহোক, নতুন মডেলগুলি এখনও হ্যালুসিনেট করে বা জিনিসগুলি তৈরি করে – বাস্তবে তারা হ্যালুসিনেট করে আরও ওপেনাইয়ের বেশ কয়েকটি পুরানো মডেলের চেয়ে।

হ্যালুসিনেশনগুলি এআই-তে সমাধান করা অন্যতম বৃহত্তম এবং সবচেয়ে কঠিন সমস্যা হিসাবে প্রমাণিত হয়েছে, এমনকি আজকের সেরা-পারফরম্যান্স সিস্টেমগুলিকে প্রভাবিত করে। .তিহাসিকভাবে, প্রতিটি নতুন মডেল হ্যালুসিনেশন বিভাগে কিছুটা উন্নতি করেছে, পূর্বসূরীর চেয়ে কম হ্যালুসিনেট করে। তবে এটি O3 এবং O4-MINI এর ক্ষেত্রে বলে মনে হয় না।

ওপেনাইয়ের অভ্যন্তরীণ পরীক্ষা অনুসারে, O3 এবং O4-mini, যা তথাকথিত যুক্তিযুক্ত মডেল, হ্যালুসিনেট আরও প্রায়ই কোম্পানির আগের যুক্তিযুক্ত মডেলগুলির চেয়ে-ও 1, ও 1-মিনিট এবং ও 3-মিনিট-পাশাপাশি ওপেনাইয়ের traditional তিহ্যবাহী, “নন-রেইনসিং” মডেলগুলি যেমন জিপিটি -4 ও।

সম্ভবত আরও সম্পর্কে, চ্যাটজিপ্ট নির্মাতা সত্যিই জানেন না কেন এটি ঘটছে।

এর প্রযুক্তিগত প্রতিবেদনে O3 এবং O4-miniওপেনাই লিখেছেন যে কেন হ্যালুসিনেশনগুলি আরও খারাপ হচ্ছে তা বোঝার জন্য “আরও গবেষণা করা দরকার” কারণ এটি যুক্তিযুক্ত মডেলগুলিকে স্কেল করে। O3 এবং O4-mini কোডিং এবং গণিত সম্পর্কিত কাজগুলি সহ কয়েকটি ক্ষেত্রে আরও ভাল পারফর্ম করে। তবে তারা “সামগ্রিকভাবে আরও দাবি করে” বলে তারা প্রায়শই প্রতিবেদনে প্রতি “আরও সঠিক দাবিগুলির পাশাপাশি আরও সঠিক/হ্যালুসিনেটেড দাবি” করতে পরিচালিত করে।

ওপেনাই আবিষ্কার করেছেন যে ও 3 পার্সোনকিএ-তে 33% প্রশ্নের জবাবে ও 3 হ্যালুসিনেটেড, লোক সম্পর্কে কোনও মডেলের জ্ঞানের যথার্থতা পরিমাপ করার জন্য সংস্থার অভ্যন্তরীণ মানদণ্ড। এটি ওপেনাইয়ের পূর্ববর্তী যুক্তিযুক্ত মডেলগুলি, O1 এবং O3-MINI এর হ্যালুসিনেশনের হারকে প্রায় দ্বিগুণ, যা যথাক্রমে 16% এবং 14.8% স্কোর করেছে। O4-Mini ব্যক্তিগতকায় আরও খারাপ কাজ করেছিল-48% সময় হ্যালুসিনেট করে।

তৃতীয় পক্ষ পরীক্ষা ট্রান্সলুস দ্বারা, একটি অলাভজনক এআই গবেষণা ল্যাব, প্রমাণও পেয়েছিল যে ও 3 এর উত্তরগুলিতে পৌঁছানোর প্রক্রিয়াটিতে নেওয়া পদক্ষেপ গ্রহণের প্রবণতা রয়েছে। একটি উদাহরণে, ট্রান্সলুস পর্যবেক্ষণ ও 3 দাবি করেছেন যে এটি একটি 2021 ম্যাকবুক প্রো “চ্যাটজিপ্টের বাইরে” কোড চালিয়েছে, তারপরে সংখ্যাগুলি তার উত্তরে অনুলিপি করেছে। যদিও ও 3 এর কিছু সরঞ্জাম অ্যাক্সেস রয়েছে, এটি এটি করতে পারে না।

“আমাদের হাইপোথিসিসটি হ’ল ও-সিরিজের মডেলগুলির জন্য ব্যবহৃত ধরণের শক্তিবৃদ্ধি শেখার বিষয়টি সাধারণত প্রশিক্ষণের পরে স্ট্যান্ডার্ড পোস্ট পাইপলাইনগুলি দ্বারা প্রশমিত করা (তবে পুরোপুরি মুছে ফেলা হয় না) এমন বিষয়গুলিকে প্রশস্ত করতে পারে,” টেকক্রাঞ্চকে একটি ইমেলটিতে ট্রান্সলুস গবেষক এবং প্রাক্তন ওপেনএআই কর্মচারী নীল চৌধুরী বলেছিলেন।

ট্রান্সলুসের সহ-প্রতিষ্ঠাতা সারা শোয়েটম্যান যোগ করেছেন যে ও 3 এর হ্যালুসিনেশন হার এটিকে অন্যথায় এর চেয়ে কম কার্যকর করতে পারে।

স্ট্যানফোর্ডের অ্যাডজান্ট প্রফেসর এবং আপস্কিলিং স্টার্টআপ ওয়ার্কেরার সিইও কিয়ান কাতানফোরুশ টেকক্রাঞ্চকে বলেছেন যে তাঁর দল ইতিমধ্যে তাদের কোডিং ওয়ার্কফ্লোগুলিতে ও 3 পরীক্ষা করছে এবং তারা এটি প্রতিযোগিতার উপরে এক ধাপ উপরে বলে মনে করেছে। তবে কাতানফোরুশ বলেছেন যে ও 3 ভাঙা ওয়েবসাইটের লিঙ্কগুলি হ্যালুসিনেট করতে ঝোঁক। মডেলটি এমন একটি লিঙ্ক সরবরাহ করবে যা ক্লিক করা হলে কাজ করে না।

হ্যালুসিনেশনগুলি মডেলগুলিকে আকর্ষণীয় ধারণাগুলিতে পৌঁছাতে এবং তাদের “চিন্তায়” সৃজনশীল হতে সহায়তা করতে পারে তবে তারা কিছু মডেলকে এমন বাজারে ব্যবসায়ের জন্য একটি শক্ত বিক্রয়ও করে তোলে যেখানে নির্ভুলতা সর্বজনীন। উদাহরণস্বরূপ, কোনও আইন সংস্থা সম্ভবত এমন কোনও মডেল নিয়ে সন্তুষ্ট হবে না যা ক্লায়েন্ট চুক্তিতে প্রচুর পরিমাণে ত্রুটি সন্নিবেশ করে।

মডেলগুলির যথার্থতা বাড়ানোর জন্য একটি প্রতিশ্রুতিবদ্ধ পদ্ধতি তাদের ওয়েব অনুসন্ধানের ক্ষমতা প্রদান করে। ওয়েব অনুসন্ধান সহ ওপেনএআইয়ের জিপিটি -4o অর্জন করে 90% নির্ভুলতা সিম্পলকিএতে। সম্ভাব্যভাবে, অনুসন্ধান যুক্তিযুক্ত মডেলগুলির হ্যালুসিনেশনের হারগুলিও উন্নত করতে পারে-কমপক্ষে এমন ক্ষেত্রে যেখানে ব্যবহারকারীরা তৃতীয় পক্ষের অনুসন্ধান সরবরাহকারীর কাছে অনুরোধগুলি প্রকাশ করতে ইচ্ছুক।

যদি যুক্তিযুক্ত মডেলগুলি স্কেলিং করা প্রকৃতপক্ষে হ্যালুসিনেশনগুলি আরও খারাপ করে চলেছে, তবে এটি আরও জরুরী সমাধানের সন্ধান করবে।

গত বছরে, বিস্তৃত এআই শিল্প traditional তিহ্যবাহী এআই মডেলগুলি উন্নত করার কৌশলগুলির পরে যুক্তিযুক্ত মডেলগুলিতে মনোনিবেশ করার জন্য প্রবর্তিত হয়েছে, হ্রাসকারী রিটার্নগুলি দেখানো শুরু করেছে। প্রশিক্ষণ চলাকালীন প্রচুর পরিমাণে কম্পিউটিং এবং ডেটা প্রয়োজন ছাড়াই বিভিন্ন কার্যক্রমে মডেল পারফরম্যান্সকে উন্নত করে। তবুও মনে হচ্ছে যুক্তি আরও বেশি হ্যালুসিনেটিংয়ের দিকে পরিচালিত করে – একটি চ্যালেঞ্জ উপস্থাপন করে।

[ad_2]