ওপেনএআই পার্টনার বলেছেন যে সংস্থার ও 3 এআই মডেলটি পরীক্ষা করার জন্য তুলনামূলকভাবে খুব কম সময় ছিল

[ad_1]

একটি সংস্থা ওপেনএআই প্রায়শই তার এআই মডেলগুলির সক্ষমতা তদন্ত করতে এবং সুরক্ষার জন্য তাদের মূল্যায়ন করার জন্য অংশীদার হয়, মেট্রার, পরামর্শ দেয় যে এটি কোম্পানির অত্যন্ত সক্ষম নতুন রিলিজ, ও 3 পরীক্ষা করার জন্য খুব বেশি সময় দেওয়া হয়নি।

বুধবার প্রকাশিত একটি ব্লগ পোস্টেমেটার লিখেছেন যে ও 3 এর একটি রেড টিমিং বেঞ্চমার্কের আগের ওপেনএআইএর ফ্ল্যাগশিপ মডেল, ও 1 এর সংস্থার পরীক্ষার তুলনায় “তুলনামূলকভাবে স্বল্প সময়ের মধ্যে পরিচালিত” ছিল। তারা বলে, এটি উল্লেখযোগ্য, কারণ আরও পরীক্ষার সময় আরও বিস্তৃত ফলাফলের দিকে নিয়ে যেতে পারে।

“এই মূল্যায়ন তুলনামূলকভাবে স্বল্প সময়ের মধ্যে পরিচালিত হয়েছিল এবং আমরা কেবল পরীক্ষা করেছি [o3] সাধারণ এজেন্ট স্ক্যাফোল্ডস সহ, “মেটর এর ব্লগ পোস্টে লিখেছেন।” আমরা উচ্চতর পারফরম্যান্স আশা করি [on benchmarks] আরও সুস্পষ্ট প্রচেষ্টা দিয়ে সম্ভব। “

সাম্প্রতিক প্রতিবেদনে পরামর্শ দেওয়া হয়েছে যে প্রতিযোগিতামূলক চাপ দ্বারা উত্সাহিত ওপেনাই স্বাধীন মূল্যায়নে ছুটে চলেছে। ফিনান্সিয়াল টাইমস অনুযায়ীওপেনাই একটি আসন্ন বড় লঞ্চের জন্য সুরক্ষা চেকের জন্য কিছু পরীক্ষককে এক সপ্তাহেরও কম সময় দিয়েছে।

বিবৃতিতে, ওপেনাই এই ধারণাটিকে বিতর্ক করেছে যে এটি সুরক্ষায় আপস করছে।

মেটার বলেছেন যে, এটি যে সময়টি ছিল তা যে তথ্য সংগ্রহ করতে সক্ষম হয়েছিল তার ভিত্তিতে ও 3 এর স্কোরকে সর্বাধিকতর করার জন্য পরিশীলিত উপায়ে “প্রতারণা” বা “হ্যাক” পরীক্ষা করার জন্য “উচ্চ প্রবণতা” রয়েছে – এমনকি যখন মডেলটি স্পষ্টভাবে বুঝতে পারে যে তার আচরণটি ব্যবহারকারীর (এবং ওপেনএই) উদ্দেশ্যগুলির সাথে ভুলভাবে চিহ্নিত করা হয়েছে। সংস্থাটি মনে করে যে এটি সম্ভব ও 3 অন্যান্য ধরণের প্রতিকূল বা “ম্যালিগন” আচরণে জড়িত থাকবে – মডেলটির দাবিগুলি সারিবদ্ধ করা, “ডিজাইন দ্বারা নিরাপদ”, বা এর নিজস্ব কোনও উদ্দেশ্য নেই তা নির্বিশেষে।

“যদিও আমরা এটি বিশেষত সম্ভবত মনে করি না, তবে এটি লক্ষ্য করা গুরুত্বপূর্ণ বলে মনে হচ্ছে [our] মূল্যায়ন সেটআপ এই ধরণের ঝুঁকি গ্রহণ করবে না, “মেটর তার পোস্টে লিখেছেন।

ওপেনাইয়ের তৃতীয় পক্ষের মূল্যায়ন অংশীদারদের মধ্যে আরেক, অ্যাপোলো রিসার্চ, ও 3 এবং সংস্থার অন্যান্য নতুন মডেল ও 4-মিনিটের কাছ থেকে প্রতারণামূলক আচরণও পর্যবেক্ষণ করেছে। একটি পরীক্ষায়, মডেলগুলি, একটি এআই প্রশিক্ষণ রানের জন্য 100 টি কম্পিউটিং ক্রেডিট দেওয়া হয়েছে এবং কোটা সংশোধন না করতে বলেছে, সীমাটি 500 ক্রেডিটের মধ্যে বাড়িয়েছে – এবং এটি সম্পর্কে মিথ্যা বলেছে। অন্য একটি পরীক্ষায়, একটি নির্দিষ্ট সরঞ্জাম ব্যবহার না করার প্রতিশ্রুতি দেওয়ার জন্য বলা হয়েছিল, মডেলগুলি কোনও কাজটি সম্পন্ন করতে সহায়ক প্রমাণিত হলে যেভাবেই সরঞ্জামটি ব্যবহার করে।

এর মধ্যে নিজস্ব সুরক্ষা প্রতিবেদন O3 এবং O4-MINI এর জন্য, ওপেনাই স্বীকার করেছে যে মডেলগুলি “ছোট বাস্তব-বিশ্বের ক্ষতি” কারণ হতে পারে, যেমন কোনও ভুলের ফলস্বরূপ ভুল সম্পর্কে বিভ্রান্ত করার মতো, যথাযথ পর্যবেক্ষণ প্রোটোকলগুলি ছাড়াই।

“[Apollo’s] অনুসন্ধানগুলি দেখায় যে O3 এবং O4-mini ইন-কনটেক্সট স্কিমিং এবং কৌশলগত প্রতারণার পক্ষে সক্ষম, “ওপেনএআই লিখেছেন। […] অভ্যন্তরীণ যুক্তির চিহ্নগুলি মূল্যায়নের মাধ্যমে এটি আরও মূল্যায়ন করা যেতে পারে। “

[ad_2]

Leave a Comment