[ad_1]
সংস্থার অভ্যন্তরীণ বেঞ্চমার্কিং অনুসারে সম্প্রতি প্রকাশিত একটি গুগল এআই মডেল তার পূর্বসূরীর চেয়ে নির্দিষ্ট সুরক্ষা পরীক্ষায় আরও খারাপ স্কোর করেছে।
একটি প্রযুক্তিগত প্রতিবেদন এই সপ্তাহে প্রকাশিত, গুগল প্রকাশ করেছে যে এর জেমিনি 2.5 ফ্ল্যাশ মডেলটি এমন পাঠ্য তৈরি করার সম্ভাবনা বেশি যা জেমিনি 2.0 ফ্ল্যাশের চেয়ে তার সুরক্ষা নির্দেশিকা লঙ্ঘন করে। দুটি মেট্রিকগুলিতে, “পাঠ্য-থেকে-পাঠ্য সুরক্ষা” এবং “চিত্র-থেকে-পাঠ্য সুরক্ষা,” জেমিনি 2.5 ফ্ল্যাশ যথাক্রমে 4.1% এবং 9.6% রেজিস্ট্রেশন করে।
পাঠ্য-থেকে-পাঠ্য সুরক্ষা ব্যবস্থাগুলি কীভাবে ঘন ঘন কোনও মডেল গুগলের নির্দেশিকাগুলি প্রম্পট দেওয়া লঙ্ঘন করে, যখন চিত্র-থেকে-পাঠ্য সুরক্ষা মূল্যায়ন করে যে কোনও চিত্র ব্যবহার করে অনুরোধ করা হলে মডেলটি এই সীমানাগুলিকে কতটা ঘনিষ্ঠভাবে মেনে চলে। উভয় পরীক্ষা স্বয়ংক্রিয়, মানব-তত্ত্বাবধানে নয়।
একটি ইমেল করা বিবৃতিতে, গুগলের একজন মুখপাত্র নিশ্চিত করেছেন যে জেমিনি 2.5 ফ্ল্যাশ “পাঠ্য-থেকে-পাঠ্য এবং চিত্র-থেকে-পাঠ্য সুরক্ষায় আরও খারাপ পারফর্ম করে।”
এই আশ্চর্যজনক বেঞ্চমার্কের ফলাফলগুলি এআই সংস্থাগুলি তাদের মডেলগুলিকে আরও অনুমোদিত করার জন্য সরানো হয় – অন্য কথায়, বিতর্কিত বা সংবেদনশীল বিষয়গুলিতে প্রতিক্রিয়া জানাতে অস্বীকার করার সম্ভাবনা কম। লামা মডেলগুলির সর্বশেষ ফসলের জন্য, মেটা বলেছে যে এটি “অন্যদের সম্পর্কে কিছু মতামত” সমর্থন না করার এবং আরও “বিতর্কিত” রাজনৈতিক প্রম্পটের জবাব দেওয়ার জন্য মডেলগুলিকে সুর করেছে। ওপেনাই এই বছরের শুরুর দিকে বলেছিল যে এটি ভবিষ্যতের মডেলগুলিকে সম্পাদকীয় অবস্থান না নেওয়ার এবং বিতর্কিত বিষয়গুলিতে একাধিক দৃষ্টিভঙ্গি সরবরাহ করার জন্য টুইট করবে।
কখনও কখনও, সেই অনুমতিপ্রাপ্তির প্রচেষ্টাগুলি ব্যাকফায়ার হয়ে গেছে। টেকক্রাঞ্চ সোমবার জানিয়েছে যে ওপেনএইয়ের চ্যাটজিপিটিকে শক্তিশালী করার ডিফল্ট মডেল নাবালিকাদের প্রেমমূলক কথোপকথন তৈরি করতে দেয়। ওপেনাই আচরণটিকে একটি “বাগ” এর জন্য দোষ দিয়েছেন।
গুগলের প্রযুক্তিগত প্রতিবেদন অনুসারে, জেমিনি 2.5 ফ্ল্যাশ, যা এখনও পূর্বরূপে রয়েছে, জেমিনি 2.0 ফ্ল্যাশের চেয়ে আরও বিশ্বস্ততার সাথে নির্দেশাবলী অনুসরণ করে, সমস্যাযুক্ত লাইনগুলি অতিক্রম করে এমন নির্দেশাবলী অন্তর্ভুক্ত করে। সংস্থাটি দাবি করেছে যে রিগ্রেশনগুলি আংশিকভাবে মিথ্যা ধনাত্মককে দায়ী করা যেতে পারে, তবে এটি আরও স্বীকার করে যে জেমিনি 2.5 ফ্ল্যাশ কখনও কখনও স্পষ্টভাবে জিজ্ঞাসা করলে “লঙ্ঘনকারী সামগ্রী” তৈরি করে।
টেকক্রাঞ্চ ইভেন্ট
বার্কলে, সিএ
|
জুন 5
এখনই বুক করুন
“স্বাভাবিকভাবেই এর মধ্যে উত্তেজনা রয়েছে [instruction following] সংবেদনশীল বিষয় এবং সুরক্ষা নীতি লঙ্ঘন সম্পর্কে, যা আমাদের মূল্যায়ন জুড়ে প্রতিফলিত হয়, “প্রতিবেদনে লেখা আছে।
স্পিচম্যাপের স্কোরগুলি, একটি মানদণ্ড যা মডেলগুলি সংবেদনশীল এবং বিতর্কিত প্রম্পটে প্রতিক্রিয়া জানায় তা তদন্ত করে, এটিও পরামর্শ দেয় যে জেমিনি 2.5 ফ্ল্যাশটি জেমিনি 2.0 ফ্ল্যাশের চেয়ে বিতর্কিত প্রশ্নের উত্তর দিতে অস্বীকার করার সম্ভাবনা খুব কম। এআই প্ল্যাটফর্ম ওপেনরোটারের মাধ্যমে মডেলটির টেকক্রাঞ্চের পরীক্ষায় দেখা গেছে যে এটি মানব বিচারকদের এআইয়ের প্রতিস্থাপনের সমর্থনে, মার্কিন যুক্তরাষ্ট্রে যথাযথ প্রক্রিয়া সুরক্ষা দুর্বল করে এবং ব্যাপকভাবে ওয়্যারলেস সরকারী নজরদারি কর্মসূচি বাস্তবায়নের সমর্থনে প্রবন্ধ লিখবে।
সিকিউর এআই প্রকল্পের সহ-প্রতিষ্ঠাতা টমাস উডসাইড বলেছেন, গুগল তার প্রযুক্তিগত প্রতিবেদনে যে সীমিত বিবরণ দিয়েছে তা মডেল পরীক্ষায় আরও স্বচ্ছতার প্রয়োজনীয়তা প্রদর্শন করে।
উডসাইড টেকক্রাঞ্চকে বলেছেন, “নির্দেশাবলী-অনুধাবন এবং নীতিমালার মধ্যে একটি বাণিজ্য বন্ধ রয়েছে, কারণ কিছু ব্যবহারকারী এমন সামগ্রী চাইতে পারেন যা নীতিগুলি লঙ্ঘন করবে।” “এই ক্ষেত্রে, গুগলের সর্বশেষ ফ্ল্যাশ মডেল নীতিমালা লঙ্ঘন করার সময় আরও নির্দেশাবলী মেনে চলে। গুগল নীতিগুলি লঙ্ঘন করা হয়েছিল এমন নির্দিষ্ট ক্ষেত্রে সম্পর্কে খুব বেশি বিশদ সরবরাহ করে না, যদিও তারা বলে যে তারা গুরুতর নয়। আরও না জেনে, স্বাধীন বিশ্লেষকদের পক্ষে সমস্যা আছে কিনা তা জানা শক্ত।”
গুগল এর আগে মডেল সুরক্ষা রিপোর্টিং অনুশীলনের জন্য আগুনে পড়েছে।
এটি তার সবচেয়ে সক্ষম মডেল, জেমিনি 2.5 প্রো এর জন্য একটি প্রযুক্তিগত প্রতিবেদন প্রকাশ করতে সংস্থাগুলিকে কয়েক সপ্তাহ সময় নিয়েছে। শেষ পর্যন্ত যখন প্রতিবেদনটি প্রকাশিত হয়েছিল, তখন এটি প্রাথমিকভাবে মূল সুরক্ষা পরীক্ষার বিশদ বাদ দেয়।
সোমবার, গুগল অতিরিক্ত সুরক্ষা তথ্য সহ আরও বিশদ প্রতিবেদন প্রকাশ করেছে।
[ad_2]







