অ্যামাজন একটি নতুন এআই ভয়েস মডেল উন্মোচন করেছে, নোভা সোনিক

[ad_1]

মঙ্গলবার, অ্যামাজন একটি নতুন জেনারেটর এআই মডেল, নোভা সোনিক আত্মপ্রকাশ করেছিল, স্থানীয়ভাবে ভয়েস প্রক্রিয়াজাতকরণ এবং প্রাকৃতিক-সাউন্ডিং বক্তৃতা তৈরি করতে সক্ষম। অ্যামাজন দাবি করেছে যে সোনিকের পারফরম্যান্স গতি, বক্তৃতা স্বীকৃতি এবং কথোপকথনের মানের পরিমাপের বেঞ্চমার্কগুলিতে ওপেনএআই এবং গুগলের সীমান্ত ভয়েস মডেলগুলির সাথে প্রতিযোগিতামূলক।

নোভা সোনিক হ’ল অ্যামাজনের নতুন এআই ভয়েস মডেলগুলির উত্তর যেমন মডেল পাওয়ারিং চ্যাটজিপ্টের ভয়েস মোড, যা অ্যামাজন আলেক্সার প্রথম দিনগুলির আরও অনমনীয় মডেলের চেয়ে কথা বলতে আরও স্বাভাবিক মনে হয়। সাম্প্রতিক প্রযুক্তিগত যুগান্তকারীরা উত্তরাধিকার মডেল তৈরি করেছে এবং আলেক্সা এবং অ্যাপলের সিরির মতো ডিজিটাল সহকারীকে তারা তুলনা করে অবিশ্বাস্যভাবে স্থগিত বলে মনে হচ্ছে।

নোভা সোনিক একটি নতুন দ্বি-দিকনির্দেশক স্ট্রিমিং এপিআইয়ের মাধ্যমে এন্টারপ্রাইজ এআই অ্যাপ্লিকেশনগুলির জন্য অ্যামাজনের বিকাশকারী প্ল্যাটফর্ম বেডরকের মাধ্যমে উপলব্ধ। একটি প্রেস বিজ্ঞপ্তিতে, অ্যামাজন নোভা সোনিককে “বাজারে এআই ভয়েস মডেল” এআই ভয়েস মডেল এবং ওপেনাইয়ের জিপিটি -4o এর চেয়ে প্রায় 80% কম ব্যয়বহুল বলে ডাকে।

অ্যামাজন এসভিপি এবং এজিআই রোহিত প্রসাদের প্রধান বিজ্ঞানী জানিয়েছেন, নোভা সোনিকের উপাদানগুলি ইতিমধ্যে অ্যালেক্সা+, অ্যামাজনের আপগ্রেড করা ডিজিটাল ভয়েস সহকারীকে শক্তিশালী করছে।

একটি সাক্ষাত্কারে প্রসাদ টেকক্রাঞ্চকে বলেছিলেন যে নোভা সোনিক “বৃহত অর্কেস্ট্রেশন সিস্টেমগুলিতে” অ্যামাজনের দক্ষতার উপর ভিত্তি করে তৈরি করেছেন, যা আলেক্সা তৈরি করে এমন প্রযুক্তিগত স্ক্যাফোল্ডিং। প্রতিদ্বন্দ্বী এআই ভয়েস মডেলগুলির সাথে তুলনা করে, নোভা সোনিক বিভিন্ন এপিআই -তে ব্যবহারকারীর অনুরোধগুলিতে ছাড়িয়ে যায়, প্রসাদ বলেছিলেন। এই ক্ষমতাটি নোভা সোনিককে “জানতে” সহায়তা করে যখন এটি ইন্টারনেট থেকে রিয়েল-টাইম তথ্য আনতে, মালিকানাধীন ডেটা উত্সকে পার্স করতে, বা কোনও বাহ্যিক অ্যাপ্লিকেশনটিতে পদক্ষেপ নিতে-এবং এটি করার জন্য উপযুক্ত সরঞ্জামটি ব্যবহার করতে হয়।

দ্বি-মুখী কথোপকথনের সময় নোভা সোনিক স্পিকারের বিরতি এবং বাধাগুলি বিবেচনায় নিয়ে “উপযুক্ত সময়ে” কথা বলার অপেক্ষা রাখে, অ্যামাজন বলে। এটি ব্যবহারকারীর বক্তৃতার জন্য একটি পাঠ্য প্রতিলিপিও উত্পন্ন করে, যা বিকাশকারীরা বিভিন্ন অ্যাপ্লিকেশনগুলির জন্য ব্যবহার করতে পারে।

প্রসাদের মতে নোভা সোনিক অন্যান্য এআই ভয়েস মডেলের তুলনায় বক্তৃতা স্বীকৃতি ত্রুটির ঝুঁকিতে কম, যার অর্থ মডেলটি ব্যবহারকারীর অভিপ্রায়টি বোঝার ক্ষেত্রে তুলনামূলকভাবে ভাল, এমনকি যদি তারা বিড়বিড় করে, ভুল বানান বা গোলমাল সেটিংয়ে থাকে। ভাষা এবং উপভাষা জুড়ে বক্তৃতা স্বীকৃতি পরিমাপের একটি মানদণ্ডে, বহুভাষিক লিব্রিপিচ, অ্যামাজন বলেছেন যে ইংরাজী, ফরাসী, ইতালিয়ান, জার্মান এবং স্প্যানিশ জুড়ে গড়ে গড়ে গড়ে যখন নোভা সোনিক মাত্র 4.2% এর একটি শব্দ ত্রুটি হার (ডাব্লুআর) অর্জন করেছিলেন। এর অর্থ হ’ল মডেল থেকে প্রতি 100 টি শব্দের মধ্যে প্রায় চারটি সেই ভাষাগুলির একটি মানব প্রতিলিপি থেকে পৃথক।

একাধিক অংশগ্রহণকারীদের সাথে উচ্চতর মিথস্ক্রিয়া পরিমাপ করে অন্য একটি মানদণ্ডে, অ্যামাজন বলেছেন, অ্যামাজন বলেছেন যে ওপেনএইয়ের জিপিটি -4-ট্রান্সক্রিপশন মডেলের চেয়ে নোভা সোনিক ডাব্লুআরএর ক্ষেত্রে 46.7% বেশি নির্ভুল ছিল। অ্যামাজন অনুসারে নোভা সোনিকের শিল্প-শীর্ষস্থানীয় গতিও রয়েছে, গড়ে গড়ে 1.09 সেকেন্ডের অনুভূত বিলম্বের সাথে। এটি জিপিটি -4O মডেল ওপেনএইয়ের রিয়েলটাইম এপিআইকে পাওয়ারিং করার চেয়ে দ্রুততর করে তোলে, যা কৃত্রিম বিশ্লেষণ দ্বারা বেঞ্চমার্কিং প্রতি 1.18 সেকেন্ডে সাড়া দেয়।

প্রসাদ বলেছেন যে নোভা সোনিক এজিআই (কৃত্রিম জেনারেল ইন্টেলিজেন্স) তৈরির জন্য অ্যামাজনের বিস্তৃত কৌশলটির একটি অংশ, যা সংস্থাটি “এআই সিস্টেমগুলি যা কম্পিউটারে কিছু করতে পারে তা করতে পারে” হিসাবে সংজ্ঞায়িত করে। ” এগিয়ে চলতে, প্রসাদ বলেছেন যে অ্যামাজন আরও এআই মডেল প্রকাশের পরিকল্পনা করেছে যা চিত্র, ভিডিও এবং ভয়েস সহ বিভিন্ন পদ্ধতি বুঝতে পারে, পাশাপাশি “অন্যান্য সংবেদনশীল ডেটা যা আপনি শারীরিক জগতে জিনিস নিয়ে আসেন তবে প্রাসঙ্গিক।”

প্রসাদ তদারকি করা অ্যামাজনের এজিআই বিভাগটি আজকাল কোম্পানির পণ্য কৌশলটিতে আরও বড় ভূমিকা পালন করছে বলে মনে হচ্ছে। মাত্র গত সপ্তাহে, অ্যামাজন নোভা অ্যাক্টের একটি পূর্বরূপ চালু করেছে, একটি ব্রাউজার-ব্যবহারকারী এআই মডেল যা আলেক্সা+ এবং অ্যামাজনের কেনার জন্য আমার বৈশিষ্ট্যটির উপাদানগুলিকে শক্তিশালী করে বলে মনে হয়। নোভা সোনিকের সাথে শুরু করে প্রসাদ বলেছেন যে সংস্থাটি বিকাশকারীদের সাথে তৈরি করার জন্য এর অভ্যন্তরীণ এআই মডেলগুলির আরও বেশি অফার দিতে চায়।

[ad_2]

Leave a Comment