ওপেনাই সোরা 2 বনাম গুগল ভিও 3 পরীক্ষা করা: একটি পরিষ্কার বিজয়ী আছে


এআই-উত্পাদিত ভিডিও এবং চিত্রগুলি স্পট করা এত সহজ ব্যবহৃত হত (মনে রাখবেন স্মিথ কি স্প্যাগেটি খাচ্ছে?)। তবে সর্বশেষতম এআই ভিডিও মডেলগুলি ভাল পাচ্ছে – ভীতিজনক ভাল।

স্বাভাবিকভাবেই, এআইয়ের সাথে ভিডিও তৈরি করা চিত্র তৈরির চেয়ে সম্পূর্ণ কৌশলযুক্ত। ভিডিও স্পেসে গ্রেট এআই ইমেজ জেনারেটরগুলির জন্য কয়েক ডজন ভাল রয়েছে, আপনি একদিকে গণনা করতে পারেন যে এটি দৃ inc ়তার সাথে কতগুলি সরঞ্জাম এটি করতে পারে। সর্বাধিক জনপ্রিয় দুটি হলেন গুগলের ভিইও 3 এবং ওপেনাইয়ের সোরা 2।

সুতরাং, কোন এআই ভিডিও মডেল একটি মাথা থেকে মাথা প্রতিযোগিতায় জিতেছে? আপনি যদি এই পদক্ষেপটি ঘনিষ্ঠভাবে অনুসরণ করে থাকেন তবে উত্তরটি সম্ভবত আপনাকে অবাক করে দেবে না।

ভিও 3 এবং সোরা 2 কী?

ভিইও 3 হ’ল গুগলের কাটিয়া-এজ জেনারেটর এআই ভিডিও মডেলের নাম। পূর্ববর্তী প্রজন্মের ভিওও 2 এর চেয়ে ভিও 3 কেবল নাটকীয় উন্নতি ছিল না, তবে এটি এআই ভিডিওর পুরো নতুন যুগটিও শুরু করেছিল। ভিইও 3 কেবলমাত্র বিদ্যমান চিত্রগুলি অ্যানিমেট করার পরিবর্তে পাঠ্য প্রম্পটের উপর ভিত্তি করে বাস্তবসম্মত ভিডিওগুলি তৈরি করতে পারে। গুরুতরভাবে, এটি কথোপকথন এবং অন্যান্য বাস্তববাদী শব্দও তৈরি করতে পারে। আপনি গুগলের এআই চ্যাটবট জেমিনি বা অন্যান্য গুগল সরঞ্জামগুলির মতো ফ্লো, একটি পরীক্ষামূলক এআই চলচ্চিত্র নির্মাণের সরঞ্জামের মাধ্যমে ভিও 3 অ্যাক্সেস করতে পারেন।

ভিইও 3 দুটি স্বাদে উপলব্ধ – ভিও 3 দ্রুত এবং ভিও 3 মানের। যেহেতু আমরা ভিডিওগুলির মান পরীক্ষা করতে চেয়েছিলাম, আমরা এই পরীক্ষার জন্য পরবর্তীটি বেছে নিয়েছি।

ওপেনএআই 30 সেপ্টেম্বর সোরা নামে একটি স্ট্যান্ডেলোন আইওএস অ্যাপে সোরা 2 চালু করেছিল। সোরা 2 হ’ল সংস্থার প্রথম এআই ভিডিও মডেলের উত্তরসূরি, যাকে বলা হয় সোরাও। লেখার সময়, সোরা 2 কেবলমাত্র আমন্ত্রণ-কেবলমাত্র সোরা অ্যাপের মাধ্যমে উপলব্ধ। সোরা 2 এআই ভিডিওগুলির জন্য টিকটোকের মতো সম্প্রদায়ের কাছ থেকে ভিডিওগুলির একটি সামাজিক মিডিয়া-স্টাইলের ফিডও সরবরাহ করে (কারণ আমাদের ইতিমধ্যে যথেষ্ট পরিমাণে ছিল না)।

তুলনা উপর নোট

যথাযথভাবে, আমরা এআই – এই ক্ষেত্রে, চ্যাটজিপিটি – এআই ভিডিও পরীক্ষার জন্য প্রম্পট তৈরি করতে সহায়তা করার জন্য এআই ব্যবহার করেছি। নীচের প্রম্পটগুলি অডিও থেকে অ্যানিমেশন পর্যন্ত ভিডিও তৈরির বিভিন্ন দিক পরীক্ষা করার জন্য ডিজাইন করা হয়েছিল। চ্যাটজিপ্ট ভিডিও জেনারেটরগুলি পরীক্ষা করার জন্য প্রম্পটগুলি নিয়ে এসেছিল, যা আমরা তখন টুইট করে পরিশোধিত করেছি।

  1. একটি হ্যান্ডহেল্ড ক্যামেরা হালকা বৃষ্টির সময় রাতে টোকিওর জনাকীর্ণ রাস্তায় হাঁটতে হাঁটতে এক যুবতী মহিলাকে অনুসরণ করে। নিয়ন লক্ষণগুলি ভেজা ডামাল এবং ছাতা বন্ধ করে দেয়। একটি ঝলমলে বিলবোর্ডের দিকে তাকানোর সাথে সাথে ক্যামেরাটি তার পিছনে স্থির থাকে, তারপরে হাঁটা চালিয়ে যায়। দৃশ্যটি সিনেমাটিক এবং হাইপার-রিয়েল অনুভব করা উচিত, যেমন মাঠের অগভীর গভীরতার সাথে একটি আয়নাবিহীন ক্যামেরায় শট করা।

  2. একটি লাল এবং রৌপ্য স্যুটের একটি সুপারহিরো সূর্যাস্তের সময় একটি ছাদে শক্তভাবে অবতরণ করে, তাদের পায়ের নীচে কংক্রিটটি ক্র্যাক করে। ক্যামেরাটি ধীর গতিতে তাদের চারপাশে প্রদক্ষিণ করে বাতাসে কেপ ছড়িয়ে পড়ে। দূরত্বে, ড্রোনগুলি ঝলমলে উইন্ডো সহ আকাশচুম্বীগুলির মধ্যে উড়ে যায়। সামগ্রিক সুরটি লাইভ-অ্যাকশন ব্লকবাস্টারের মতো অনুভব করা উচিত।

  3. হোলোগ্রাফিক বিজ্ঞাপন এবং উড়ন্ত গাড়িতে ভরা টাইমস স্কোয়ারের একটি সাইবারপঙ্ক-অনুপ্রাণিত 3 ডি অ্যানিমেশন। একটি বৃহত ডিজিটাল বিলবোর্ড সাহসী সাদা প্রকারে ‘ম্যাসেবল’ শব্দটি দিয়ে আলোকিত করে। অ্যানিমেশনটিতে খাস্তা পাঠ্য, ঝলকানো প্রতিচ্ছবি এবং গতিশীল আলো স্মরণ করিয়ে দেওয়া উচিত মাকড়সা-শ্লোক মধ্যেএর ভিজ্যুয়াল এনার্জি।

  4. একটি হাতে আঁকা, চিত্রশিল্পী 2 ডি অ্যানিমেশন একটি বৃষ্টির বিকেলে ক্যাফে উইন্ডোতে বসে বসে। নরম জলরঙের স্টাইলের আলো এবং দৃশ্যমান ব্রাশ স্ট্রোক। একজন আলতো করে বলেছেন: ‘আপনি জানেন, কখনও কখনও ক্ষুদ্রতম পদক্ষেপটি সমস্ত কিছু পরিবর্তন করতে পারে’ ‘ অন্য হাসি এবং সম্মতি। সূক্ষ্ম মুখের অ্যানিমেশনটি লাইনের সাথে মেলে, বাইরে হালকা বৃষ্টির শব্দ এবং পটভূমিতে কাপের শান্ত ক্লিঙ্কিং অন্তর্ভুক্ত করুন।

  5. ফটোরিয়ালিস্টিক স্ট্রিট দৃশ্যে যেখানে [the subject] গাছের রেখাযুক্ত শহরের ফুটপাতের নিচে অবাধে নাচ, আলগা নৈমিত্তিক পোশাক, উত্সাহী টেম্পো। অ্যাম্বিয়েন্ট স্ট্রিট সাউন্ডস (দূরবর্তী ট্র্যাফিক, পদক্ষেপ), গোল্ডেন আওয়ারে সিনেমাটিক আলো।

আমি একটি কপিরাইটযুক্ত চরিত্রের একটি ভিডিও উত্পন্ন করার জন্য ডিজাইন করা একটি প্রম্পটও তৈরি করেছি, পাশাপাশি জেনারেটর প্রত্যাখ্যান করার ক্ষেত্রে দ্বিতীয় প্রম্পটও তৈরি করেছি। আমি এই প্রম্পটটি ভাগ না করার জন্য বেছে নিচ্ছি যাতে এআই ভিডিওগুলি তৈরি করতে উত্সাহিত না করা যায় যা স্পষ্টভাবে কপিরাইটযুক্ত উপাদান ব্যবহার করে, যা এখন পর্যন্ত ওপেনএআই এবং সোরার জন্য একটি ঘা পয়েন্ট হয়ে দাঁড়িয়েছে।

প্রম্পট 1: টোকিওতে একজন মহিলা

এই প্রম্পটটি সৃজনশীলতার দিক থেকে সাধারণত সোজা ছিল, তবে আশা করা হয়েছিল যে ভিডিও জেনারেটরগুলি জলের প্রতিচ্ছবিগুলির মতো জিনিসগুলির মাধ্যমে সিনেমাটিক এবং প্রাণবন্ত অনুভূতি তৈরি করতে সক্ষম হবে। তাহলে তারা কীভাবে করবে?

সোরা 2 এবং ভিইও 3 উভয়ই সুন্দর চেহারার ভিডিও তৈরি করেছে। তবে কিছু স্পষ্ট পার্থক্য ছিল। সোরা 2 উত্পন্ন ভিডিওতে ভিও 3 এর চেয়ে অনেক বেশি শক্ত ফসল ছিল, যার অর্থ শটের পটভূমিতে চিত্র এবং বিশদগুলি খুব কম দৃশ্যমান ছিল। ভিইও 3 এর আরও বিস্তৃত কোণ ছিল, যার ফলে আরও নিমজ্জনিত ভিডিও হয়। এটি সোরার পক্ষে আংশিকভাবে একটি বিষয় হতে পারে, এই বিষয়টি প্রদত্ত যে প্রম্পটটি নির্দিষ্টভাবে ক্ষেত্রের অগভীর গভীরতা থাকার কথা উল্লেখ করেছে; সোরা 2 এর ভিডিও ভিওও 3 দ্বারা নির্মিত ভিডিওর চেয়ে ক্ষেত্রের অনেক অগভীর গভীরতা দেখিয়েছে।

জেনারেটরগুলি যুবতী মহিলার সম্পর্কে যে পছন্দগুলি তৈরি করেছিল তা দেখতে আকর্ষণীয় হয়েছিল। প্রম্পটটি এটি করার নির্দেশ না দেওয়ার পরেও সোরা একটি ছাতা দিয়ে একটি বিষয় তৈরি করেছিল – যদিও এটি হয়েছিল উল্লেখ করুন ছাতা সোরা 2 দ্বারা নির্মিত ভিডিওটি ছিল না ভুলভিইও 3 দ্বারা নির্মিত ভিডিওটি আরও আকর্ষণীয়, আরও বিশদ এবং সামগ্রিকভাবে আরও ভাল ছিল।

বিজয়ী: Veo 3

প্রম্পট 2: একটি সুপারহিরো অবতরণ

আমরা দুটি ভিডিও জেনারেটরকে কপিরাইটযুক্ত অক্ষরের ভিডিও তৈরি করতে চাপ দিয়েছি, তবে এই প্রম্পটে নয়। ফলস্বরূপ, সোরা 2 যখন কপিরাইটযুক্ত উপাদানগুলি লক্ষ্য করে এই ভিডিওটি তৈরি করতে অস্বীকার করেছিল তখন আমি কিছুটা অবাক হয়েছিলাম। সর্বোপরি, দ্য ধারণা একটি সুপারহিরো কপিরাইটযুক্ত নয়। এটি বৌদ্ধিক সম্পত্তি লঙ্ঘনের বিষয়ে লঞ্চ-পরবর্তী ক্র্যাকডাউনের অংশ বলে মনে হচ্ছে।

ভিইও 3 একটি ভিডিও তৈরি করার সময়, ফলাফলটি অর্ডার করা হয়নি। একটি জিনিসের জন্য, প্রম্পটটি নির্দিষ্টভাবে লাইভ-অ্যাকশন উল্লেখ করেছে, তবে সুপারহিরোর মুখ, বা এর মধ্যে যা দৃশ্যমান তা বাস্তবের চেয়ে আরও অ্যানিমেটেড লাগছিল।

জেনারেটরও পদার্থবিজ্ঞানের সাথে লড়াই করেছিল। বেশিরভাগ ভিডিওর জন্য, আমাদের সুপারহিরো কংক্রিটের একটি গর্ত বলে মনে হচ্ছে তার উপর দাঁড়িয়ে আছে, যখন সুপারহিরো জমিগুলি আপাতদৃষ্টিতে পাতলা বাতাসে অদৃশ্য হয়ে গেলে কংক্রিটের টুকরোগুলি তৈরি হয়েছিল। আরও প্রম্পট ইঞ্জিনিয়ারিং অবশ্যই এই সমস্যাটি সমাধান করতে পারে তবে এটি সমস্ত বিরক্তিকর।

গুগলও এখানে জয় পেয়েছে, তবে কেবল জালিয়াতি দ্বারা – এর প্রতিপক্ষ প্রদর্শিত হয়নি।

বিজয়ী: Veo 3

ম্যাসেবল হালকা গতি

প্রম্পট 3: সাইপারপঙ্ক টাইমস স্কোয়ার

এই প্রম্পট, ধন্যবাদ, উভয় জেনারেটর অনুসরণ করা সহজ ছিল। ভিও 3 এবং সোরা 2 উভয়ই ভবিষ্যতে টাইমস স্কয়ারটি দেখতে কেমন হতে পারে তার একটি অনুমান তৈরি করতে সক্ষম হয়েছিল, আকাশচুম্বী এবং বিলবোর্ডগুলি দিয়ে সম্পূর্ণ। উভয়ই একটি বিলবোর্ড নির্দিষ্ট শব্দ শো করার নির্দেশনা অনুসরণ করেছিল।

সোরা 2 পুনরুদ্ধার করার ক্ষেত্রে কিছুটা ভাল কাজ করেছে মাকড়সা-শ্লোক মধ্যে নান্দনিক, যদিও দুজনের উভয়কেই দুর্দান্ত রেট দেওয়া যায়নি।

তবুও, ভিইও 3 এর ভিডিও সোরা 2 এর চেয়ে বেশি আকর্ষণীয় ছিল। এটি একটি একক স্থির চিত্রের পরিবর্তে চলাচল ছিল। (জেনারেটরগুলি প্রায়শই স্থির চিত্রগুলিতে চলমান বিশদ যুক্ত করে এবং এটি বিরক্তিকর ফলাফলের জন্য তৈরি করে))

যদিও সোরা 2 প্রম্পটটি আরও ভালভাবে অনুসরণ করেছিল, ভিও 3 এর ভিডিওটি আরও আকর্ষণীয় ছিল। আমি উভয়কে এটি দিচ্ছি।

বিজয়ী: টাই

প্রম্পট 4: দুই বন্ধু কথা বলছেন

এই প্রম্পটটি ভিডিওর সাথে যায় এমন অডিও তৈরির জেনারেটরগুলির দক্ষতা পরীক্ষা করার জন্য ডিজাইন করা হয়েছিল। ভিইও 3 এবং সোরা 2 উভয়েরই কথোপকথন এবং সাউন্ড এফেক্ট যুক্ত করার ক্ষমতা রয়েছে।

প্রথম, ভিজ্যুয়াল। প্রম্পটটি 2 ডি অ্যানিমেশন নির্দিষ্ট করেছে এবং কেবলমাত্র ভিইও 3 আসলে এটি অনুসরণ করেছে। সোরা 2 2 ডি এর পরিবর্তে 3 ডি অ্যানিমেশনের স্টাইলে কিছু তৈরি করেছে।

সোরা 2 উত্পন্ন অডিওটি কিছুটা অদ্ভুত ছিল। কথোপকথনটি বন্ধ হয়ে গেল, যেন উভয় চরিত্রই ঘুমের কথা বা সম্মোহিত ছিল। ভিইও 3 এর কথোপকথনটি অনেক বেশি প্রাণবন্ত এবং বাস্তববাদী ছিল। উভয় ভিডিওতে পটভূমির শব্দ প্রভাবগুলি একই রকম ছিল। উভয় ক্ষেত্রেই আপনি বৃষ্টি শুনতে পাচ্ছেন, তবে ক্লিঙ্কিং কাপের শব্দগুলি যুক্ত করার ক্ষেত্রে প্রম্পটটিও অনুসরণ করেননি।

এখানে বিজয়ী বেশ পরিষ্কার। আবার, এটি Veo 3।

বিজয়ী: Veo 3

প্রম্পট 5: রাস্তায় নাচ

ওপেনাইয়ের সোরা 2 এর শিরোনাম বৈশিষ্ট্যগুলির মধ্যে একটি হ’ল ক্যামোস, বা প্রকৃত লোকদের তুলনায় (যারা এই ব্যবহারের জন্য স্পষ্টভাবে অনুমতি দিয়েছে) বৈশিষ্ট্যযুক্ত ভিডিওগুলি তৈরি করার ক্ষমতা। এই প্রম্পটের জন্য, আমি রাস্তায় নিজের নাচের একটি ভিডিও তৈরি করার চেষ্টা করেছি।

সোরা 2 এ, এটি সহজ ছিল; এটি এমন একটি বৈশিষ্ট্য যা অ্যাপ্লিকেশন দ্বারা স্পষ্টভাবে সমর্থিত। ভিইওতে তবে এটি আরও বেশি কঠিন ছিল। গুগল ভিডিওতে উপাদান নামে একটি বৈশিষ্ট্য সরবরাহ করে, যেখানে আপনি ভিডিও তৈরিতে জেনারেটরের জন্য চিত্রের মতো জিনিস আপলোড করতে পারেন। তবে, ভিডিওতে উপাদানগুলি ভিও 3 দ্বারা সমর্থিত নয়, কেবল নিম্ন-মানের ভিও 2 দ্রুত। আপনি কেবল বৈশিষ্ট্য সহ প্রতিকৃতি ওরিয়েন্টেশন ভিডিও তৈরি করতে পারেন।

সর্বোপরি, ভিইও 3 এর আমাদের পরীক্ষায় আমরা দেখতে পেলাম যে জেমিনি প্রায়শই লোকদের বৈশিষ্ট্যযুক্ত ছবিগুলির উপর ভিত্তি করে ভিডিও তৈরি করতে অস্বীকার করবেন। এটি ডিপফেকগুলি প্রতিরোধের জন্য করা হয়, যা দুর্দান্ত, তবে স্টিল ইমেজগুলি অ্যানিমেট করা এআই ভিডিওর অন্যতম সাধারণ ব্যবহার এবং ভিইও 3 এটিকে অযথা কঠিন করে তোলে।

দুটি ভিডিওই কিছুটা অদ্ভুত ছিল এবং আমি বিষয় হিসাবে এটি বলি। ভিইও 2 দ্বারা নির্মিত ভিডিওতে মুখটি ছিল উদ্বেগজনক, এবং কোনও কারণে ভিইও 2 সিদ্ধান্ত নিয়েছে যে আমার পিছনের দিকে নাচতে হবে। সোরা 2 দ্বারা নির্মিত ভিডিওটি আরও কিছুটা সৃজনশীল ছিল এবং এটি আমাকে এমন পোশাক দিয়েছে যা আমি মনে করি না যে আমি বাস্তব জীবনে টানতে পারি।

ভিও 2 এর চেয়ে বেশি নাচতে আমাকে আরও ভাল কাজ করেছে সোরা। আমার কোনও ধারণা নেই যে সোরা 2 আমাকে “এটি ভাল লাগছে” বলে কেন বলেছিল, তবে এটি … ভয়ঙ্কর নয়।

বিজয়ী: সোরা 2

প্রম্পট 6: কপিরাইট উপাদান

এই প্রম্পটটি জেনারেটরগুলি কপিরাইটযুক্ত অক্ষরের ভিডিও তৈরি করতে পারে কিনা তা পরীক্ষা করার জন্য ডিজাইন করা হয়েছিল। আমরা সুপারহিরো প্রম্পটে যেমন দেখেছি, সোরা 2 এটি যখন আসে তখন অত্যন্ত সংবেদনশীল, তাই এটি প্রথমটির প্রতিক্রিয়া জানাতে অস্বীকার করলে অবাক হওয়ার কিছু নেই এবং দ্বিতীয় প্রম্পটগুলি – যদিও দ্বিতীয় প্রম্পটটি নাম অনুসারে কোনও চরিত্রের কথা উল্লেখ করে না, কেবল তাদেরকে ইঙ্গিত করে।

ভিইও 3 এর কোনও কপিরাইটযুক্ত চরিত্রের ভিডিও তৈরি করতে কোনও সমস্যা হয়নি। এটি একাধিক চরিত্রের সাথেও কাজ করেছিল।

এই বিভাগে কোনও বিজয়ী বা হেরে নেই। আমরা কপিরাইটযুক্ত চরিত্রগুলির সামগ্রী তৈরি করার আশেপাশে বিতর্কটি চালিয়ে যাচ্ছি না – কমপক্ষে, এখানে নয়। তবুও, এটি মনে রাখা উচিত যে আপনি যদি জানেন যে আপনি জানেন এবং ভালোবাসেন এমন চরিত্রগুলির ভিডিও তৈরি করতে চাইছেন তবে অ্যাপ্লিকেশনটি অধিকারধারীদের কাছ থেকে এ জাতীয় তদন্তের অধীনে থাকাকালীন আপনি সোরের সাথে এটি করতে পারবেন না।

বিজয়ী: এটি Veo 3, এবং এটি কাছাকাছি নয়

এখনও এআই ভিডিও থেকে দেখানো হচ্ছে দু'জন মহিলা একটি ক্লিফসাইডে দাঁড়িয়ে আছেন

গুগল দ্বারা উত্পাদিত একটি ফটোরিয়ালিস্টিক এআই ভিডিওর একটি স্ক্রিনশট ভিও 3 প্রচার করতে। এআই-উত্পাদিত চিত্র।
ক্রেডিট: গুগল

ওপেনাইয়ের সোরা 2 এর সামাজিক পদ্ধতির জন্য এবং তাদের সাথে আপনার সাথে ভিডিও তৈরি করার দক্ষতার জন্য শিরোনাম তৈরি করছে। তবে মেমস তৈরির বাইরে এটি অত্যন্ত সীমাবদ্ধ।

গুগলের ভিইও 3 সামগ্রিকভাবে আরও ভাল এবং উচ্চমানের ভিডিও উত্পন্ন করে। দুটি মডেলের মধ্যে, আপনি যদি পেশাদার উদ্দেশ্যে জেনারেটর এআই ভিডিও ব্যবহার করতে চান – ফিল্মমেকিং, গেমিং, সোশ্যাল মিডিয়া বা সম্ভবত বিজ্ঞাপনে – কেবলমাত্র ভিইও 3 সত্যই কার্যকর বিকল্প।

সোরা 2 আমার একটি ভিডিও তৈরিতে শ্রেষ্ঠত্ব অর্জন করেছিল এবং এটি এখনই সবচেয়ে বড় সুবিধা। তবে ভিইও 3, যখন গুগল ফ্লো অ্যাপে ব্যবহৃত হয়, উচ্চমানের এবং আরও বহুমুখী উভয়ই, একবারে একাধিক ভিডিও তৈরির জন্য অনুভূমিক এবং প্রতিকৃতি ওরিয়েন্টেশন এবং সেটিংসের জন্য বৈশিষ্ট্য সরবরাহ করে।


প্রকাশ: এপ্রিল মাসে মাশেবলের মূল সংস্থা জিফ ডেভিস ওপেনইয়ের বিরুদ্ধে মামলা দায়ের করেছিলেন, অভিযোগ করেছেন যে এটি জিফ ডেভিস কপিরাইটকে প্রশিক্ষণ ও এআই সিস্টেম পরিচালনায় লঙ্ঘন করেছে।

Leave a Comment