নতুন প্রকল্প উইকিপিডিয়া ডেটা এআই -তে আরও অ্যাক্সেসযোগ্য করে তোলে

[ad_1]

বুধবার, উইকিমিডিয়া ডয়চল্যান্ড একটি নতুন ডাটাবেস ঘোষণা করেছে যা উইকিপিডিয়ার জ্ঞানের সম্পদ এআই মডেলগুলিতে আরও অ্যাক্সেসযোগ্য করে তুলবে।

উইকিডাটা এম্বেডিং প্রকল্প নামে পরিচিত, সিস্টেমটি একটি ভেক্টর-ভিত্তিক শব্দার্থক অনুসন্ধান প্রয়োগ করে-এমন একটি কৌশল যা কম্পিউটারগুলিকে শব্দের মধ্যে অর্থ এবং সম্পর্কগুলি বুঝতে সহায়তা করে-উইকিপিডিয়া এবং এর বোন প্ল্যাটফর্মগুলির বিদ্যমান ডেটাগুলিতে প্রায় 120 মিলিয়ন এন্ট্রি সমন্বিত।

মডেল কনটেক্সট প্রোটোকল (এমসিপি) এর জন্য নতুন সহায়তার সাথে একত্রিত, এমন একটি মান যা এআই সিস্টেমগুলিকে ডেটা উত্সগুলির সাথে যোগাযোগ করতে সহায়তা করে, প্রকল্পটি এলএলএমএস থেকে প্রাকৃতিক ভাষার প্রশ্নের জন্য ডেটা আরও অ্যাক্সেসযোগ্য করে তোলে।

আইবিএমের মালিকানাধীন রিয়েল-টাইম প্রশিক্ষণ-ডেটা সংস্থা নিউরাল অনুসন্ধান সংস্থা জিনা.এএ এবং ডেটাস্ট্যাক্সের সহযোগিতায় উইকিমিডিয়ার জার্মান শাখা দ্বারা প্রকল্পটি হাতে নিয়েছিল।

উইকিডাটা বছরের পর বছর ধরে উইকিমিডিয়া বৈশিষ্ট্যগুলি থেকে মেশিন-পঠনযোগ্য ডেটা সরবরাহ করেছে, তবে প্রাক-বিদ্যমান সরঞ্জামগুলি কেবল কীওয়ার্ড অনুসন্ধান এবং স্পারকিউএল কোয়েরিগুলির জন্য অনুমোদিত, একটি বিশেষ ক্যোয়ারী ভাষা। নতুন সিস্টেমটি পুনরুদ্ধার-আগত প্রজন্মের (আরএজি) সিস্টেমগুলির সাথে আরও ভাল কাজ করবে যা এআই মডেলগুলিকে বাহ্যিক তথ্য টানতে দেয়, বিকাশকারীদের উইকিপিডিয়া সম্পাদকদের দ্বারা যাচাই করা জ্ঞানে তাদের মডেলগুলিকে গ্রাউন্ড করার সুযোগ দেয়।

গুরুত্বপূর্ণ শব্দার্থক প্রসঙ্গ সরবরাহ করতে ডেটাও কাঠামোগত করা হয়। জন্য ডাটাবেস জিজ্ঞাসা করা “বিজ্ঞানী,” শব্দটি উদাহরণস্বরূপ, বিশিষ্ট পারমাণবিক বিজ্ঞানীদের পাশাপাশি বেল ল্যাবসে কাজ করা বিজ্ঞানীদের তালিকা তৈরি করবে। বিভিন্ন ভাষায় “বিজ্ঞানী” শব্দের অনুবাদ, কর্মক্ষেত্রে বিজ্ঞানীদের একটি উইকিমিডিয়া-ক্লিয়ার চিত্র এবং “গবেষক” এবং “পণ্ডিত” এর মতো সম্পর্কিত ধারণাগুলির এক্সট্রাপোলেশন রয়েছে।

ডাটাবেস হয় টুলফোরজে সর্বজনীনভাবে অ্যাক্সেসযোগ্য। উইকিডাটাও হোস্টিং করছে আগ্রহী বিকাশকারীদের জন্য একটি ওয়েবিনার 9 ই অক্টোবর।

টেকক্রাঞ্চ ইভেন্ট

সান ফ্রান্সিসকো
|
অক্টোবর 27-29, 2025

নতুন প্রকল্পটি আসে যখন এআই বিকাশকারীরা উচ্চ-মানের ডেটা উত্সগুলির জন্য ঝাঁকুনি দিচ্ছে যা সূক্ষ্ম-টিউন মডেলগুলিতে ব্যবহার করা যেতে পারে। প্রশিক্ষণ ব্যবস্থাগুলি নিজেরাই আরও পরিশীলিত হয়ে উঠেছে – প্রায়শই সাধারণ ডেটাসেটের পরিবর্তে জটিল প্রশিক্ষণের পরিবেশ হিসাবে একত্রিত হয় – তবে তাদের এখনও ভালভাবে কাজ করার জন্য ঘনিষ্ঠভাবে সজ্জিত ডেটা প্রয়োজন। উচ্চ নির্ভুলতার প্রয়োজন মোতায়েনের জন্য, নির্ভরযোগ্য ডেটার প্রয়োজনীয়তা বিশেষত জরুরি এবং কিছু উইকিপিডিয়ায় তাকাতে পারে, এর ডেটা যেমন ক্যাচল ডেটাসেটের মতো ক্যাচল ডেটাসেটের চেয়ে উল্লেখযোগ্যভাবে আরও সত্য-ভিত্তিক সাধারণ ক্রলযা ইন্টারনেট জুড়ে স্ক্র্যাপযুক্ত ওয়েব পৃষ্ঠাগুলির একটি বিশাল সংগ্রহ।

কিছু ক্ষেত্রে, উচ্চ-মানের ডেটার জন্য ধাক্কায় এআই ল্যাবগুলির জন্য ব্যয়বহুল পরিণতি হতে পারে। আগস্টে, নৃতাত্ত্বিক এমন একদল লেখকের সাথে একটি মামলা নিষ্পত্তি করার প্রস্তাব দিয়েছিল যার কাজগুলি প্রশিক্ষণ উপাদান হিসাবে ব্যবহৃত হয়েছিল, অন্যায়ের কোনও দাবি শেষ করতে $ 1.5 বিলিয়ন ডলার প্রদানের বিষয়ে সম্মত হয়েছিল।

প্রেসকে দেওয়া এক বিবৃতিতে উইকিডাটা এআই প্রকল্পের পরিচালক ফিলিপ সাদে বড় বড় এআই ল্যাব বা বড় প্রযুক্তি সংস্থাগুলির কাছ থেকে তার প্রকল্পের স্বাধীনতার উপর জোর দিয়েছিলেন। সাদে সাংবাদিকদের বলেন, “এই এম্বেডিং প্রকল্পের লঞ্চটি দেখায় যে শক্তিশালী এআইকে মুষ্টিমেয় সংস্থাগুলি দ্বারা নিয়ন্ত্রণ করতে হবে না।” “এটি উন্মুক্ত, সহযোগী এবং প্রত্যেকের সেবা করার জন্য নির্মিত হতে পারে।”

[ad_2]

Leave a Comment