চিত্র, শব্দ ও সংলাপ একসঙ্গে তৈরি করছে বাইদুর এআই মডেল মিউজস্টিমার
Published: 6th, July 2025 GMT
লিখিত প্রম্পট থেকে বাস্তবধর্মী ভিডিও তৈরিতে গুগল ও ওপেনএআইয়ের সঙ্গে দৌড়ে শামিল হয়েছে চীনের প্রযুক্তিপ্রতিষ্ঠানগুলোও। এরই মধ্যে চীনা সার্চ ইঞ্জিন বাইদু চালু করেছে তাদের প্রথম এআই ভিডিও তৈরির মডেল ‘মিউজস্টিমার’।
চিত্র, সাউন্ড ইফেক্ট ও চীনা ভাষায় সংলাপ তিনটি উপাদান একসঙ্গে তৈরি করার ক্ষমতা রয়েছে মিউজস্টিমার মডেলের। সব উপাদান একে অপরের সঙ্গে সিঙ্ক করে তৈরি হওয়ায় ভিডিওর গুণগত মান হয় উচ্চমাত্রার। বিশেষজ্ঞরা বলছেন, বিজ্ঞাপন, বিপণন বা কনটেন্ট নির্মাণের মতো খাতে এ প্রযুক্তি সময় ও খরচ বাঁচিয়ে দিতে পারে। মূলত ব্যবসায়িক ব্যবহারকারীদের লক্ষ্য করে তৈরি এই এআই মডেল স্থিরচিত্র থেকে স্বল্পদৈর্ঘ্য ভিডিও তৈরি করতে সক্ষম। এ ছাড়া বাইদু তাদের সার্চ প্রযুক্তিতেও এনেছে পরিবর্তন। নতুন সংস্করণে সার্চ হয়েছে আরও স্মার্ট, মাল্টিমোডাল ও ব্যবহারকারীভেদে পারসোনালাইজড।
মিউজস্টিমার একটি ‘ভিশন ল্যাঙ্গুয়েজ মডেল’ বা ভিএলএম। এ ধরনের মডেল কম্পিউটার ভিশন ও প্রাকৃতিক ভাষা প্রক্রিয়াকরণের সক্ষমতা একসঙ্গে কাজে লাগায়। ফলে ছবি ও লেখার সমন্বিত বিশ্লেষণ করে এমন কাজগুলোতে এই মডেল ব্যবহার করা যায়, যেগুলোতে মাল্টিমোডাল বোঝাপড়ার প্রয়োজন পড়ে। ১০ সেকেন্ড দৈর্ঘ্যের ফুল এইচডি (১০৮০পি) ভিডিও তৈরি করতে পারে মিউজস্টিমার, যেখানে দৃশ্য, সংলাপ ও শব্দ একসঙ্গে এবং সঠিকভাবে সমন্বিত থাকে। প্রাথমিকভাবে যাঁরা এই মডেল ব্যবহার করেছেন, তাঁরা বলছেন, আউটপুট দেখে বিস্মিত না হয়ে উপায় নেই।
সম্প্রতি সামাজিক যোগাযোগমাধ্যম এক্সে (সাবেক টুইটার) মিউজস্টিমার দিয়ে তৈরি কয়েকটি ভিডিও শেয়ার করা হয়েছে। সেখানে মডেলটির চিত্রনির্মাণ ও সাউন্ড ডিজাইনের সক্ষমতা স্পষ্ট হয়ে উঠেছে। বাইদু তিনটি স্তরে মিউজস্টিমার চালু করেছে। এগুলো হলো টার্বো, প্রো ও লাইট। প্রতিটি স্তরই মূলত এন্টারপ্রাইজ বা করপোরেট ব্যবহারকারীদের জন্য তৈরি। গুগলের ভিও থ্রি কিংবা ওপেনএআইয়ের সোরা সাধারণ ব্যবহারকারীদের জন্য তৈরি হলেও বাইদুর মিউজস্টিমার সেখানে পরিপূর্ণভাবে ব্যবসায়িক চাহিদা পূরণের কথা মাথায় রেখে ডিজাইন করা হয়েছে।
বিশ্লেষকেরা বলছেন, মিউজস্টিমারের মাধ্যমে চীনের জেনারেটিভ এআই খাতে প্রতিযোগিতা আরও জোরালো হলো। এরই মধ্যে বাইটড্যান্স, টেনসেন্ট ও আলিবাবার মতো প্রতিষ্ঠান এই খাতে সক্রিয়ভাবে কাজ করছে। এদিকে গত মে মাসে গুগলের বার্ষিক ডেভেলপার সম্মেলন ‘গুগল আই/ও’তে ‘ভিও থ্রি’ মডেল উন্মোচন করা হয়, যা এর হাইপাররিয়ালিস্টিক ভিডিও তৈরির দক্ষতার জন্য প্রশংসিত হয়।
সূত্র: ইন্ডিয়ান এক্সপ্রেস
.উৎস: Prothomalo
এছাড়াও পড়ুন:
প্রথমবার একসঙ্গে গাইলেন মা-মেয়ে
ক্যারিয়ারের শুরু থেকেই ধারাবাহিকভাবে একে একে শ্রোতাপ্রিয় সব গান উপহার দিয়ে আসছেন সংগীতশিল্পী নাজমুন মুনিরা ন্যান্সি। তারই পথ ধরে এরইমধ্যে গানে সম্ভাবনার জানান দিয়েছেন তার বড় কন্যা রোদেলা। এবার নতুন চমক নিয়ে হাজির হচ্ছেন মা-মেয়ে।
প্রথমবারের মতো একটি গানে কণ্ঠ দিয়েছেন তারা। গানের শিরোনাম ‘কেন’। গানটির কথা লিখেছেন ফয়সাল রাব্বিকীন। সুর-সংগীতায়োজন করেছেন প্রত্যয় খান।
স্যাড-রোমান্টিক কথার এ গানটির একটি ভিডিও করা হয়েছে, যেখানে অংশ নিয়েছেন মা-মেয়ে দুজনেই। গানটি নিয়ে বেশ এক্সাইটেড মা-মেয়ে দুজনই।
ন্যান্সি বলেন, ‘প্রথমে গানটি আমারই করার কথা ছিলো। পরে মাথায় এলো এখানে রোদেলার অন্তর্ভুক্তি হলে মন্দ হয় না। প্রথমে গাইয়ে দেখলাম। বেশ ভালোই লাগলো। প্রথমবার আমার সঙ্গে কন্যার গান! তাই স্বাভাবিকভাবেই আমি এক্সাইটেড, গর্বিত ও আনন্দিত। আমার বিশ্বাস গানটি ভালো লাগবে সবার।’
এদিকে গানটি প্রসঙ্গে রোদেলা বলেন, ‘এটা একটা দুঃসাহসই বটে। কারণ আমার মায়ের কণ্ঠ, গান সারা বিশ্বের বাংলা ভাষাভাষীদের কাছে জনপ্রিয়। তার ইউনিক স্টাইল রয়েছে। এবার তার সঙ্গে গান গেয়ে ফেললাম। অবশ্য মায়ের অনুপ্রেরণা ও সাহসেই গানটি গাইলাম। গানটি আশা করছি ভালো লাগবে সবার।’
গীতিকবি ফয়সাল রাব্বিকীন বলেন, ‘সময় নিয়ে গানটি করা। মা-মেয়ের কণ্ঠে গান করার পরিকল্পনাটাও ইউনিক। সবচেয়ে বড় কথা গানটি শ্রুতিমধুর ও ভিন্নধর্মী। আমার বিশ্বাস ভালো লাগবে শ্রোতাদের।’
১০ জুলাই গানটি প্রকাশ হবে রোদেলার নিজের ইউটিউব চ্যানেলে।