ساخت ویدیوهای هوش مصنوعی با قابلیت کنترل کامل

اپیزود: اخبار هوش مصنوعی

این ابزار هوش مصنوعی، که به آن Multi-Talk گفته می‌شود و اغلب با Vase و Fusion X ترکیب می‌شود، قابلیت‌های کلیدی و امکانات پیشرفته‌ای را برای تولید ویدئو ارائه می‌دهد. واسط کاربری (interface) پیشنهادی برای استفاده از آن 1toGP است که کار را برای کاربران آسان‌تر می‌کند.

در ادامه قابلیت‌های کلیدی و امکانات پیشرفته این ابزار آورده شده است:

قابلیت‌های اصلی تولید ویدئو:

تولید گفتار و آواز از روی صدا: این هوش مصنوعی می‌تواند هر کسی را وادار کند که هر چیزی را بگوید یا بخواند.
انیمیشن ویدئویی مبتنی بر صدا: Multi-Talk یک مدل انیمیشن ویدئویی است که با ورودی صدا کار می‌کند.
هماهنگی لب (Lip-Sync) واقع‌گرایانه و حرکت کل بدن: این ابزار حرکات طبیعی و واقع‌گرایانه‌ای را شامل حرکت سر، صورت و کل بدن تولید می‌کند که از واقع‌گرایانه‌ترین ابزارهای هماهنگ‌سازی لب موجود است.
گفتگو و تعامل چندنفره: این ابزار قادر است صحنه‌هایی را ایجاد کند که در آن چندین نفر بر اساس صدایشان به طور واقع‌بینانه صحبت کرده و با یکدیگر تعامل داشته باشند.
پشتیبانی از سبک‌های هنری متنوع: علاوه بر ویدئوهای واقع‌گرایانه، می‌تواند ویدئوهایی با سبک‌های هنری مختلف مانند سبک سه‌بعدی پیکسار یا انیمه نیز تولید کند.
تولید ویدئوهای آوازخوانی: می‌تواند ویدئوهای آوازخوانی، از جمله دوئت‌ها، را با نمایش احساسات پرشور و پیچیده تولید کند.
تولید از متن (Text-to-Video): اگر تصویر مرجعی ارائه نشود، می‌توان با یک دستور متنی (text prompt) ویدئو تولید کرد.
پشتیبانی از زبان‌های مختلف: این ابزار می‌تواند کاراکترها را به زبان‌های مختلفی مانند اسپانیایی یا ژاپنی صحبت دهد.
رایگان و متن باز (Open Source): این ابزار کاملاً رایگان و متن باز است.
اجرای آفلاین و با VRAM کم: می‌توان آن را به صورت آفلاین و نامحدود اجرا کرد، حتی با VRAM (حافظه گرافیکی) کم، تا حداقل 6 گیگابایت.

امکانات پیشرفته و کنترل دقیق:

کنترل حرکت با ویدئوی مرجع (Vase): می‌توان از یک ویدئوی مرجع برای کنترل حرکات شخصیت در ویدئوی نهایی استفاده کرد. این قابلیت توسط One-Vase ارائه می‌شود و به شما کنترل کاملی بر نحوه حرکت کاراکترها می‌دهد. همچنین می‌توان حرکت یک ویدئو و یک شخصیت مرجع را در یک ویدئوی جدید ترکیب کرد، مثلاً برای هدایت یک شخصیت با حرکات اسکلت بدن.
استفاده از تصویر مرجع: می‌توانید یک تصویر مرجع به عنوان فریم شروع یا برای تعریف شخصیت خود وارد کنید. این کار کنترل بیشتری بر روی شخصیت تولید شده به شما می‌دهد.
حذف و تغییر پس‌زمینه: می‌توان پس‌زمینه تصویر مرجع را حذف کرده و شخصیت را در یک محیط کاملاً جدید قرار داد.
مدیریت احساسات و حالات چهره: Multi-Talk در نمایش حالات چهره و احساسات پیچیده و شدید (مانند خشم یا غم) عالی عمل می‌کند، به شرطی که این احساسات در تصویر مرجع و کلیپ صوتی وجود داشته باشند.
مدیریت چندین گوینده:
- تشخیص خودکار: یک گزینه برای تشخیص خودکار گوینده وجود دارد، اما معمولاً عملکرد خوبی ندارد.
- پخش متوالی صدا (In a Row): می‌توان کلیپ‌های صوتی را به صورت متوالی پخش کرد؛ به عنوان مثال، ابتدا صدای شخص سمت چپ و سپس صدای شخص سمت راست.
- پخش موازی صدا (In Parallel): می‌توان چندین کلیپ صوتی را به صورت همزمان پخش کرد، اما این گزینه نیاز به پیش‌پردازش و جداسازی صداها برای هر گوینده دارد.
ترکیب مدل‌ها (Vase Multi-Talk Fusion X): این مدل پیشرفته‌تر Vase، Multi-Talk و Fusion X را با هم ترکیب می‌کند تا کنترل نهایی بر روی حرکت و صدا در ویدئو را فراهم کند و تولید ویدئو را بسیار سریع‌تر کند.
سرعت و کیفیت تولید:
- Fusion X: این مدل نسبت به نسخه‌های دیگر، تنها به 6 مرحله برای تولید ویدئو نیاز دارد (در مقایسه با 20 مرحله برای Juan 2.1)، که باعث تولید سریع‌تر می‌شود.
- تعداد مراحل استنتاج (Inference Steps): تنظیم این مقدار بر کیفیت و سرعت تأثیر می‌گذارد؛ مراحل بیشتر کیفیت بالاتر و سرعت کمتر.
- T-Cache و Mega Cache: این گزینه‌ها با پرش از برخی مراحل مشخص شده، می‌توانند تولید ویدئو را تا 2.5 برابر سرعت ببخشند، با افت کیفیت معمولاً ناچیز. بهتر است این گزینه را از 10 درصد فرآیند تولید فعال کنید.
تنظیمات راهنمایی (Guidance Settings):
- Guidance: میزان پیروی هوش مصنوعی از دستور متنی شما.
- Audio Guidance: میزان هماهنگی لب هوش مصنوعی با صدای ورودی؛ مقدار بالاتر برای دقت بیشتر در هماهنگی.
ارتقاء کیفیت (Upsampling): پس از تولید ویدئو، می‌توان از ارتقاءدهنده‌های زمانی (temporal) یا مکانی (spatial) برای بهبود کیفیت استفاده کرد.
کنترل ابعاد و رزولوشن: کاربران می‌توانند نسبت ابعاد و رزولوشن ویدئوی نهایی را انتخاب کنند.
کنترل مدت زمان ویدئو: مدت زمان ویدئو بر اساس تعداد فریم‌ها (25 فریم در ثانیه) تنظیم می‌شود. اگر تعداد فریم‌ها کمتر از مدت زمان کلیپ صوتی باشد، صدا قطع خواهد شد.

زیرساخت و استفاده:

Juan 2.1 by Alibaba: در بخش بک‌اند، Multi-Talk از Juan 2.1 by Alibaba استفاده می‌کند که بهترین تولیدکننده ویدئوی متن‌باز در حال حاضر است.
نرم‌افزار 1toGP: آسان‌ترین واسط کاربری برای استفاده از Multi-Talk است.
اولین اجرا: در اولین اجرا، ابزار فایل‌های اضافی بزرگی (مانند Depth Anything و Text Video Fusion X) را دانلود می‌کند.
واسط کاربری Gradio: پس از نصب، ابزار از طریق یک واسط کاربری Gradio در مرورگر شما باز می‌شود.