این ابزار هوش مصنوعی، که به آن Multi-Talk گفته میشود و اغلب با Vase و Fusion X ترکیب میشود، قابلیتهای کلیدی و امکانات پیشرفتهای را برای تولید ویدئو ارائه میدهد. واسط کاربری (interface) پیشنهادی برای استفاده از آن 1toGP است که کار را برای کاربران آسانتر میکند.
در ادامه قابلیتهای کلیدی و امکانات پیشرفته این ابزار آورده شده است:
قابلیتهای اصلی تولید ویدئو:
- تولید گفتار و آواز از روی صدا: این هوش مصنوعی میتواند هر کسی را وادار کند که هر چیزی را بگوید یا بخواند.
- انیمیشن ویدئویی مبتنی بر صدا: Multi-Talk یک مدل انیمیشن ویدئویی است که با ورودی صدا کار میکند.
- هماهنگی لب (Lip-Sync) واقعگرایانه و حرکت کل بدن: این ابزار حرکات طبیعی و واقعگرایانهای را شامل حرکت سر، صورت و کل بدن تولید میکند که از واقعگرایانهترین ابزارهای هماهنگسازی لب موجود است.
- گفتگو و تعامل چندنفره: این ابزار قادر است صحنههایی را ایجاد کند که در آن چندین نفر بر اساس صدایشان به طور واقعبینانه صحبت کرده و با یکدیگر تعامل داشته باشند.
- پشتیبانی از سبکهای هنری متنوع: علاوه بر ویدئوهای واقعگرایانه، میتواند ویدئوهایی با سبکهای هنری مختلف مانند سبک سهبعدی پیکسار یا انیمه نیز تولید کند.
- تولید ویدئوهای آوازخوانی: میتواند ویدئوهای آوازخوانی، از جمله دوئتها، را با نمایش احساسات پرشور و پیچیده تولید کند.
- تولید از متن (Text-to-Video): اگر تصویر مرجعی ارائه نشود، میتوان با یک دستور متنی (text prompt) ویدئو تولید کرد.
- پشتیبانی از زبانهای مختلف: این ابزار میتواند کاراکترها را به زبانهای مختلفی مانند اسپانیایی یا ژاپنی صحبت دهد.
- رایگان و متن باز (Open Source): این ابزار کاملاً رایگان و متن باز است.
- اجرای آفلاین و با VRAM کم: میتوان آن را به صورت آفلاین و نامحدود اجرا کرد، حتی با VRAM (حافظه گرافیکی) کم، تا حداقل 6 گیگابایت.
امکانات پیشرفته و کنترل دقیق:
- کنترل حرکت با ویدئوی مرجع (Vase): میتوان از یک ویدئوی مرجع برای کنترل حرکات شخصیت در ویدئوی نهایی استفاده کرد. این قابلیت توسط One-Vase ارائه میشود و به شما کنترل کاملی بر نحوه حرکت کاراکترها میدهد. همچنین میتوان حرکت یک ویدئو و یک شخصیت مرجع را در یک ویدئوی جدید ترکیب کرد، مثلاً برای هدایت یک شخصیت با حرکات اسکلت بدن.
- استفاده از تصویر مرجع: میتوانید یک تصویر مرجع به عنوان فریم شروع یا برای تعریف شخصیت خود وارد کنید. این کار کنترل بیشتری بر روی شخصیت تولید شده به شما میدهد.
- حذف و تغییر پسزمینه: میتوان پسزمینه تصویر مرجع را حذف کرده و شخصیت را در یک محیط کاملاً جدید قرار داد.
- مدیریت احساسات و حالات چهره: Multi-Talk در نمایش حالات چهره و احساسات پیچیده و شدید (مانند خشم یا غم) عالی عمل میکند، به شرطی که این احساسات در تصویر مرجع و کلیپ صوتی وجود داشته باشند.
- مدیریت چندین گوینده:
- تشخیص خودکار: یک گزینه برای تشخیص خودکار گوینده وجود دارد، اما معمولاً عملکرد خوبی ندارد.
- پخش متوالی صدا (In a Row): میتوان کلیپهای صوتی را به صورت متوالی پخش کرد؛ به عنوان مثال، ابتدا صدای شخص سمت چپ و سپس صدای شخص سمت راست.
- پخش موازی صدا (In Parallel): میتوان چندین کلیپ صوتی را به صورت همزمان پخش کرد، اما این گزینه نیاز به پیشپردازش و جداسازی صداها برای هر گوینده دارد.
- ترکیب مدلها (Vase Multi-Talk Fusion X): این مدل پیشرفتهتر Vase، Multi-Talk و Fusion X را با هم ترکیب میکند تا کنترل نهایی بر روی حرکت و صدا در ویدئو را فراهم کند و تولید ویدئو را بسیار سریعتر کند.
- سرعت و کیفیت تولید:
- Fusion X: این مدل نسبت به نسخههای دیگر، تنها به 6 مرحله برای تولید ویدئو نیاز دارد (در مقایسه با 20 مرحله برای Juan 2.1)، که باعث تولید سریعتر میشود.
- تعداد مراحل استنتاج (Inference Steps): تنظیم این مقدار بر کیفیت و سرعت تأثیر میگذارد؛ مراحل بیشتر کیفیت بالاتر و سرعت کمتر.
- T-Cache و Mega Cache: این گزینهها با پرش از برخی مراحل مشخص شده، میتوانند تولید ویدئو را تا 2.5 برابر سرعت ببخشند، با افت کیفیت معمولاً ناچیز. بهتر است این گزینه را از 10 درصد فرآیند تولید فعال کنید.
- تنظیمات راهنمایی (Guidance Settings):
- Guidance: میزان پیروی هوش مصنوعی از دستور متنی شما.
- Audio Guidance: میزان هماهنگی لب هوش مصنوعی با صدای ورودی؛ مقدار بالاتر برای دقت بیشتر در هماهنگی.
- ارتقاء کیفیت (Upsampling): پس از تولید ویدئو، میتوان از ارتقاءدهندههای زمانی (temporal) یا مکانی (spatial) برای بهبود کیفیت استفاده کرد.
- کنترل ابعاد و رزولوشن: کاربران میتوانند نسبت ابعاد و رزولوشن ویدئوی نهایی را انتخاب کنند.
- کنترل مدت زمان ویدئو: مدت زمان ویدئو بر اساس تعداد فریمها (25 فریم در ثانیه) تنظیم میشود. اگر تعداد فریمها کمتر از مدت زمان کلیپ صوتی باشد، صدا قطع خواهد شد.
زیرساخت و استفاده:
- Juan 2.1 by Alibaba: در بخش بکاند، Multi-Talk از Juan 2.1 by Alibaba استفاده میکند که بهترین تولیدکننده ویدئوی متنباز در حال حاضر است.
- نرمافزار 1toGP: آسانترین واسط کاربری برای استفاده از Multi-Talk است.
- اولین اجرا: در اولین اجرا، ابزار فایلهای اضافی بزرگی (مانند Depth Anything و Text Video Fusion X) را دانلود میکند.
- واسط کاربری Gradio: پس از نصب، ابزار از طریق یک واسط کاربری Gradio در مرورگر شما باز میشود.