گوگل از Lumiere، یک مدل انتشار متن به ویدئو، رونمایی کرد ✅ - تی شین

Google Research از Lumiere پرده برداری کرد، مدلی برای انتشار متن به ویدیو که ویدیوهای بسیار واقعی را از پیام های متنی یا تصویری ایجاد می کند.

تصاویر ثابت تولید شده توسط ابزارهایی مانند Midjourney یا DALL-E باورنکردنی هستند، اما متن به ویدئو (TTV) به طور قابل درک عقب مانده است و تا کنون بسیار کمتر تاثیرگذار بوده است.

مدل‌های TTV مانند مدل‌های Pika Labs یا Stable Video Diffusion در ۱۲ ماه گذشته راه زیادی را پیموده‌اند، اما واقع‌گرایی و تداوم حرکت هنوز کمی مبهم است.

Lumiere نشان دهنده یک جهش بزرگ در TTV به دلیل یک رویکرد جدید برای تولید ویدیو است که از لحاظ مکانی و زمانی منسجم است. به عبارت دیگر، هدف این است که صحنه‌های هر فریم از نظر بصری ثابت بماند و حرکات صاف باشند.

لومیر چه کاری می تواند انجام دهد؟

Lumiere دارای طیف وسیعی از عملکردهای تولید ویدیو از جمله موارد زیر است:

تکست به ویدیو – یک درخواست متنی وارد کنید و Lumiere یک کلیپ ویدیویی ۵ ثانیه‌ای متشکل از ۸۰ فریم با سرعت ۱۶ فریم در ثانیه تولید می‌کند.
تصویر به ویدیو – Lumiere یک تصویر را به عنوان درخواست می گیرد و آن را به یک ویدیو تبدیل می کند.
نسل سبک – یک تصویر را می توان به عنوان مرجع سبک استفاده کرد. Lumiere از یک اعلان متن برای تولید یک ویدیو به سبک تصویر مرجع استفاده می کند.
سبک‌سازی ویدیو – Lumiere می‌تواند یک ویدیوی منبع را برای مطابقت با یک درخواست نوشتاری سبک ویرایش کند.
Cinemagraphs – یک منطقه را در یک تصویر ثابت انتخاب کنید و Lumiere آن قسمت از تصویر را متحرک خواهد کرد.
نقاشی تصویری – Lumiere می‌تواند یک صحنه ویدیویی ماسک‌دار را بگیرد و آن را برای تکمیل ویدیو نقاشی کند. همچنین می‌تواند ویدیوی منبع را با حذف یا جایگزینی عناصر موجود در صحنه ویرایش کند.

ویدئوی زیر برخی از ویدیوهای چشمگیر Lumiere را نشان می‌دهد.

<img fetchpriority="high" fetchpriority="high" decoding="async" class="wp-image-9448 size-full" src="https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models.png" alt="گوگل از Lumiere، یک مدل انتشار متن به ویدئو، رونمایی کرد - خبرخوان تی شین" width="986" height="1080" srcset="https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models.png 986w, https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models-274x300.png 274w, https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models-935x1024.png 935w, https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models-768x841.png 768w, https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models-370x405.png 370w, https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models-800x876.png 800w, https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models-740x811.png 740w, https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models-20x22.png 20w, https://dailyai.com/wp-content/uploads/2024/01/Lumiere-compared-to-other-TTV-models-44x48.png 44w" sizes="(max-width: 986px) 100vw, 986px" title="گوگل از Lumiere، یک مدل انتشار متن به ویدئو، رونمایی کرد 6"><figcaption id="caption-attachment-9448" class="wp- caption-text">تنظیمات برگزیده کاربر در مورد کیفیت کیفیت متن به ویدیو، میزان همسویی ویدیو با درخواست متن و کیفیت تصویر به ویدیو. منبع: google research</figcaption>نتیجه نهایی ممکن است فقط یک کلیپ ۵ ثانیه ای باشد، اما واقع گرایی و تصاویر و حرکت منسجم بهتر از هر چیز دیگری است که در حال حاضر موجود است. اکثر راه حل های TTV دیگر در حال حاضر فقط کلیپ های ۳ ثانیه ای تولید می کنند. Lumiere انتقال صحنه یا صحنه‌های ویدیویی چند شات را کنترل نمی‌کند، اما عملکرد چند صحنه طولانی‌تر تقریباً مطمئناً در راه است. در <a href="https://arxiv.org/pdf/2401.12945.pdf" target="_blank" rel="noopener">مقاله تحقیقاتی Lumiere</a>، Google اشاره کرد که “خطر سوء استفاده برای ایجاد محتوای جعلی یا مضر با فناوری ما.” امیدواریم که آنها راهی برای واترمارک کردن مؤثر ویدیوهای خود پیدا کنند و از مسائل مربوط به حق نسخه برداری جلوگیری کنند تا بتوانند Lumiere را برای ما منتشر کنند تا بتوانیم آن را به سرعت انجام دهیم.