Google Research از Lumiere پرده برداری کرد، مدلی برای انتشار متن به ویدیو که ویدیوهای بسیار واقعی را از پیام های متنی یا تصویری ایجاد می کند.
تصاویر ثابت تولید شده توسط ابزارهایی مانند Midjourney یا DALL-E باورنکردنی هستند، اما متن به ویدئو (TTV) به طور قابل درک عقب مانده است و تا کنون بسیار کمتر تاثیرگذار بوده است.
مدلهای TTV مانند مدلهای Pika Labs یا Stable Video Diffusion در ۱۲ ماه گذشته راه زیادی را پیمودهاند، اما واقعگرایی و تداوم حرکت هنوز کمی مبهم است.
Lumiere نشان دهنده یک جهش بزرگ در TTV به دلیل یک رویکرد جدید برای تولید ویدیو است که از لحاظ مکانی و زمانی منسجم است. به عبارت دیگر، هدف این است که صحنههای هر فریم از نظر بصری ثابت بماند و حرکات صاف باشند.
لومیر چه کاری می تواند انجام دهد؟
Lumiere دارای طیف وسیعی از عملکردهای تولید ویدیو از جمله موارد زیر است:
- تکست به ویدیو – یک درخواست متنی وارد کنید و Lumiere یک کلیپ ویدیویی ۵ ثانیهای متشکل از ۸۰ فریم با سرعت ۱۶ فریم در ثانیه تولید میکند.
- تصویر به ویدیو – Lumiere یک تصویر را به عنوان درخواست می گیرد و آن را به یک ویدیو تبدیل می کند.
- نسل سبک – یک تصویر را می توان به عنوان مرجع سبک استفاده کرد. Lumiere از یک اعلان متن برای تولید یک ویدیو به سبک تصویر مرجع استفاده می کند.
- سبکسازی ویدیو – Lumiere میتواند یک ویدیوی منبع را برای مطابقت با یک درخواست نوشتاری سبک ویرایش کند.
- Cinemagraphs – یک منطقه را در یک تصویر ثابت انتخاب کنید و Lumiere آن قسمت از تصویر را متحرک خواهد کرد.
- نقاشی تصویری – Lumiere میتواند یک صحنه ویدیویی ماسکدار را بگیرد و آن را برای تکمیل ویدیو نقاشی کند. همچنین میتواند ویدیوی منبع را با حذف یا جایگزینی عناصر موجود در صحنه ویرایش کند.
ویدئوی زیر برخی از ویدیوهای چشمگیر Lumiere را نشان میدهد.