Meta با رونمایی از پلتفرم تولید ویدئو Movie Gen که مبتنی بر هوش مصنوعی است، توانایی تولید ویدیوهای واقعی، ویرایش ویدیوهای موجود و حتی ایجاد موسیقی و افکت‌های صوتی را به نمایش گذاشت. این فناوری جدید قادر است تصاویری از افراد را به ویدیو تبدیل کند. اگرچه ویدیوهای تولید شده توسط Movie Gen شامل واترمارک کوچکی هستند، اما در حال حاضر به دلیل عدم دسترسی عمومی به آن، این مسئله چندان اهمیتی ندارد.


مسیر هوش مصنوعی متا به‌طور حتم آن را به قلمرو نوظهور ویدیوهای تولید شده توسط هوش مصنوعی هدایت می‌کند.

حالا شرکت به رهبری مارک زاکربرگ، Movie Gen  را معرفی کرده، هوش مصنوعی مولدی که توانایی تولید ویدیوهای نسبتاً واقع‌گرایانه‌ای را از یک متن کوتاه دارد. متا ادعا می‌کند که این فناوری می‌تواند به اندازه هالیوود برای کاربران عادی اینستاگرام نیز مفید باشد، اگرچه این ابزار در حال حاضر برای کسی در خارج از متا در دسترس نیست. Movie Gen  قادر به ایجاد صدا نیز هست که آن را به پیشرفته‌ترین ژنراتور محتوای دیپ‌فیک که تاکنون دیده‌ایم تبدیل میکند.


در یک پست وبلاگی، متا چندین ویدیوی نمونه از جمله یک اسب آبی شاد نمایش داده است که زیر آب شنا می‌کند، درست زیر سطح آب شناور است و ظاهراً بدون مشکلی نفس خود را نگه داشته است،. سایر ویدیوها پنگوئن‌هایی را نشان می‌دهند که لباس‌های "ویکتوریایی" به تن دارند، اگرچه آستین‌ها و دامن‌های آن‌ها برای آن دوره زمانی خیلی کوتاه هستند. ویدیوی دیگری زنی را به تصویر می‌کشد که در کنار یک یوزپلنگ موسیقی پخش می‌کند؛ یوزپلنگی که بیشتر به ضرب آهنگ موسیقی توجه دارد تا به خطری که در آن قرار گرفته است.

Meta-AI-Movie-Gen-koala.gif

متا توضیح داده است که این متن را به ویدئو تبدیل کرده است: "یک خرس کوآلای پشمالو موج‌سواری می‌کند. خز آن خاکستری و سفید است و بینی گردی دارد. تخته موج‌سواری زرد رنگ است. خرس کوآلا با پنجه‌هایش تخته را نگه داشته است. حالت چهره کوآلا متمرکز است. خورشید می‌تابد.

شرکت‌های بزرگ دنیا در حال ورود به عرصه تولید ویدیو با هوش مصنوعی هستند. امسال، مایکروسافت با VASA-1 و OpenAI با Sora وعده ویدیوهای "واقعی" تولید شده از دستورات متنی ساده را دادند. اگرچه Sora که در فوریه معرفی شده بود هنوز به بازار نرسیده است. Movie Gen متا نسبت به رقبا قابلیت‌های بیشتری دارد، از جمله ویرایش ویدیوهای موجود با یک دستور متنی، ایجاد ویدیو بر اساس یک تصویر و افزودن صدای تولید شده توسط هوش مصنوعی به ویدیوهای تولید شده.


مجموعه ابزارهای ویرایش ویدیو به نظر نوآورانه می‌رسند. این ابزار هم بر روی ویدیوهای تولید شده توسط هوش مصنوعی و هم بر روی ویدیوهای واقعی عمل می‌کند. متا ادعا می‌کند که مدل آن "محتوای اصلی را حفظ می‌کند" و در عین حال عناصری مانند پس‌زمینه‌ها یا لباس‌ها را به صحنه‌های اصلی اضافه می‌کند. متا نشان داد که چگونه می‌توانید از تصاویر افراد استفاده کرده و آن‌ها را به ویدیوهای تولید شده اضافه کنید.


متا قبلاً مدل‌های تولید موسیقی و صدا را معرفی کرده بود، اما غول رسانه‌های اجتماعی چند نمونه از مولد صدای ۱۳ بیلیونی خود را نمایش داد که افکت‌های صوتی و موسیقی را به ویدیوها اضافه می‌کند. ورودی متن می‌تواند به سادگی "صدای خش‌خش برگ‌ها و شکستن شاخه‌ها" باشد تا به ویدیوی تولید شده مار که در حال پیچیدن بر روی زمین جنگل است، اضافه شود. مولد صدا فعلاً به ۴۵ ثانیه محدود است، بنابراین نمی‌تواند موسیقی متن کامل یک فیلم را تولید کند، حداقل فعلاً.


و خیر، متاسفانه هنوز نمی‌توانید از آن استفاده کنید Chris Cox، مدیر محصول متا، در Threads نوشت: "ما هنوز آماده نیستیم این را به عنوان محصولی منتشر کنیم؛ این فناوری همچنان گران است و زمان تولید آن طولانی است."


در مقاله علمی که متا درباره Movie Gen منتشر کرده، توضیح داده شده که کل مجموعه نرم‌افزاری از چندین مدل پایه تشکیل شده است. بزرگ‌ترین مدل ویدیویی شرکت، یک مدل ۳۰ بیلیونی است که طول زمینه آن حداکثر ۷۳,۰۰۰ توکن ویدیویی است. مولد صدای ۱۳ بیلیونی این شرکت می‌تواند هم ویدیو را به صدا و هم متن را به صدا تولید کند.


مقایسه این فناوری با بزرگ‌ترین پلتفرم‌های تولید ویدئو شرکت‌های هوش مصنوعی دشوار است.

 به‌ویژه که OpenAI  ادعا می‌کند Sora از داده‌هایی به نام patches استفاده می‌کند که هر کدام شبیه به یک توکن در GPT  هستند. متا یکی از معدود شرکت‌های بزرگی است که همچنان داده‌های خود را با ابزارهای جدید هوش مصنوعی منتشر می‌کند، رویکردی که با تجاری شدن بیش از حد هوش مصنوعی کاهش یافته است. با این حال، white paper متا اطلاعات چندانی درباره منبع داده‌های آموزشی Movie Gen ارائه نمی‌دهد. به احتمال زیاد، بخشی از مجموعه داده‌ها از ویدیوهای کاربران فیسبوک تأمین شده است. همچنین متا از عکس‌هایی که با عینک‌های هوشمند Meta Ray-Ban گرفته شده است برای آموزش مدل‌های هوش مصنوعی خود استفاده می‌کند.


شما هنوز نمی‌توانید از Movie Gen استفاده کنید.

در عوض، سایر پلتفرم‌های تولید ویدئو هوش مصنوعی مانند Gen 3 از RunwayML تعداد محدودی توکن را برای ایجاد کلیپ‌های کوچک به صورت رایگان ارائه می‌دهند. گزارشی که اوایل امسال توسط 404 Media منتشر شد، نشان داد که Runway هوش مصنوعی خود را با استفاده از هزاران ویدیوی یوتیوب آموزش داده است، و مانند اکثر استارتاپ‌های هوش مصنوعی، قبل از گرفتن این محتوا اجازه‌ای از کاربران نگرفته است.


متا اعلام کرده است که در زمان ساخت این مدل با فیلم‌سازان و تهیه‌کنندگان ویدیو همکاری نزدیکی داشته و همچنان به همکاری با آن‌ها ادامه خواهد داد. گزارش‌های اوایل امسال نشان می‌دهد که استودیوها به تدریج به شرکت‌های هوش مصنوعی نزدیک‌تر می‌شوند. شرکت مستقل A24 اخیراً با شرکت‌های سرمایه‌گذاری خطرپذیر که در هوش مصنوعی تخصص دارند، همکاری کرده است که برخی از آن‌ها با OpenAI مرتبط هستند.

از سوی دیگر، گفته می‌شود متا در حال مذاکره با ستارگان هالیوود مانند Judi Dench و Awkwafina است تا از صدای آن‌ها در پروژه‌های آینده هوش مصنوعی خود استفاده کند.