Meta با رونمایی از پلتفرم تولید ویدئو Movie Gen که مبتنی بر هوش مصنوعی است، توانایی تولید ویدیوهای واقعی، ویرایش ویدیوهای موجود و حتی ایجاد موسیقی و افکتهای صوتی را به نمایش گذاشت. این فناوری جدید قادر است تصاویری از افراد را به ویدیو تبدیل کند. اگرچه ویدیوهای تولید شده توسط Movie Gen شامل واترمارک کوچکی هستند، اما در حال حاضر به دلیل عدم دسترسی عمومی به آن، این مسئله چندان اهمیتی ندارد.
مسیر هوش مصنوعی متا بهطور حتم آن را به قلمرو نوظهور ویدیوهای تولید شده توسط هوش مصنوعی هدایت میکند.
حالا شرکت به رهبری مارک زاکربرگ، Movie Gen را معرفی کرده، هوش مصنوعی مولدی که توانایی تولید ویدیوهای نسبتاً واقعگرایانهای را از یک متن کوتاه دارد. متا ادعا میکند که این فناوری میتواند به اندازه هالیوود برای کاربران عادی اینستاگرام نیز مفید باشد، اگرچه این ابزار در حال حاضر برای کسی در خارج از متا در دسترس نیست. Movie Gen قادر به ایجاد صدا نیز هست که آن را به پیشرفتهترین ژنراتور محتوای دیپفیک که تاکنون دیدهایم تبدیل میکند.
در یک پست وبلاگی، متا چندین ویدیوی نمونه از جمله یک اسب آبی شاد نمایش داده است که زیر آب شنا میکند، درست زیر سطح آب شناور است و ظاهراً بدون مشکلی نفس خود را نگه داشته است،. سایر ویدیوها پنگوئنهایی را نشان میدهند که لباسهای "ویکتوریایی" به تن دارند، اگرچه آستینها و دامنهای آنها برای آن دوره زمانی خیلی کوتاه هستند. ویدیوی دیگری زنی را به تصویر میکشد که در کنار یک یوزپلنگ موسیقی پخش میکند؛ یوزپلنگی که بیشتر به ضرب آهنگ موسیقی توجه دارد تا به خطری که در آن قرار گرفته است.
متا توضیح داده است که این متن را به ویدئو تبدیل کرده است: "یک خرس کوآلای پشمالو موجسواری میکند. خز آن خاکستری و سفید است و بینی گردی دارد. تخته موجسواری زرد رنگ است. خرس کوآلا با پنجههایش تخته را نگه داشته است. حالت چهره کوآلا متمرکز است. خورشید میتابد.
شرکتهای بزرگ دنیا در حال ورود به عرصه تولید ویدیو با هوش مصنوعی هستند. امسال، مایکروسافت با VASA-1 و OpenAI با Sora وعده ویدیوهای "واقعی" تولید شده از دستورات متنی ساده را دادند. اگرچه Sora که در فوریه معرفی شده بود هنوز به بازار نرسیده است. Movie Gen متا نسبت به رقبا قابلیتهای بیشتری دارد، از جمله ویرایش ویدیوهای موجود با یک دستور متنی، ایجاد ویدیو بر اساس یک تصویر و افزودن صدای تولید شده توسط هوش مصنوعی به ویدیوهای تولید شده.
مجموعه ابزارهای ویرایش ویدیو به نظر نوآورانه میرسند. این ابزار هم بر روی ویدیوهای تولید شده توسط هوش مصنوعی و هم بر روی ویدیوهای واقعی عمل میکند. متا ادعا میکند که مدل آن "محتوای اصلی را حفظ میکند" و در عین حال عناصری مانند پسزمینهها یا لباسها را به صحنههای اصلی اضافه میکند. متا نشان داد که چگونه میتوانید از تصاویر افراد استفاده کرده و آنها را به ویدیوهای تولید شده اضافه کنید.
متا قبلاً مدلهای تولید موسیقی و صدا را معرفی کرده بود، اما غول رسانههای اجتماعی چند نمونه از مولد صدای ۱۳ بیلیونی خود را نمایش داد که افکتهای صوتی و موسیقی را به ویدیوها اضافه میکند. ورودی متن میتواند به سادگی "صدای خشخش برگها و شکستن شاخهها" باشد تا به ویدیوی تولید شده مار که در حال پیچیدن بر روی زمین جنگل است، اضافه شود. مولد صدا فعلاً به ۴۵ ثانیه محدود است، بنابراین نمیتواند موسیقی متن کامل یک فیلم را تولید کند، حداقل فعلاً.
و خیر، متاسفانه هنوز نمیتوانید از آن استفاده کنید Chris Cox، مدیر محصول متا، در Threads نوشت: "ما هنوز آماده نیستیم این را به عنوان محصولی منتشر کنیم؛ این فناوری همچنان گران است و زمان تولید آن طولانی است."
در مقاله علمی که متا درباره Movie Gen منتشر کرده، توضیح داده شده که کل مجموعه نرمافزاری از چندین مدل پایه تشکیل شده است. بزرگترین مدل ویدیویی شرکت، یک مدل ۳۰ بیلیونی است که طول زمینه آن حداکثر ۷۳,۰۰۰ توکن ویدیویی است. مولد صدای ۱۳ بیلیونی این شرکت میتواند هم ویدیو را به صدا و هم متن را به صدا تولید کند.
مقایسه این فناوری با بزرگترین پلتفرمهای تولید ویدئو شرکتهای هوش مصنوعی دشوار است.
بهویژه که OpenAI ادعا میکند Sora از دادههایی به نام patches استفاده میکند که هر کدام شبیه به یک توکن در GPT هستند. متا یکی از معدود شرکتهای بزرگی است که همچنان دادههای خود را با ابزارهای جدید هوش مصنوعی منتشر میکند، رویکردی که با تجاری شدن بیش از حد هوش مصنوعی کاهش یافته است. با این حال، white paper متا اطلاعات چندانی درباره منبع دادههای آموزشی Movie Gen ارائه نمیدهد. به احتمال زیاد، بخشی از مجموعه دادهها از ویدیوهای کاربران فیسبوک تأمین شده است. همچنین متا از عکسهایی که با عینکهای هوشمند Meta Ray-Ban گرفته شده است برای آموزش مدلهای هوش مصنوعی خود استفاده میکند.
شما هنوز نمیتوانید از Movie Gen استفاده کنید.
در عوض، سایر پلتفرمهای تولید ویدئو هوش مصنوعی مانند Gen 3 از RunwayML تعداد محدودی توکن را برای ایجاد کلیپهای کوچک به صورت رایگان ارائه میدهند. گزارشی که اوایل امسال توسط 404 Media منتشر شد، نشان داد که Runway هوش مصنوعی خود را با استفاده از هزاران ویدیوی یوتیوب آموزش داده است، و مانند اکثر استارتاپهای هوش مصنوعی، قبل از گرفتن این محتوا اجازهای از کاربران نگرفته است.
متا اعلام کرده است که در زمان ساخت این مدل با فیلمسازان و تهیهکنندگان ویدیو همکاری نزدیکی داشته و همچنان به همکاری با آنها ادامه خواهد داد. گزارشهای اوایل امسال نشان میدهد که استودیوها به تدریج به شرکتهای هوش مصنوعی نزدیکتر میشوند. شرکت مستقل A24 اخیراً با شرکتهای سرمایهگذاری خطرپذیر که در هوش مصنوعی تخصص دارند، همکاری کرده است که برخی از آنها با OpenAI مرتبط هستند.
دیدگاه خود را بنویسید