گوگل بهتازگی از Gemini Omni Flash، جدیدترین مدل هوش مصنوعی چندوجهی (Multimodal) خود رونمایی کرده است؛ مدلی که با تمرکز بر تولید ویدیو از طریق زبان طبیعی و ویرایش مکالمهای ویدیوها، قصد دارد فرآیند ساخت محتوای ویدیویی را برای کاربران و توسعهدهندگان متحول کند. این مدل که در رویداد Google I/O 2026 معرفی شد، اکنون از طریق Google AI Studio و Gemini API در دسترس قرار گرفته است.
تولید و ویرایش ویدیو با چند جمله ساده
مهمترین ویژگی Gemini Omni Flash، امکان ساخت و ویرایش ویدیو تنها با استفاده از دستورات متنی یا صوتی است. برخلاف نرمافزارهای سنتی ویرایش ویدیو که نیازمند تایملاینهای پیچیده، افکتهای متعدد و دانش فنی هستند، این مدل به کاربران اجازه میدهد تنها با بیان خواستههای خود، ویدیو را ایجاد یا ویرایش کنند.
به گفته گوگل، کاربران میتوانند بهصورت مکالمهای از هوش مصنوعی بخواهند پسزمینه را تغییر دهد، شخصیت جدیدی به صحنه اضافه کرده، اشیای اضافی را حذف کند، سبک بصری ویدیو را عوض نماید یا حتی سکانسهای کاملاً جدیدی تولید کند.
هوش مصنوعی چندوجهی برای درک بهتر محتوا
Gemini Omni Flash بر پایه معماری چندوجهی گوگل توسعه یافته است؛ یعنی بهطور همزمان میتواند متن، تصویر، صدا و ویدیو را تحلیل و پردازش کند. برخلاف نسلهای قبلی که دادههای تصویری یا صوتی را ابتدا به متن تبدیل میکردند، این مدل رسانههای مختلف را بهصورت مستقیم درک میکند و همین موضوع باعث افزایش دقت، حفظ انسجام صحنهها و کیفیت بالاتر خروجی میشود.
حفظ یکپارچگی شخصیتها و صحنهها
یکی از چالشهای بزرگ مدلهای تولید ویدیو، حفظ هماهنگی بین فریمهای مختلف است. گوگل اعلام کرده Gemini Omni Flash میتواند مواردی مانند:
- ثبات چهره و شخصیتها
- تداوم حرکت دوربین
- هماهنگی نور و محیط
- حفظ سبک گرافیکی
- انتقال طبیعی بین صحنهها
را در طول فرآیند تولید یا ویرایش حفظ کند؛ قابلیتی که برای ساخت ویدیوهای حرفهای اهمیت زیادی دارد.
ادغام با سرویسهای گوگل
گوگل اعلام کرده است که فناوری Gemini Omni Flash تنها به API محدود نخواهد بود و بهتدریج در سرویسهای مختلف این شرکت نیز مورد استفاده قرار میگیرد. از جمله این سرویسها میتوان به موارد زیر اشاره کرد:
- اپلیکیشن Gemini
- Google Flow
- YouTube Shorts
این یکپارچگی میتواند فرآیند تولید محتوای ویدیویی را برای تولیدکنندگان محتوا، کسبوکارها و کاربران عادی بسیار سادهتر کند.
توسعه برای برنامهنویسان
علاوهبر کاربران عادی، گوگل این مدل را برای توسعهدهندگان نیز عرضه کرده است. برنامهنویسان میتوانند از طریق Gemini API و Google AI Studio قابلیتهای تولید و ویرایش ویدیو را به اپلیکیشنها و سرویسهای خود اضافه کنند.
هدف گوگل از ارائه نسخه Flash، ارائه مدلی با کیفیت بالا، سرعت مناسب و هزینه پردازشی کمتر نسبت به مدلهای سنگینتر است تا توسعهدهندگان بتوانند پروژههای تجاری خود را با هزینه پایینتری پیادهسازی کنند.
رقابت جدی در بازار تولید ویدیو با هوش مصنوعی
عرضه Gemini Omni Flash نشان میدهد گوگل رقابت با ابزارهای مطرح تولید ویدیو مبتنی بر هوش مصنوعی را وارد مرحله جدیدی کرده است. تمرکز این مدل بر ویرایش مکالمهای، پردازش همزمان چند نوع داده و تولید سریع ویدیوهای باکیفیت میتواند آن را به یکی از مهمترین ابزارهای تولید محتوای هوش مصنوعی در سال ۲۰۲۶ تبدیل کند.
کارشناسان معتقدند این فناوری علاوه بر تولیدکنندگان محتوا، برای حوزههای آموزش، تبلیغات، بازاریابی دیجیتال و ساخت محتوای شبکههای اجتماعی نیز کاربرد گستردهای خواهد داشت.
منبع: af.net