همه‌چیز درباره آپدیت جدید گوگل Veo 3.1 مدل ساخت ویدیو

اگه دقت کرده باشی، یک الگوی خاصی توی عرضه مدل‌های هوش مصنوعی برای ساخت ویدیو وجود داره: یکی بعد از دیگری میان و با بهبودهای تدریجی، مدل رقیب رو به چالش میکشن. با عرضه Sora 2 از شرکت OpenAI، انتظار میرفت که یک مدل رقیب هم معرفی بشه. اینجاست که گوگل Veo 3.1 وارد میدون میشه؛ یک آپدیت برای گوگل Veo 3 که نباید با مدل مورد انتظار گوگل Veo 4 که قراره اواخر امسال بیاد اشتباه گرفته بشه.

گوگل Veo 3 قبل از آپدیت چی بود؟

قبل از این آپدیت، گوگل Veo 3 یک پلتفرم فوق‌العاده برای ساخت ویدیو با هوش مصنوعی بود که به کاربرها اجازه میداد ویدیوهایی با کیفیت بالا و شبیه‌سازی فیزیک دنیای واقعی بسازن. این مدل برای تولیدکننده‌های محتوا، فیلم‌سازها و بازاریاب‌ها عالی بود. مشخصات مهم گوگل Veo 3 اینا بودن:

تولید صدای داخلی: گوگل Veo 3 این قابلیت رو داشت که بر اساس توضیحات متنی، برای صحنه‌های ویدیویی، صداهای محیطی، افکت‌های صوتی، دیالوگ یا موسیقی تولید کنه.
شبیه‌سازی فیزیک: این مدل میتونست حرکت، دینامیک حرکتی، مکانیک بدن و چیزهای دیگه رو با باورپذیری محیطی، کیفیت بالا و واقع‌گرایی، شبیه دنیای واقعی بازسازی کنه.
هماهنگی لب و ثبات: گوگل Veo 3 مطمئن میشد که دیالوگ‌ها، حالات چهره و احساسات با حرکت لب و زبان بدن کاملا هماهنگ باشن.

با اینکه گوگل Veo 3 پیشرفت‌های بزرگی توی ساخت ویدیو با هوش مصنوعی ایجاد کرد، اما انعطاف لازم برای تولید شات‌های متعدد و سرعت بالایی که اکثر تولیدکننده‌ها دنبالش هستن رو نداشت. با اومدن گوگل Veo 3.1، بیشتر این کمبودها قراره برطرف بشه.

تازه‌ها چیه؟ ویژگی‌ها و بهبودهای گوگل Veo 3.1

Veo 3.1 روی مدل پایه‌ای Veo 3 ساخته شده و قابلیت‌هاش تقویت و بهش اضافه شده. این آپدیت اینجوری Veo 3.1 رو به یک ابزار قوی‌تر برای ساخت ویدیو با هوش مصنوعی تبدیل میکنه:

۱. ثبات بهتر شخصیت‌ها

یکی از ویژگی‌های کلیدی گوگل Veo 3 کیفیت بصری بالا بود. اما مشکلاتی توی ثبات شخصیت و صحنه وجود داشت. تغییرات غیرعادی و ناجور در پس‌زمینه و چهره‌ها اغلب روی کیفیت کلی ویدیو تاثیر میذاشت و نیاز به تکرار و اصلاح داشت. وبسایت Imagine Art میگه: «با گوگل Veo 3.1، لازم نیست دوباره نگاه کنی تا از ثبات شخصیت و صحنه مطمئن بشی. این مدل تعامل شخصیت و صحنه رو به خوبی ثبت میکنه». ولودیمیر چرنر، فیلم‌ساز هوش مصنوعی، هم به این موضوع اشاره میکنه و میگه: «یکی از ویژگی‌های کلیدی که اسم ۱. توی اسم مدل رو توجیه میکنه، ثبات شخصیته. حالا دیگه قهرمان ویدیوی شما از یک صحنه به صحنه دیگه رنگ چشم یا تعداد انگشتاش تغییر نمیکنه. حداقل قولش رو دادن».

۲. افزایش رزولوشن

برخلاف گوگل Veo 3، با آپدیت Veo 3.1 میشه ویدیوهایی با رزولوشن 1080p و بدون محدودیت ۸ ثانیه‌ای ساخت. گوگل Veo 3.1 به شما اجازه میده ویدیوهایی با رزولوشن بالا تا ۳۰ ثانیه بسازید. همچنین انتظار میره که بشه ویدیوهای یک دقیقه‌ای با رزولوشن 1080p هم باهاش تولید کرد. این ویژگی گوگل Veo 3.1 رو برای فیلم‌سازهایی که به کلیپ‌های کوتاه یا فوتیج‌های B-roll احتیاج دارن، تبلیغات تلویزیونی، تبلیغ محصولات، محتوای شبکه‌های اجتماعی و موارد دیگه ایده‌ال میکنه.

۳. اضافه شدن پریست‌های سینمایی

گوگل Veo 3.1 با پریست‌های سینمایی عرضه میشه که به شما اجازه میده کنترل کاملی روی روایت و داستان‌پردازی بصری داشته باشید. این پریست‌ها به شما کمک میکنن تا فرایند ساخت ویدیو رو ساده‌تر کنید و افکت‌های پیچیده رو بدون نیاز به پرامپت‌نویسی یا تکرار، به ویدیوتون اضافه کنید. شما میتونید حرکات دوربین رو با پریست‌هایی مثل شات‌های پهپادی، حرکت آهسته یا سریع دوربین (پن)، زوم به داخل یا خارج، شات‌های تعقیبی و غیره کارگردانی کنید. همچنین میشه با پریست‌ها، نورپردازی، حس و حال و تُن رنگی ویدیو رو تغییر بدید و فضای مناسبی برای محتواتون ایجاد کنید.

۴. تولید ویدیو با چند شات

گوگل Veo 3.1 با استفاده از پرامپت‌های متنی و تصاویر مرجع، ویدیوهای طولانی‌تری با صحنه‌ها و شات‌های متعدد تولید میکنه و ثبات روایت و شخصیت رو حفظ میکنه. این مدل از ترنزیشن‌ها، کات‌ها و شات‌ها و زوایای مختلف برای نرم‌تر کردن جابجایی بین صحنه‌ها یا مکان‌ها در ویدیو پشتیبانی میکنه. مدل پایه‌ای Veo 3 هم تضمین میکنه که ظاهر یا استایل شخصیت از یک شات به شات دیگه و از فریمی به فریم دیگه تغییر نکنه.

۵. میکس بهتر افکت‌های صوتی (SFX)

مثل گوگل Veo 3، مدل Veo 3.1 هم تولید صدای داخلی و هماهنگی دقیق لب‌ها رو تضمین میکنه. این مدل مطمئن میشه که هر افکت صوتی بر اساس پرامپت لایه‌بندی و هماهنگ بشه. با درک متنی بهتر، Veo 3.1 نشانه‌های صوتی رو به توصیف‌های حرکتی توی پرامپت شما وصل میکنه و برای اتفاقاتی که روی صفحه میفته، افکت صوتی تولید میکنه. این کار انسجام و ثبات بصری رو در کل ویدیو تضمین میکنه.

کاربردهای احتمالی گوگل Veo 3.1

با آپدیت گوگل Veo 3.1، تولیدکننده‌های محتوا، اینفلوئنسرها، بازاریاب‌ها و متخصصان کسب‌وکار میتونن محتوای ویدیویی هوش مصنوعیشون رو بهتر کنن. چندتا از کاربردهای احتمالی این مدل ایناست:

تولید محتوا برای شبکه‌های اجتماعی: با قابلیت ساخت ویدیوهای طولانی‌تر، یوتیوبرها، اینفلوئنسرهای اینستاگرام و تولیدکننده‌های محتوای تیک‌تاک میتونن ویدیوهای باکیفیت برای تبلیغ محصول، آموزش، چالش‌های وایرال، دمو و چیزای دیگه بسازن، بدون اینکه نیاز به ابزارهای جانبی برای طولانی‌تر کردن ویدیوهاشون داشته باشن.
کمپین‌های بازاریابی و تبلیغات: با گوگل Veo 3.1، بازاریاب‌ها و متخصصان برندینگ میتونن با استفاده از پریست‌ها و استایل‌های ویدیویی مختلف، چندین نسخه متفاوت از ویدیوهای محصولشون رو بسازن. این کار باعث بهبود تولید محتوا و نرخ تعامل بالاتر میشه.
ویدیوهای آموزشی و توضیحی: گوگل Veo 3.1 به مدرسان آنلاین، معلم‌ها و مربی‌ها اجازه میده ویدیوهای درسی، آموزشی، سخنرانی‌ها و ویدیوهای مفهومی خودشون رو بهتر کنن. با هماهنگی صوتی بهتر، تولیدکننده‌ها میتونن نشانه‌های صوتی رو با تصاویر پویا ترکیب کنن تا مفاهیم سخت رو توضیح بدن و همزمان مخاطب رو درگیر نگه دارن.
ارائه‌های شرکتی و تجاری: متخصصان کسب‌وکار میتونن ویدیوهای آموزشی، ارائه‌های فروش، ویدیوهای مفهومی محصول، ویدیوهای توضیحی و محتوای مربوط به آشناسازی کارمندان جدید رو بسازن. گوگل Veo 3.1 با ریتم پویا و صدای واضح، به بهبود ارائه‌های شرکتی و ارتباطات داخلی کمک میکنه.

مقایسه گوگل Veo 3.1 و Sora 2

Sora 2 با واقع‌گراییش توی تولید ویدیو با هوش مصنوعی، استانداردها رو بالا برد. اما انتظار میره گوگل Veo 3.1 از اون بهتر عمل کنه.

شباهت‌ها:

هم Sora 2 و هم گوگل Veo 3.1 قابلیت تولید صدای داخلی دارن و صدا و نشانه‌های صوتی رو با پس‌زمینه، حرکت، احساسات و دینامیک حرکتی تعریف شده هماهنگ میکنن.
هر دو ابزار با قابلیت تولید چند شات و ثبات، کنترل‌پذیری بهتری رو ارائه میدن و تداوم و واقع‌گرایی رو تضمین میکنن.
شبیه‌سازی فیزیک دنیای واقعی یکی از ویژگی‌های پایه‌ای گوگل Veo 3 بود که حالا به یک ویژگی کلیدی در Sora 2 هم تبدیل شده.

تمرکز اصلی:

Sora 2 تمرکز زیادی روی واقع‌گرایی داره و میتونه ویدیوهای کوتاه‌تر بسازه. این مدل کیفیت بصری رو با فوتورئالیسم و حس هنری تضمین میکنه. یک ویژگی به اسم «cameo» هم داره که اجازه میده هر انسان، حیوان یا شی‌ای رو توی محتوای ویدیویی ادغام کنید. با وجود این ویژگی، کنترل‌ها و اقدامات ایمنی برای موفقیت این ابزار خیلی مهمه.
گوگل Veo 3.1 روی تولید ویدیوهای طولانی‌تر با ثبات بهبودیافته و حداقل خطاهای بصری یا صوتی تمرکز داره. رزولوشن بالای 1080p برای ویدیوهای کوتاه و بلند، امکان تولید ویدیو با هوش مصنوعی در مقیاس سازمانی رو فراهم میکنه و کاربردش رو بیشتر میکنه.

دسترسی:

شما میتونید به Sora 2 توی اپلیکیشن Sora به صورت دعوت‌نامه‌ای و با استفاده محدود دسترسی داشته باشید، یا با اشتراک پلن Pro توی ChatGPT ازش استفاده کنید. این مدل توی ImagineArt هم موجوده که Sora 2 به اندازه ۲۴۰ کردیت و Sora Pro به اندازه ۷۲۰ کردیت مصرف میکنه.
شما میتونید به گوگل Veo 3.1 در Gemini API و Vertex AI API دسترسی پیدا کنید. این مدل به زودی روی ImagineArt هم در دسترس قرار میگیره. همچنین میشه از طریق سرویس‌های جانبی مثل Higgsfield و Envato بهش دسترسی داشت و برای دریافتش در Higgsfield میشه توی لیست انتظار ثبت‌نام کرد.

منابع

[۲] Google Veo 3.1 Overview | ImagineArt

[۱] Veo 3.1 is coming soon, and Google’s clearly aiming it right at Sora 2 with longer video support | TechRadar