نسخه ارزان مدل ساخت ویدیو گوگل Veo 3 Fast در دسترس قرار گرفت

گوگل به تازگی مدل‌های جدیدی برای ساخت ویدیو با هوش مصنوعی معرفی کرده که اسمشون «Veo 3» و «Veo 3 Fast» هست. این ابزارها الان به صورت عمومی روی پلتفرم هوش مصنوعی گوگل به اسم «Vertex AI» در دسترس قرار گرفتن. با این مدل‌ها، کاربرا میتونن با استفاده از دستورهای متنی، ویدیوهایی با کیفیت حرفه‌ای بسازن.

همزمان با این اتفاق، یه نسخه بهینه شده از نظر سرعت و قیمت به اسم «Veo 3 Fast» هم معرفی شده. هدف از این نسخه اینه که توسعه‌دهنده‌ها بتونن سریع‌تر کارهاشون رو پیش ببرن و تکرار کنن و در عین حال، خروجی‌های باکیفیتی رو به شکل بهینه تولید کنن. علاوه بر این، قابلیت تبدیل عکس به ویدیو هم به هر دو مدل «Veo 3» و «Veo 3 Fast» اضافه شده. این یعنی میشه از یه عکس ثابت، کلیپ‌های ویدیویی ساخت که با اون عکس اولیه هماهنگی و ثبات داشته باشن. در حال حاضر، هر دو مدل به همراه قابلیت تبدیل عکس به ویدیو، از طریق «Gemini API» در یک نسخه پیش‌نمایش پولی در دسترس هستن.

معرفی دقیق‌تر مدل‌ها: Veo 3 در برابر Veo 3 Fast

بذارین یه کم دقیق‌تر به این دو تا مدل نگاه کنیم.

Veo 3 برای ساخت ویدیوهای با کیفیت بالا طراحی شده. این مدل میتونه ویدیوهایی با رزولوشن 1080p تولید کنه که صدای طبیعی، هماهنگی لب و دهان (lip-sync) و جلوه‌های صوتی هم دارن. به طور کلی، این مدل برای کسب و کارها و شرکت‌هایی در نظر گرفته شده که میخوان تولید ویدیو رو به صورت بهینه و در مقیاس بزرگ انجام بدن. امکاناتی مثل تطبیق با زبان‌های محلی برای کمپین‌های جهانی و تولید تصاویر با کیفیت حرفه‌ای برای بازاریابی و ارتباطات داخلی، از ویژگی‌های این مدل هست.

در طرف دیگه، Veo 3 Fast قرار داره که یک نسخه سریع‌تر و به‌صرفه‌تر از Veo 3 به حساب میاد. این مدل روی سرعت تمرکز داره و برای مواردی مثل تست سریع تبلیغات، ساخت دموهای محصول و ویدیوهای آموزشی خیلی مناسبه. Veo 3 Fast به توسعه‌دهنده‌ها اجازه میده ویدیوهایی همراه با صدا بسازن، در حالی که کیفیت بالا حفظ میشه و برای سرعت و کاربردهای تجاری بهینه‌سازی شده. این مدل هم قابلیت تبدیل متن به ویدیو و هم تبدیل عکس به ویدیو رو پشتیبانی میکنه.

به گفته گوگل، Veo 3 Fast برای توسعه‌دهنده‌هایی طراحی شده که نیاز دارن سریع کار کنن یا محتوا رو در مقیاس بزرگ تولید کنن، مثلا برای تبلیغات برنامه‌ریزی شده یا تست‌های سریع A/B. با وجود تمرکز روی سرعت، گوگل میگه که Veo 3 Fast همچنان کیفیت بالایی رو ارائه میده.

قابلیت جدید و جذاب: تبدیل عکس به ویدیو

یکی از بزرگ‌ترین به‌روزرسانی‌ها، اضافه شدن قابلیت تبدیل عکس به ویدیو (Image-to-Video) به هر دو مدل هست. با این ویژگی جدید، توسعه‌دهنده‌ها میتونن از یه عکس ورودی، محتوای ویدیویی باکیفیت و همراه با صدا تولید کنن. این قابلیت اجازه میده سکانس‌های ویدیویی پویایی ساخته بشه که میتونن ثبات و هماهنگی خودشون رو با عکس اولیه حفظ کنن.

روند کار به این شکله که شما یه عکس رو به همراه یه دستور متنی به مدل میدین. با این کار، میتونین مدل رو راهنمایی کنین تا حرکت، داستان و صدای مورد نظرتون رو توی ویدیو پیاده کنه. این ویژگی برای بازاریاب‌ها و تولیدکننده‌های محتوایی که میخوان به سرعت به تصاویر ثابت جون ببخشن خیلی کاربردیه.

گوگل اعلام کرده که این ویژگی به کاربر کنترل و انعطاف‌پذیری خلاقانه بیشتری میده. مثلا:

میشه از یه عکس اولیه برای حفظ ثبات و هماهنگی در کل ویدیو استفاده کرد.
میشه مدل رو برای ایجاد یه روایت یا داستان خاص راهنمایی کرد.
میشه از طریق دستور متنی، روی حرکت و صدای ویدیو کنترل دقیقی داشت.

در مورد زمان عرضه این قابلیت، اطلاعات مختلفی وجود داره. یک منبع اعلام کرده که از ماه آگوست، کاربرا میتونن با آپلود یه عکس و یه دستور کوتاه، یه کلیپ ویدیویی ۸ ثانیه‌ای بسازن و این ویژگی به صورت پیش‌نمایش عمومی عرضه میشه. منبع دیگه‌ای میگه این قابلیت همین الان در یک نسخه پیش‌نمایش پولی از طریق Gemini API در دسترس قرار داره. یه مقام رسمی شرکت هم گفته: «کاربران Veo 3 و Veo 3 Fast با این قابلیت میتونن به تصاویر و جلوه‌های بصری ثابت جون ببخشن» و اضافه کرده که «فقط با ارائه یه دستور متنی که ویدیوی مورد نظر رو توصیف میکنه به همراه عکس اصلی، کاربرا به راحتی میتونن فیلم‌های زنده و متحرک بسازن.»

نگاهی به مشخصات فنی و قیمت‌گذاری

برای اینکه تصویر کامل‌تری داشته باشیم، بهتره به جزئیات فنی و هزینه‌ها هم نگاهی بندازیم.

مشخصات فنی:

رزولوشن: یک منبع میگه Veo 3 ویدیوهای 1080p تولید میکنه، در حالی که منبع دیگه‌ای اعلام کرده هر دو مدل Veo 3 و Veo 3 Fast ویدیوها رو با رزولوشن 720p میسازن.
نرخ فریم: هر دو مدل ویدیوها رو با نرخ ۲۴ فریم بر ثانیه (۲۴ fps) تولید میکنن.
مدت زمان ویدیو: به طور پیش‌فرض، هر دو مدل کلیپ‌های ۸ ثانیه‌ای تولید میکنن و در هر درخواست، یک ویدیو ساخته میشه.
ورودی متن: حداکثر طول دستور متنی برای هر دو مدل ۱۰۲۴ توکن هست.
صدا: هر دو مدل به صورت بومی قابلیت تولید صدا دارن. یعنی مدل میتونه همزمان تصاویر، دیالوگ، موسیقی و جلوه‌های صوتی رو از یک دستور متنی واحد تولید کنه.

قیمت‌گذاری:
هزینه استفاده از این مدل‌ها به شکل زیر اعلام شده:

Veo 3: هزینه این مدل ۰.۷۵ دلار برای هر ثانیه ویدیو همراه با صداست.
- یک کلیپ ۸ ثانیه‌ای با این مدل ۶ دلار هزینه داره.
- یک ویدیوی ۵ دقیقه‌ای با این مدل ۲۲۵ دلار هزینه داره.
- این قیمت ۲۵ سنت بیشتر از مدل قبلی یعنی Veo 2 هست که البته قابلیت تولید صدا رو نداشت.
Veo 3 Fast: هزینه این مدل ۰.۴۰ دلار برای هر ثانیه ویدیو همراه با صداست.
- یک کلیپ ۸ ثانیه‌ای با این مدل ۳.۲۰ دلار هزینه داره.
- یک ویدیوی ۵ دقیقه‌ای با این مدل ۱۲۰ دلار هزینه داره.

این یعنی تفاوت قیمت بین مدل استاندارد و مدل سریع، ۸۷.۵ درصد هست. هزینه ویدیوهای تولید شده از عکس هم دقیقا مشابه هزینه ویدیوهای تولید شده از متنه. البته گوگل به طور دقیق مشخص نکرده که خروجی این دو مدل از نظر کیفیت چقدر با هم تفاوت داره.

یه نکته‌ای که بهش اشاره شده اینه که چون معمولا برای رسیدن به نتیجه ایده‌آل چندین بار باید تلاش کرد، هزینه‌ها میتونن به سرعت بالا برن. برای مثال، اگه برای ساخت یه ویدیوی ۵ دقیقه‌ای قابل استفاده، نیاز به تولید ده برابر این مقدار محتوا داشته باشین، هزینه نهایی میتونه به ۲۲۵۰ دلار هم برسه. با این حال، به نظر میرسه گوگل روی این حساب کرده که برای بعضی کاربردها، این هزینه همچنان از تولید ویدیوی سنتی ارزون‌تر تموم میشه.

این ابزارها در دنیای واقعی چطور استفاده میشن؟

از زمان رونمایی Veo 3 در ماه می، استفاده از اون توسط شرکت‌ها رشد زیادی داشته و تا امروز بیشتر از ۷۰ میلیون ویدیو در سطح جهان باهاش ساخته شده. به طور خاص، بعد از اینکه نسخه پیش‌نمایش این مدل در ماه ژوئن روی Vertex AI منتشر شد، تعداد ویدیوهایی که شرکت‌ها ساختن فقط در عرض یک ماه از مرز ۶ میلیون گذشت.

چندین کسب و کار جهانی هم Veo 3 رو توی روند کاری خودشون ادغام کردن. در ادامه چند تا نمونه رو میبینین:

Canva: از این مدل استفاده میکنه تا به کاربراش اجازه بده مستقیما داخل پلتفرم Canva و با ابزارهای هوش مصنوعی ویدیو بسازن.
BarkleyOKRP: یک آژانس خلاقیت که از Veo 3 برای بهتر کردن کیفیت هماهنگی ویدیو و بالا بردن سرعت تولید استفاده میکنه.
eToro: با استفاده از این ابزار، ۱۵ نسخه از تبلیغ خودش رو به زبان‌های محلی مختلف ساخته.
Razorfish: این مدل رو با ابزارهای دیگه گوگل ترکیب کرده تا برای کمپین «Visit Orlando» محتوایی نزدیک به کیفیت سینمایی تولید کنه.
Synthesia: تصاویر تولید شده با Veo رو با آواتارها و صداهای هوش مصنوعی خودش ترکیب میکنه تا داستان‌سرایی سفارشی ارائه بده.
OpusClip: از قابلیت تبدیل عکس به ویدیو برای تولید ویدیوهای B-roll (تصاویر تکمیلی) و بهبود تجربه ویرایش ویدیوی مشتریانش استفاده میکنه. به گفته اونها، Veo 3 یه تصویر ثابت رو به عنوان فریم اول میگیره و با تولید حرکات سینمایی و روان، بهش جون میده. این به تولیدکننده‌های محتوا کمک میکنه با کمترین تلاش به محتوای ویدیویی جذاب برسن.
Cartwheel: از Veo 3 برای تبدیل ویدیوهای دو بعدی به انیمیشن‌های شخصیت سه بعدی واقع‌گرایانه استفاده میکنه و حرکات تولید شده رو روی مدل‌های ریگ‌بندی شده برای پروژه‌های مشتریانش پیاده میکنه.
Volley: یک استودیوی بازی‌سازی که از Veo 3 برای ساخت کات‌سین‌ها (میان‌پرده‌ها) برای بازی نقش‌آفرینی خودش به اسم «Wit’s End» استفاده میکنه. این کار به توسعه‌دهنده‌ها اجازه میده خیلی سریع ایده‌های داستانی و بصری جدید رو آزمایش کنن.

این مثال‌ها بیشتر کاربردهای تخصصی رو نشون میدن که ممکنه به این معنی باشه که گوگل هنوز همکاری‌های بزرگتری برای نمایش نداره یا اینکه بعضی شرکت‌ها پشت پرده از این مدل استفاده میکنن ولی هنوز آمادگی اعلام عمومی اون رو ندارن.

اطلاعاتی برای توسعه‌دهنده‌ها

برای توسعه‌دهنده‌هایی که میخوان از این ابزارها استفاده کنن، دسترسی از چند طریق ممکنه:

Vertex AI: هر دو مدل Veo 3 و Veo 3 Fast الان روی «Vertex AI Media Studio» فعال هستن و کسب و کارها میتونن با استفاده از دستورهای متنی یا تصویری، تولید ویدیو با هوش مصنوعی رو در مقیاس بزرگ شروع کنن.
Gemini API: دسترسی به Veo 3 از طریق Gemini API برای توسعه‌دهنده‌هایی در نظر گرفته شده که میخوان قابلیت‌های پیشرفته تولید ویدیو رو به اپلیکیشن‌های خودشون اضافه کنن یا نمونه‌های اولیه آماده تولید بسازن. در حال حاضر، این دسترسی به صورت پولی هست و نیاز به یک پروژه فعال در «Google Cloud» با قابلیت پرداخت (billing) داره.

برای کمک به شروع کار، «Google AI Studio» یک الگوی SDK و یک اپلیکیشن استارتر برای نمونه‌سازی سریع ارائه میده. توسعه‌دهنده‌ها میتونن از مستندات Gemini API برای تولید ویدیو یا از «Veo cookbook» برای ساخت اپلیکیشن‌های خودشون استفاده کنن.

دو نمونه خلاقانه از دستورها

برای اینکه بهتر متوجه بشیم این مدل‌ها چه کارهایی میتونن انجام بدن، دو تا مثال از دستورهایی که بهشون داده شده رو ببینیم:

کفش روی بیلبورد: «کفش ورزشی روی بیلبورد ناگهان زنده میشه، بندهاش خودشون رو گره میزنن. از صفحه میپره بیرون، با یه صدای نرم روی پشت‌بوم پایینی فرود میاد و به سرعت از کادر خارج میشه.»
- صدا: صدای گره خوردن بندها، یه صدای دیجیتالی ووش، صدای نرم فرود اومدن.
لوگوی کوهستان: «لوگوی کوهستان روی کیف پارچه‌ای به آرامی متحرک میشه. خورشید در لوگو از پشت قله کوه طلوع میکنه و پرنده‌های کوچکی از اون پرواز میکنن.»
- صدا: یه صدای ووش ملایم و صدای جیک جیک نرم پرنده.

امنیت و مسائل قانونی

گوگل اعلام کرده که تمام ویدیوهایی که با Veo 3 و Veo 3 Fast ساخته میشن، دارای واترمارک SynthID هستن. این کار برای جلوگیری از استفاده نادرست و انتشار اطلاعات غلط انجام میشه. علاوه بر این، «Google Cloud» برای مشتریان سازمانی که از خدمات هوش مصنوعی مولدش استفاده میکنن، پوشش حمایتی قانونی (legal indemnity) ارائه میده.

منابع

[۱] Veo 3 Fast and new image-to-video capabilities – Google Developers Blog
[۲] Veo ۳ Fast | Generative AI on Vertex AI | Google Cloud
[۳] Google Cloud brings Veo 3 and Veo 3 Fast on Vertex AI – The Times of India
[۴] Google Cloud launches video AI ‘Veo 3’ for Vertex AI with rapid production options – CHOSUNBIZ
[۵] Google adds image-to-video and Veo 3 Fast to the Gemini API