گوگل به تازگی مدلهای جدیدی برای ساخت ویدیو با هوش مصنوعی معرفی کرده که اسمشون «Veo 3» و «Veo 3 Fast» هست. این ابزارها الان به صورت عمومی روی پلتفرم هوش مصنوعی گوگل به اسم «Vertex AI» در دسترس قرار گرفتن. با این مدلها، کاربرا میتونن با استفاده از دستورهای متنی، ویدیوهایی با کیفیت حرفهای بسازن.
همزمان با این اتفاق، یه نسخه بهینه شده از نظر سرعت و قیمت به اسم «Veo 3 Fast» هم معرفی شده. هدف از این نسخه اینه که توسعهدهندهها بتونن سریعتر کارهاشون رو پیش ببرن و تکرار کنن و در عین حال، خروجیهای باکیفیتی رو به شکل بهینه تولید کنن. علاوه بر این، قابلیت تبدیل عکس به ویدیو هم به هر دو مدل «Veo 3» و «Veo 3 Fast» اضافه شده. این یعنی میشه از یه عکس ثابت، کلیپهای ویدیویی ساخت که با اون عکس اولیه هماهنگی و ثبات داشته باشن. در حال حاضر، هر دو مدل به همراه قابلیت تبدیل عکس به ویدیو، از طریق «Gemini API» در یک نسخه پیشنمایش پولی در دسترس هستن.
معرفی دقیقتر مدلها: Veo 3 در برابر Veo 3 Fast
بذارین یه کم دقیقتر به این دو تا مدل نگاه کنیم.
Veo 3 برای ساخت ویدیوهای با کیفیت بالا طراحی شده. این مدل میتونه ویدیوهایی با رزولوشن 1080p تولید کنه که صدای طبیعی، هماهنگی لب و دهان (lip-sync) و جلوههای صوتی هم دارن. به طور کلی، این مدل برای کسب و کارها و شرکتهایی در نظر گرفته شده که میخوان تولید ویدیو رو به صورت بهینه و در مقیاس بزرگ انجام بدن. امکاناتی مثل تطبیق با زبانهای محلی برای کمپینهای جهانی و تولید تصاویر با کیفیت حرفهای برای بازاریابی و ارتباطات داخلی، از ویژگیهای این مدل هست.
در طرف دیگه، Veo 3 Fast قرار داره که یک نسخه سریعتر و بهصرفهتر از Veo 3 به حساب میاد. این مدل روی سرعت تمرکز داره و برای مواردی مثل تست سریع تبلیغات، ساخت دموهای محصول و ویدیوهای آموزشی خیلی مناسبه. Veo 3 Fast به توسعهدهندهها اجازه میده ویدیوهایی همراه با صدا بسازن، در حالی که کیفیت بالا حفظ میشه و برای سرعت و کاربردهای تجاری بهینهسازی شده. این مدل هم قابلیت تبدیل متن به ویدیو و هم تبدیل عکس به ویدیو رو پشتیبانی میکنه.
به گفته گوگل، Veo 3 Fast برای توسعهدهندههایی طراحی شده که نیاز دارن سریع کار کنن یا محتوا رو در مقیاس بزرگ تولید کنن، مثلا برای تبلیغات برنامهریزی شده یا تستهای سریع A/B. با وجود تمرکز روی سرعت، گوگل میگه که Veo 3 Fast همچنان کیفیت بالایی رو ارائه میده.
قابلیت جدید و جذاب: تبدیل عکس به ویدیو
یکی از بزرگترین بهروزرسانیها، اضافه شدن قابلیت تبدیل عکس به ویدیو (Image-to-Video) به هر دو مدل هست. با این ویژگی جدید، توسعهدهندهها میتونن از یه عکس ورودی، محتوای ویدیویی باکیفیت و همراه با صدا تولید کنن. این قابلیت اجازه میده سکانسهای ویدیویی پویایی ساخته بشه که میتونن ثبات و هماهنگی خودشون رو با عکس اولیه حفظ کنن.
روند کار به این شکله که شما یه عکس رو به همراه یه دستور متنی به مدل میدین. با این کار، میتونین مدل رو راهنمایی کنین تا حرکت، داستان و صدای مورد نظرتون رو توی ویدیو پیاده کنه. این ویژگی برای بازاریابها و تولیدکنندههای محتوایی که میخوان به سرعت به تصاویر ثابت جون ببخشن خیلی کاربردیه.
گوگل اعلام کرده که این ویژگی به کاربر کنترل و انعطافپذیری خلاقانه بیشتری میده. مثلا:
- میشه از یه عکس اولیه برای حفظ ثبات و هماهنگی در کل ویدیو استفاده کرد.
- میشه مدل رو برای ایجاد یه روایت یا داستان خاص راهنمایی کرد.
- میشه از طریق دستور متنی، روی حرکت و صدای ویدیو کنترل دقیقی داشت.
در مورد زمان عرضه این قابلیت، اطلاعات مختلفی وجود داره. یک منبع اعلام کرده که از ماه آگوست، کاربرا میتونن با آپلود یه عکس و یه دستور کوتاه، یه کلیپ ویدیویی ۸ ثانیهای بسازن و این ویژگی به صورت پیشنمایش عمومی عرضه میشه. منبع دیگهای میگه این قابلیت همین الان در یک نسخه پیشنمایش پولی از طریق Gemini API در دسترس قرار داره. یه مقام رسمی شرکت هم گفته: «کاربران Veo 3 و Veo 3 Fast با این قابلیت میتونن به تصاویر و جلوههای بصری ثابت جون ببخشن» و اضافه کرده که «فقط با ارائه یه دستور متنی که ویدیوی مورد نظر رو توصیف میکنه به همراه عکس اصلی، کاربرا به راحتی میتونن فیلمهای زنده و متحرک بسازن.»
نگاهی به مشخصات فنی و قیمتگذاری
برای اینکه تصویر کاملتری داشته باشیم، بهتره به جزئیات فنی و هزینهها هم نگاهی بندازیم.
مشخصات فنی:
- رزولوشن: یک منبع میگه Veo 3 ویدیوهای 1080p تولید میکنه، در حالی که منبع دیگهای اعلام کرده هر دو مدل Veo 3 و Veo 3 Fast ویدیوها رو با رزولوشن 720p میسازن.
- نرخ فریم: هر دو مدل ویدیوها رو با نرخ ۲۴ فریم بر ثانیه (۲۴ fps) تولید میکنن.
- مدت زمان ویدیو: به طور پیشفرض، هر دو مدل کلیپهای ۸ ثانیهای تولید میکنن و در هر درخواست، یک ویدیو ساخته میشه.
- ورودی متن: حداکثر طول دستور متنی برای هر دو مدل ۱۰۲۴ توکن هست.
- صدا: هر دو مدل به صورت بومی قابلیت تولید صدا دارن. یعنی مدل میتونه همزمان تصاویر، دیالوگ، موسیقی و جلوههای صوتی رو از یک دستور متنی واحد تولید کنه.
قیمتگذاری:
هزینه استفاده از این مدلها به شکل زیر اعلام شده:
- Veo 3: هزینه این مدل ۰.۷۵ دلار برای هر ثانیه ویدیو همراه با صداست.
- یک کلیپ ۸ ثانیهای با این مدل ۶ دلار هزینه داره.
- یک ویدیوی ۵ دقیقهای با این مدل ۲۲۵ دلار هزینه داره.
- این قیمت ۲۵ سنت بیشتر از مدل قبلی یعنی Veo 2 هست که البته قابلیت تولید صدا رو نداشت.
- Veo 3 Fast: هزینه این مدل ۰.۴۰ دلار برای هر ثانیه ویدیو همراه با صداست.
- یک کلیپ ۸ ثانیهای با این مدل ۳.۲۰ دلار هزینه داره.
- یک ویدیوی ۵ دقیقهای با این مدل ۱۲۰ دلار هزینه داره.
این یعنی تفاوت قیمت بین مدل استاندارد و مدل سریع، ۸۷.۵ درصد هست. هزینه ویدیوهای تولید شده از عکس هم دقیقا مشابه هزینه ویدیوهای تولید شده از متنه. البته گوگل به طور دقیق مشخص نکرده که خروجی این دو مدل از نظر کیفیت چقدر با هم تفاوت داره.
یه نکتهای که بهش اشاره شده اینه که چون معمولا برای رسیدن به نتیجه ایدهآل چندین بار باید تلاش کرد، هزینهها میتونن به سرعت بالا برن. برای مثال، اگه برای ساخت یه ویدیوی ۵ دقیقهای قابل استفاده، نیاز به تولید ده برابر این مقدار محتوا داشته باشین، هزینه نهایی میتونه به ۲۲۵۰ دلار هم برسه. با این حال، به نظر میرسه گوگل روی این حساب کرده که برای بعضی کاربردها، این هزینه همچنان از تولید ویدیوی سنتی ارزونتر تموم میشه.
این ابزارها در دنیای واقعی چطور استفاده میشن؟
از زمان رونمایی Veo 3 در ماه می، استفاده از اون توسط شرکتها رشد زیادی داشته و تا امروز بیشتر از ۷۰ میلیون ویدیو در سطح جهان باهاش ساخته شده. به طور خاص، بعد از اینکه نسخه پیشنمایش این مدل در ماه ژوئن روی Vertex AI منتشر شد، تعداد ویدیوهایی که شرکتها ساختن فقط در عرض یک ماه از مرز ۶ میلیون گذشت.
چندین کسب و کار جهانی هم Veo 3 رو توی روند کاری خودشون ادغام کردن. در ادامه چند تا نمونه رو میبینین:
- Canva: از این مدل استفاده میکنه تا به کاربراش اجازه بده مستقیما داخل پلتفرم Canva و با ابزارهای هوش مصنوعی ویدیو بسازن.
- BarkleyOKRP: یک آژانس خلاقیت که از Veo 3 برای بهتر کردن کیفیت هماهنگی ویدیو و بالا بردن سرعت تولید استفاده میکنه.
- eToro: با استفاده از این ابزار، ۱۵ نسخه از تبلیغ خودش رو به زبانهای محلی مختلف ساخته.
- Razorfish: این مدل رو با ابزارهای دیگه گوگل ترکیب کرده تا برای کمپین «Visit Orlando» محتوایی نزدیک به کیفیت سینمایی تولید کنه.
- Synthesia: تصاویر تولید شده با Veo رو با آواتارها و صداهای هوش مصنوعی خودش ترکیب میکنه تا داستانسرایی سفارشی ارائه بده.
- OpusClip: از قابلیت تبدیل عکس به ویدیو برای تولید ویدیوهای B-roll (تصاویر تکمیلی) و بهبود تجربه ویرایش ویدیوی مشتریانش استفاده میکنه. به گفته اونها، Veo 3 یه تصویر ثابت رو به عنوان فریم اول میگیره و با تولید حرکات سینمایی و روان، بهش جون میده. این به تولیدکنندههای محتوا کمک میکنه با کمترین تلاش به محتوای ویدیویی جذاب برسن.
- Cartwheel: از Veo 3 برای تبدیل ویدیوهای دو بعدی به انیمیشنهای شخصیت سه بعدی واقعگرایانه استفاده میکنه و حرکات تولید شده رو روی مدلهای ریگبندی شده برای پروژههای مشتریانش پیاده میکنه.
- Volley: یک استودیوی بازیسازی که از Veo 3 برای ساخت کاتسینها (میانپردهها) برای بازی نقشآفرینی خودش به اسم «Wit’s End» استفاده میکنه. این کار به توسعهدهندهها اجازه میده خیلی سریع ایدههای داستانی و بصری جدید رو آزمایش کنن.
این مثالها بیشتر کاربردهای تخصصی رو نشون میدن که ممکنه به این معنی باشه که گوگل هنوز همکاریهای بزرگتری برای نمایش نداره یا اینکه بعضی شرکتها پشت پرده از این مدل استفاده میکنن ولی هنوز آمادگی اعلام عمومی اون رو ندارن.
اطلاعاتی برای توسعهدهندهها
برای توسعهدهندههایی که میخوان از این ابزارها استفاده کنن، دسترسی از چند طریق ممکنه:
- Vertex AI: هر دو مدل Veo 3 و Veo 3 Fast الان روی «Vertex AI Media Studio» فعال هستن و کسب و کارها میتونن با استفاده از دستورهای متنی یا تصویری، تولید ویدیو با هوش مصنوعی رو در مقیاس بزرگ شروع کنن.
- Gemini API: دسترسی به Veo 3 از طریق Gemini API برای توسعهدهندههایی در نظر گرفته شده که میخوان قابلیتهای پیشرفته تولید ویدیو رو به اپلیکیشنهای خودشون اضافه کنن یا نمونههای اولیه آماده تولید بسازن. در حال حاضر، این دسترسی به صورت پولی هست و نیاز به یک پروژه فعال در «Google Cloud» با قابلیت پرداخت (billing) داره.
برای کمک به شروع کار، «Google AI Studio» یک الگوی SDK و یک اپلیکیشن استارتر برای نمونهسازی سریع ارائه میده. توسعهدهندهها میتونن از مستندات Gemini API برای تولید ویدیو یا از «Veo cookbook» برای ساخت اپلیکیشنهای خودشون استفاده کنن.
دو نمونه خلاقانه از دستورها
برای اینکه بهتر متوجه بشیم این مدلها چه کارهایی میتونن انجام بدن، دو تا مثال از دستورهایی که بهشون داده شده رو ببینیم:
- کفش روی بیلبورد: «کفش ورزشی روی بیلبورد ناگهان زنده میشه، بندهاش خودشون رو گره میزنن. از صفحه میپره بیرون، با یه صدای نرم روی پشتبوم پایینی فرود میاد و به سرعت از کادر خارج میشه.»
- صدا: صدای گره خوردن بندها، یه صدای دیجیتالی ووش، صدای نرم فرود اومدن.
- لوگوی کوهستان: «لوگوی کوهستان روی کیف پارچهای به آرامی متحرک میشه. خورشید در لوگو از پشت قله کوه طلوع میکنه و پرندههای کوچکی از اون پرواز میکنن.»
- صدا: یه صدای ووش ملایم و صدای جیک جیک نرم پرنده.
امنیت و مسائل قانونی
گوگل اعلام کرده که تمام ویدیوهایی که با Veo 3 و Veo 3 Fast ساخته میشن، دارای واترمارک SynthID هستن. این کار برای جلوگیری از استفاده نادرست و انتشار اطلاعات غلط انجام میشه. علاوه بر این، «Google Cloud» برای مشتریان سازمانی که از خدمات هوش مصنوعی مولدش استفاده میکنن، پوشش حمایتی قانونی (legal indemnity) ارائه میده.
منابع
- [۱] Veo 3 Fast and new image-to-video capabilities – Google Developers Blog
- [۲] Veo ۳ Fast | Generative AI on Vertex AI | Google Cloud
- [۳] Google Cloud brings Veo 3 and Veo 3 Fast on Vertex AI – The Times of India
- [۴] Google Cloud launches video AI ‘Veo 3’ for Vertex AI with rapid production options – CHOSUNBIZ
- [۵] Google adds image-to-video and Veo 3 Fast to the Gemini API
دیدگاهتان را بنویسید