گوگل به تازگی اعلام کرده که جدیدترین مدل هوش مصنوعی خود برای ساخت ویدیو، یعنی Veo 3، حالا در دسترس توسعهدهندگان قرار گرفته. این دسترسی از طریق رابط برنامهنویسی کاربردی (API) جمینای (Gemini) و همچنین پلتفرم ورتکس ایآی (Vertex AI) فراهم شده. این خبر که در تاریخ ۱۷ جولای ۲۰۲۵ توسط آلیسا فورتین، لوچیانو مارتینز و سث اودوم در وبلاگ توسعهدهندگان گوگل منتشر شد، به این معنی است که حالا افراد بیشتری میتوانند ابزارهای پیشرفته ساخت ویدیو را در برنامهها و پلتفرمهای خودشان به کار بگیرند.
مدل Veo 3 اولین بار در رویداد Google I/O 2025 رونمایی شد و از آن زمان تا امروز، میلیونها ویدیوی باکیفیت توسط کاربران با آن ساخته شده. این مدل، اولین مدل ویدیویی گوگل به حساب میآید که هم خروجی ویدیویی باکیفیت و هم صدای داخلی را با هم ترکیب میکند. در حال حاضر قابلیت تبدیل متن به ویدیو فعال است و به زودی قابلیت تبدیل تصویر به ویدیو هم به آن اضافه خواهد شد.
Veo 3 از امروز در دسترس شماست
از همین امروز، توسعهدهندگان میتوانند از طریق Gemini API و Vertex AI به نسخه پیشنمایش پولی Veo 3 دسترسی داشته باشند. این دسترسی از طریق «گوگل ایآی استودیو» (Google AI Studio) امکانپذیر است، جایی که ابزارهایی مثل یک قالب کیت توسعه نرمافزار (SDK) و یک اپلیکیشن استارتر تعاملی برای سادهسازی فرایند ادغام، در اختیار توسعهدهندگان قرار گرفته. البته برای استفاده از این API، داشتن یک اشتراک پولی یا یک کلید API معتبر ضروری است.
علاوه بر توسعهدهندگان، Veo 3 برای مشترکین «گوگل ایآی» (Google AI) در اپلیکیشن جمینای و پلتفرم «فلو» (Flow) و همچنین برای مشتریان سازمانی از طریق ورتکس ایآی در دسترس است.
هزینه استفاده چقدر است؟ (مبحث قیمتگذاری)
یکی از مهمترین بخشها برای توسعهدهندگان، هزینه استفاده از این فناوری است. گوگل قیمتگذاری Veo 3 را به این شکل اعلام کرده:
- هر ثانیه خروجی ویدیو و صدا، ۰.۷۵ دلار (حدودا ۷۰ هزار تومان) هزینه دارد.
با این حساب، ساخت یک کلیپ ۸ ثانیهای حدود ۶ دلار و یک ویدیوی یک دقیقهای نزدیک به ۴۵ دلار (حدودا ۵ میلیون تومان) هزینه خواهد داشت. این قیمت در مقایسه با مدل قبلی، یعنی Veo 2 که برای هر ثانیه ۰.۵۰ دلار هزینه داشت، افزایش پیدا کرده است.
خبر خوب برای کسانی که به دنبال گزینهای اقتصادیتر هستند این است که گوگل اعلام کرده به زودی نسخهای به نام Veo 3 Fast را عرضه خواهد کرد که هم سریعتر و هم ارزانتر خواهد بود، هرچند هنوز تاریخ دقیقی برای عرضه آن مشخص نشده است.
قابلیتهای اصلی Veo 3 چه چیزهایی هستند؟
Veo 3 برای انجام طیف گستردهای از وظایف ساخت ویدیو طراحی شده، از روایتهای سینمایی گرفته تا انیمیشنهای کاراکتر پویا. با این مدل نه تنها میتوانید تصاویر خیرهکننده بسازید، بلکه میتوانید صداهایی مثل دیالوگ و افکتهای صوتی را هم به آن اضافه کنید.
- صدای هماهنگ (Synchronized Sound): این مدل به صورت داخلی صداهای غنی مثل دیالوگ، افکتها و موسیقی را تولید میکند و همه را در یک مرحله با ویدیو هماهنگ میکند.
- کیفیت سینمایی (Cinematic Quality): Veo 3 ویدیوهایی با کیفیت بالا و خیرهکننده تولید میکند که جزئیات ظریف پرامپت (دستور متنی) شما را به خوبی به تصویر میکشد، از بافتهای پیچیده گرفته تا افکتهای نوری دقیق.
- فیزیک واقعگرایانه (Realistic Physics): این مدل فیزیک دنیای واقعی را برای ایجاد حرکات طبیعی شبیهسازی میکند، از حرکت طبیعی کاراکترها گرفته تا جریان واقعی آب و افتادن سایهها.
برای درک بهتر این قابلیتها، به این دو مثال از پرامپتهایی که به مدل داده شده توجه کنید:
مثال اول: یک داستان استاپموشن
پرامپت: «شخصیتهای پشمالو به سبک استاپموشن: داخل یک آشپزخانه دنج و رنگارنگ که از نمد و نخ ساخته شده. پروفسور نیبلز، یک همستر چاق و پشمالو با عینکی بزرگ، با عصبانیت در حال هم زدن یک قابلمه در حال جوش روی اجاقی مینیاتوری است و زیر لب میگوید: «فقط یکم دیگه… «عصاره خوشمزگی»، همونطور که تو دستور نوشته». دوربین در یک نمای متوسط، هم زدن دیوانهوار او را ضبط میکند. ناگهان، قابلمه صدای بلند «پاپ!» و به دنبال آن صدای خندهدار «ووش» میدهد و فوارهای از لجن سبز رنگینکمانی فوران میکند و کل آشپزخانه را میپوشاند. پروفسور نیبلز جیغ میکشد: «وای خدایا! دوباره نه!» و با به جا گذاشتن ردپایی از جیغهای کوچک و وحشتزده، فرار میکند.»
مثال دوم: یک صحنه سینمایی حماسی
پرامپت: «سکانس با یک نمای بسیار نزدیک از یک چرخدنده تنها شروع میشود که به آرامی میچرخد و نور تند خورشید را بازتاب میدهد. دوربین به تدریج در یک حرکت پیوسته به عقب کشیده میشود و نشان میدهد که این تنها یکی از اجزای یک قلب مکانیکی غولپیکر است که نیمی از آن در یک بیابان متروکه و به رنگ زنگزدگی دفن شده است. یک نمای هوایی گسترده، مقیاس عظیم و انزوای آن را در منظره بایر نشان میدهد. دوربین پایین میآید تا لولههایی که بخار بیرون میدهند و صدای ضربان ریتمیکی که در دشتهای خالی پژواک میکند را ضبط کند. یک افکت لرزش ظریف با هر ضربان قلب عظیم هماهنگ است. یک نمای حرکتی جانبی، چهرههای کوچک و رداپوشی را کشف میکند که روی سطح فلزی در حال تکاپو هستند. دوربین یکی از این چهرهها را در یک نمای تعقیبی دقیق دنبال میکند که در حال انجام تعمیرات دقیق، صیقل دادن دریچههای برنجی و سفت کردن پیچهای عظیم است. یک حرکت پیچیده دور کل ساختار میچرخد و تیمهای مختلف تعمیر و نگهداری را که در موقعیتهای خطرناک در سراسر نمای بیرونی زنگزده آن کار میکنند، به تصویر میکشد. نمای نهایی با تمرکز روی کار دقیق یک چهره کوچک شروع میشود و سپس با یک عقبنشینی دراماتیک، مقیاس واقعی قلب و اندازه بسیار کوچک نگهبانان آن را آشکار میکند که از ارگان حیاتی یک غول خفته و نادیدنی که فراتر از قاب است، مراقبت میکنند.»
شما میتوانید این مثالها و موارد دیگر را در «گالری Veo 3 در گوگل ایآی استودیو» بررسی کنید.
کاربردهای واقعی در دنیای توسعهدهندگان
توسعهدهندگان در حال حاضر مشغول آزمایش Veo 3 هستند و کشف کردهاند که این مدل چطور میتواند به آنها در ایدهپردازی برای محتوا، تکرار سریع ایدهها و افزایش بهرهوری کمک کند.
- شرکت Cartwheel سیستمی توسعه داده که میتواند ویدیوهای دو بعدی از انسانها را به انیمیشنهای سه بعدی کاملا آماده برای تولید روی کاراکترهای ریگبندی شده تبدیل کند. این شرکت از Veo 3 برای تولید حرکات انسانی واقعگرایانه و روان استفاده میکند تا بعدا آنها را برای مشتریانش به انیمیشن سه بعدی تبدیل کند.
- شرکت Volley از Veo 3 برای تولید کاتسینهای ویدیویی داخل بازی استفاده میکند که داستان را پیش میبرند. با Veo 3، طراحان Volley میتوانند به سرعت روی بازی کار کنند تا بهترین خروجی ممکن را برای یک بازی نقشآفرینی (RPG) آینده به نام Wit’s End ارائه دهند.
مشخصات فنی و محدودیتها (نگاهی عمیقتر)
برای کسانی که میخواهند به صورت فنی با این مدل کار کنند، درک مشخصات و محدودیتهای آن ضروری است. در ادامه جزئیات مدل veo-3.0-generate-preview
آمده است.
ویژگی | مشخصات |
---|---|
شناسه مدل | veo-3.0-generate-preview |
قابلیتها | تبدیل متن به ویدیو، تبدیل تصویر به ویدیو، بازنویسی پرامپت، تولید صدا (موسیقی و افکت) |
نسبت تصویر ویدیو | ۱۶:۹ |
رزولوشنهای پشتیبانی شده | 720p و 1080p |
فریمریت | ۲۴ فریم بر ثانیه |
زبان پرامپت | انگلیسی |
طول ویدیو | ۸ ثانیه |
محدودیت درخواست | حداکثر ۱۰ درخواست API در هر دقیقه برای هر پروژه |
تعداد ویدیو در هر درخواست | حداکثر ۲ ویدیو |
اندازه تصویر ورودی (برای تصویر به ویدیو) | حداکثر ۲۰ مگابایت |
تاخیر (Latency) | بین ۱۱ ثانیه تا ۶ دقیقه (در ساعات اوج مصرف) |
مقایسه مدلها: Veo 3 در برابر Veo 2
گوگل توصیه میکند که برای کیفیت بهتر و قابلیت تولید صدا از Veo 3 استفاده شود، اما Veo 2 هم به عنوان یک مدل «پایدار» (Stable) برای استفادههای تولیدی گزینه خوبی است. در جدول زیر تفاوتهای اصلی این دو مدل را میبینید:
ویژگی | Veo 3 (نسخه پیشنمایش) | Veo 2 (نسخه پایدار) |
---|---|---|
وضعیت در دسترس بودن | پیشنمایش (Preview) | پایدار (Stable) |
صدا | همیشه همراه با ویدیو تولید میشود | بدون صدا |
نوع تولید | فقط متن به ویدیو | متن به ویدیو و تصویر به ویدیو |
تعداد ویدیو در هر درخواست | ۱ | ۱ یا ۲ |
پارامتر aspectRatio | فقط ۱۶:۹ | ۱۶:۹ یا ۹:۱۶ |
پارامتر personGeneration | فقط allow_all (غیرقابل تنظیم) | allow_adult ، dont_allow یا allow_all |
پارامتر durationSeconds | غیرقابل تنظیم (فقط ۸ ثانیه) | بین ۵ تا ۸ ثانیه |
پارامتر enhancePrompt | غیرقابل تنظیم (همیشه روشن) | قابل فعال یا غیرفعال کردن |
راهنمای نوشتن پرامپت برای Veo
پرامپتهای خوب، توصیفی و واضح هستند. برای گرفتن بهترین نتیجه از Veo، با مشخص کردن ایده اصلی خود شروع کنید، سپس با اضافه کردن کلمات کلیدی و توصیفگرها آن را دقیقتر کنید و در نهایت از اصطلاحات تخصصی ویدیو در پرامپتهای خود استفاده کنید.
اصول اولیه نوشتن پرامپت:
- سوژه (Subject): شی، شخص، حیوان یا منظرهای که میخواهید در ویدیوی خود داشته باشید (مثل منظره شهری، طبیعت، وسایل نقلیه یا توله سگها).
- اکشن (Action): کاری که سوژه در حال انجام آن است (مثلا راه رفتن، دویدن یا چرخاندن سر).
- سبک (Style): با استفاده از کلمات کلیدی سبکهای فیلمسازی خاص، جهت خلاقانه را مشخص کنید (مثل علمی-تخیلی، فیلم ترسناک، فیلم نوآر یا سبکهای انیمیشنی مانند کارتون).
- موقعیت و حرکت دوربین (Camera positioning and motion): [اختیاری] مکان و حرکت دوربین را با استفاده از عباراتی مانند نمای هوایی، همسطح چشم، نمای از بالا، دالی شات یا نمای از پایین کنترل کنید.
- ترکیببندی (Composition): [اختیاری] نحوه قاببندی شات، مانند نمای باز، نمای نزدیک، تکشات یا دوشات.
- فوکوس و افکتهای لنز (Focus and lens effects): [اختیاری] از عباراتی مانند فوکوس کمعمق، فوکوس عمیق، فوکوس نرم، لنز ماکرو و لنز واید برای دستیابی به جلوههای بصری خاص استفاده کنید.
- اتمسفر (Ambiance): [اختیاری] نحوه تاثیر رنگ و نور بر صحنه، مانند تنالیته آبی، شب یا تنالیته گرم.
- نشانههای صوتی (Audio cues): [فقط در Veo 3] با Veo 3، میتوانید نشانههایی برای افکتهای صوتی، نویز محیط و دیالوگ ارائه دهید.
مثالهای کاربردی برای پرامپتنویسی:
در اینجا چند مثال آورده شده تا ببینید چطور جزئیات توصیفی میتوانند نتیجه هر ویدیو را بهبود ببخشند.
- مردی پای تلفن (افزایش جزئیات):
- پرامپت با جزئیات کمتر: «دوربین به سمت نمای نزدیک یک مرد ناامید با کت بارانی سبز حرکت میکند. او در حال برقراری تماس با یک تلفن دیواری چرخشی با نور نئون سبز است. شبیه یک صحنه فیلم است.»
- پرامپت با جزئیات بیشتر: «یک نمای نزدیک سینمایی، مردی ناامید با کت بارانی سبز فرسوده را دنبال میکند که در حال شمارهگیری با تلفن چرخشی نصب شده روی دیوار آجری کثیف است و در درخشش وهمآور یک تابلوی نئون سبز غرق شده. دوربین نزدیک میشود و تنش در فک او و ناامیدی حک شده بر چهرهاش را در حالی که برای برقراری تماس تلاش میکند، آشکار میسازد. عمق میدان کم روی پیشانی درهمرفته او و تلفن چرخشی سیاه متمرکز است و پسزمینه را در دریایی از رنگهای نئونی و سایههای نامشخص محو میکند و حس فوریت و انزوا را ایجاد میکند.»
- پرامپتهای منفی (Negative Prompts):
این پرامپتها به شما کمک میکنند تا عناصری را که نمیخواهید در ویدیو باشند، مشخص کنید. مثلا برای پرامپت «انیمیشنی کوتاه و سبکدار از یک درخت بلوط بزرگ و تنها که برگهایش به شدت در باد شدید میوزند» میتوانید یک پرامپت منفی اضافه کنید:این کار باعث میشود مدل از تولید این موارد در ویدیو خودداری کند.- پرامپت منفی: «پسزمینه شهری، سازههای ساخت بشر، فضای تاریک، طوفانی یا تهدیدآمیز.»
نحوه استفاده از API (برای حرفهایها)
برای استفاده از Veo، باید یک درخواست POST
به نقطه پایانی (endpoint) predictLongRunning
مدل ارسال کنید. این یک عملیات طولانیمدت است، به این معنی که شما یک درخواست ارسال میکنید، یک شناسه عملیات دریافت میکنید و سپس باید وضعیت آن عملیات را تا زمان تکمیل شدن بررسی (poll) کنید.
کد پایتون برای ساخت ویدیو:
در اینجا یک مثال ساده پایتون برای ساخت ویدیو با Veo 3 آمده است:
import time
from google import genai
from google.genai import types
client = genai.Client()
# ارسال درخواست برای ساخت ویدیو
operation = client.models.generate_videos(
model="veo-3.0-generate-preview",
prompt="یک نمای نزدیک از یک گلدن رتریور که در مزرعهای از گلهای آفتابگردان بازی میکند",
config=types.GenerateVideosConfig(
negative_prompt="پارس کردن، واق واق کردن",
),
)
# منتظر ماندن برای ساخته شدن ویدیو
while not operation.done:
time.sleep(20)
operation = client.operations.get(operation)
# دانلود و ذخیره ویدیو
generated_video = operation.result.generated_videos[0]
client.files.download(file=generated_video.video)
generated_video.video.save("veo3_video.mp4")
پارامترهای مهم API:
هنگام ارسال درخواست به API، میتوانید از پارامترهای مختلفی برای کنترل خروجی استفاده کنید:
پارامتر | توضیحات |
---|---|
prompt | متن راهنما برای تولید ویدیو (برای تبدیل متن به ویدیو الزامی است). |
image | تصویری که به عنوان راهنما برای تولید ویدیو استفاده میشود (برای تبدیل تصویر به ویدیو). |
negativePrompt | متنی که توصیف میکند چه چیزهایی را نمیخواهید در ویدیو ببینید. |
aspectRatio | نسبت تصویر ویدیو (مثلا ۱۶:۹ ). |
durationSeconds | طول ویدیوی خروجی به ثانیه (برای Veo 2 بین ۵ تا ۸). |
resolution | رزولوشن ویدیو (فقط برای مدلهای Veo 3، مقادیر 720p یا 1080p ). |
sampleCount | تعداد ویدیوهای خروجی درخواستی (بین ۱ تا ۴). |
seed | یک عدد برای قطعی کردن خروجی. با یک سید مشخص، خروجی همیشه یکسان خواهد بود. |
generateAudio | تولید صدا برای ویدیو (برای veo-3.0-generate-preview الزامی است). |
personGeneration | تنظیمات ایمنی برای کنترل تولید چهره انسان (allow_adult , dont_allow ). |
storageUri | یک آدرس در Google Cloud Storage برای ذخیره ویدیوهای خروجی. |
هوش مصنوعی مسئولانه و ایمنی
گوگل تاکید کرده که برای جلوگیری از سوءاستفاده، اقدامات ایمنی مختلفی را در نظر گرفته است.
- تمام ویدیوهایی که توسط مدلهای Veo 3 تولید میشوند، دارای یک واترمارک دیجیتال به نام SynthID هستند. این ابزار برای واترمارک کردن و شناسایی محتوای تولید شده توسط هوش مصنوعی طراحی شده و به جلوگیری از استفاده از آن در اطلاعات نادرست یا ساخت دیپفیک کمک میکند.
- ویدیوها از فیلترهای ایمنی و فرآیندهای بررسی حافظه عبور میکنند تا خطرات مربوط به حریم خصوصی، حق کپی و سوگیری کاهش یابد. پرامپتهایی که قوانین را نقض کنند، مسدود میشوند.
- پارامتر
personGeneration
نیز محدودیتهای جغرافیایی دارد. برای مثال، در مناطق اتحادیه اروپا، بریتانیا و خاورمیانه، تولید ویدیو از انسان با محدودیتهایی روبرو است.
منابع
- Build with Veo 3, now available in the Gemini API – Google Developers Blog
- Veo 3 Generate 001 Preview | Generative AI on Vertex AI | Google Cloud
- Veo on Vertex AI API | Generative AI on Vertex AI | Google Cloud
- Generate video using Veo | Gemini API | Google AI for Developers
- Google expands Veo 3 AI video model to Gemini API with higher pricing: Check details | Mint
دیدگاهتان را بنویسید