دسترسی به API مدل Veo 3 گوگل ممکن شد، هر ۸ ثانیه ۶ دلار

گوگل به تازگی اعلام کرده که جدیدترین مدل هوش مصنوعی خود برای ساخت ویدیو، یعنی Veo 3، حالا در دسترس توسعه‌دهندگان قرار گرفته. این دسترسی از طریق رابط برنامه‌نویسی کاربردی (API) جمینای (Gemini) و همچنین پلتفرم ورتکس ای‌آی (Vertex AI) فراهم شده. این خبر که در تاریخ ۱۷ جولای ۲۰۲۵ توسط آلیسا فورتین، لوچیانو مارتینز و سث اودوم در وبلاگ توسعه‌دهندگان گوگل منتشر شد، به این معنی است که حالا افراد بیشتری می‌توانند ابزارهای پیشرفته ساخت ویدیو را در برنامه‌ها و پلتفرم‌های خودشان به کار بگیرند.

مدل Veo 3 اولین بار در رویداد Google I/O 2025 رونمایی شد و از آن زمان تا امروز، میلیون‌ها ویدیوی باکیفیت توسط کاربران با آن ساخته شده. این مدل، اولین مدل ویدیویی گوگل به حساب می‌آید که هم خروجی ویدیویی باکیفیت و هم صدای داخلی را با هم ترکیب می‌کند. در حال حاضر قابلیت تبدیل متن به ویدیو فعال است و به زودی قابلیت تبدیل تصویر به ویدیو هم به آن اضافه خواهد شد.

Veo 3 از امروز در دسترس شماست

از همین امروز، توسعه‌دهندگان می‌توانند از طریق Gemini API و Vertex AI به نسخه پیش‌نمایش پولی Veo 3 دسترسی داشته باشند. این دسترسی از طریق «گوگل ای‌آی استودیو» (Google AI Studio) امکان‌پذیر است، جایی که ابزارهایی مثل یک قالب کیت توسعه نرم‌افزار (SDK) و یک اپلیکیشن استارتر تعاملی برای ساده‌سازی فرایند ادغام، در اختیار توسعه‌دهندگان قرار گرفته. البته برای استفاده از این API، داشتن یک اشتراک پولی یا یک کلید API معتبر ضروری است.

علاوه بر توسعه‌دهندگان، Veo 3 برای مشترکین «گوگل ای‌آی» (Google AI) در اپلیکیشن جمینای و پلتفرم «فلو» (Flow) و همچنین برای مشتریان سازمانی از طریق ورتکس ای‌آی در دسترس است.

هزینه استفاده چقدر است؟ (مبحث قیمت‌گذاری)

یکی از مهم‌ترین بخش‌ها برای توسعه‌دهندگان، هزینه استفاده از این فناوری است. گوگل قیمت‌گذاری Veo 3 را به این شکل اعلام کرده:

هر ثانیه خروجی ویدیو و صدا، ۰.۷۵ دلار (حدودا ۷۰ هزار تومان) هزینه دارد.

با این حساب، ساخت یک کلیپ ۸ ثانیه‌ای حدود ۶ دلار و یک ویدیوی یک دقیقه‌ای نزدیک به ۴۵ دلار (حدودا ۵ میلیون تومان) هزینه خواهد داشت. این قیمت در مقایسه با مدل قبلی، یعنی Veo 2 که برای هر ثانیه ۰.۵۰ دلار هزینه داشت، افزایش پیدا کرده است.

خبر خوب برای کسانی که به دنبال گزینه‌ای اقتصادی‌تر هستند این است که گوگل اعلام کرده به زودی نسخه‌ای به نام Veo 3 Fast را عرضه خواهد کرد که هم سریع‌تر و هم ارزان‌تر خواهد بود، هرچند هنوز تاریخ دقیقی برای عرضه آن مشخص نشده است.

قابلیت‌های اصلی Veo 3 چه چیزهایی هستند؟

Veo 3 برای انجام طیف گسترده‌ای از وظایف ساخت ویدیو طراحی شده، از روایت‌های سینمایی گرفته تا انیمیشن‌های کاراکتر پویا. با این مدل نه تنها می‌توانید تصاویر خیره‌کننده بسازید، بلکه می‌توانید صداهایی مثل دیالوگ و افکت‌های صوتی را هم به آن اضافه کنید.

صدای هماهنگ (Synchronized Sound): این مدل به صورت داخلی صداهای غنی مثل دیالوگ، افکت‌ها و موسیقی را تولید می‌کند و همه را در یک مرحله با ویدیو هماهنگ می‌کند.
کیفیت سینمایی (Cinematic Quality): Veo 3 ویدیوهایی با کیفیت بالا و خیره‌کننده تولید می‌کند که جزئیات ظریف پرامپت (دستور متنی) شما را به خوبی به تصویر می‌کشد، از بافت‌های پیچیده گرفته تا افکت‌های نوری دقیق.
فیزیک واقع‌گرایانه (Realistic Physics): این مدل فیزیک دنیای واقعی را برای ایجاد حرکات طبیعی شبیه‌سازی می‌کند، از حرکت طبیعی کاراکترها گرفته تا جریان واقعی آب و افتادن سایه‌ها.

برای درک بهتر این قابلیت‌ها، به این دو مثال از پرامپت‌هایی که به مدل داده شده توجه کنید:

مثال اول: یک داستان استاپ‌موشن

پرامپت: «شخصیت‌های پشمالو به سبک استاپ‌موشن: داخل یک آشپزخانه دنج و رنگارنگ که از نمد و نخ ساخته شده. پروفسور نیبلز، یک همستر چاق و پشمالو با عینکی بزرگ، با عصبانیت در حال هم زدن یک قابلمه در حال جوش روی اجاقی مینیاتوری است و زیر لب می‌گوید: «فقط یکم دیگه… «عصاره خوشمزگی»، همونطور که تو دستور نوشته». دوربین در یک نمای متوسط، هم زدن دیوانه‌وار او را ضبط می‌کند. ناگهان، قابلمه صدای بلند «پاپ!» و به دنبال آن صدای خنده‌دار «ووش» می‌دهد و فواره‌ای از لجن سبز رنگین‌کمانی فوران می‌کند و کل آشپزخانه را می‌پوشاند. پروفسور نیبلز جیغ می‌کشد: «وای خدایا! دوباره نه!» و با به جا گذاشتن ردپایی از جیغ‌های کوچک و وحشت‌زده، فرار می‌کند.»

مثال دوم: یک صحنه سینمایی حماسی

پرامپت: «سکانس با یک نمای بسیار نزدیک از یک چرخ‌دنده تنها شروع می‌شود که به آرامی می‌چرخد و نور تند خورشید را بازتاب می‌دهد. دوربین به تدریج در یک حرکت پیوسته به عقب کشیده می‌شود و نشان می‌دهد که این تنها یکی از اجزای یک قلب مکانیکی غول‌پیکر است که نیمی از آن در یک بیابان متروکه و به رنگ زنگ‌زدگی دفن شده است. یک نمای هوایی گسترده، مقیاس عظیم و انزوای آن را در منظره بایر نشان می‌دهد. دوربین پایین می‌آید تا لوله‌هایی که بخار بیرون می‌دهند و صدای ضربان ریتمیکی که در دشت‌های خالی پژواک می‌کند را ضبط کند. یک افکت لرزش ظریف با هر ضربان قلب عظیم هماهنگ است. یک نمای حرکتی جانبی، چهره‌های کوچک و رداپوشی را کشف می‌کند که روی سطح فلزی در حال تکاپو هستند. دوربین یکی از این چهره‌ها را در یک نمای تعقیبی دقیق دنبال می‌کند که در حال انجام تعمیرات دقیق، صیقل دادن دریچه‌های برنجی و سفت کردن پیچ‌های عظیم است. یک حرکت پیچیده دور کل ساختار می‌چرخد و تیم‌های مختلف تعمیر و نگهداری را که در موقعیت‌های خطرناک در سراسر نمای بیرونی زنگ‌زده آن کار می‌کنند، به تصویر می‌کشد. نمای نهایی با تمرکز روی کار دقیق یک چهره کوچک شروع می‌شود و سپس با یک عقب‌نشینی دراماتیک، مقیاس واقعی قلب و اندازه بسیار کوچک نگهبانان آن را آشکار می‌کند که از ارگان حیاتی یک غول خفته و نادیدنی که فراتر از قاب است، مراقبت می‌کنند.»

شما می‌توانید این مثال‌ها و موارد دیگر را در «گالری Veo 3 در گوگل ای‌آی استودیو» بررسی کنید.

کاربردهای واقعی در دنیای توسعه‌دهندگان

توسعه‌دهندگان در حال حاضر مشغول آزمایش Veo 3 هستند و کشف کرده‌اند که این مدل چطور می‌تواند به آنها در ایده‌پردازی برای محتوا، تکرار سریع ایده‌ها و افزایش بهره‌وری کمک کند.

شرکت Cartwheel سیستمی توسعه داده که می‌تواند ویدیوهای دو بعدی از انسان‌ها را به انیمیشن‌های سه بعدی کاملا آماده برای تولید روی کاراکترهای ریگ‌بندی شده تبدیل کند. این شرکت از Veo 3 برای تولید حرکات انسانی واقع‌گرایانه و روان استفاده می‌کند تا بعدا آنها را برای مشتریانش به انیمیشن سه بعدی تبدیل کند.
شرکت Volley از Veo 3 برای تولید کات‌سین‌های ویدیویی داخل بازی استفاده می‌کند که داستان را پیش می‌برند. با Veo 3، طراحان Volley می‌توانند به سرعت روی بازی کار کنند تا بهترین خروجی ممکن را برای یک بازی نقش‌آفرینی (RPG) آینده به نام Wit’s End ارائه دهند.

مشخصات فنی و محدودیت‌ها (نگاهی عمیق‌تر)

برای کسانی که می‌خواهند به صورت فنی با این مدل کار کنند، درک مشخصات و محدودیت‌های آن ضروری است. در ادامه جزئیات مدل veo-3.0-generate-preview آمده است.

ویژگی	مشخصات
شناسه مدل	`veo-3.0-generate-preview`
قابلیت‌ها	تبدیل متن به ویدیو، تبدیل تصویر به ویدیو، بازنویسی پرامپت، تولید صدا (موسیقی و افکت)
نسبت تصویر ویدیو	۱۶:۹
رزولوشن‌های پشتیبانی شده	720p و 1080p
فریم‌ریت	۲۴ فریم بر ثانیه
زبان پرامپت	انگلیسی
طول ویدیو	۸ ثانیه
محدودیت درخواست	حداکثر ۱۰ درخواست API در هر دقیقه برای هر پروژه
تعداد ویدیو در هر درخواست	حداکثر ۲ ویدیو
اندازه تصویر ورودی (برای تصویر به ویدیو)	حداکثر ۲۰ مگابایت
تاخیر (Latency)	بین ۱۱ ثانیه تا ۶ دقیقه (در ساعات اوج مصرف)

مقایسه مدل‌ها: Veo 3 در برابر Veo 2

گوگل توصیه می‌کند که برای کیفیت بهتر و قابلیت تولید صدا از Veo 3 استفاده شود، اما Veo 2 هم به عنوان یک مدل «پایدار» (Stable) برای استفاده‌های تولیدی گزینه خوبی است. در جدول زیر تفاوت‌های اصلی این دو مدل را می‌بینید:

ویژگی	Veo 3 (نسخه پیش‌نمایش)	Veo 2 (نسخه پایدار)
وضعیت در دسترس بودن	پیش‌نمایش (Preview)	پایدار (Stable)
صدا	همیشه همراه با ویدیو تولید می‌شود	بدون صدا
نوع تولید	فقط متن به ویدیو	متن به ویدیو و تصویر به ویدیو
تعداد ویدیو در هر درخواست	۱	۱ یا ۲
پارامتر `aspectRatio`	فقط `۱۶:۹`	`۱۶:۹` یا `۹:۱۶`
پارامتر `personGeneration`	فقط `allow_all` (غیرقابل تنظیم)	`allow_adult`، `dont_allow` یا `allow_all`
پارامتر `durationSeconds`	غیرقابل تنظیم (فقط ۸ ثانیه)	بین ۵ تا ۸ ثانیه
پارامتر `enhancePrompt`	غیرقابل تنظیم (همیشه روشن)	قابل فعال یا غیرفعال کردن

راهنمای نوشتن پرامپت برای Veo

پرامپت‌های خوب، توصیفی و واضح هستند. برای گرفتن بهترین نتیجه از Veo، با مشخص کردن ایده اصلی خود شروع کنید، سپس با اضافه کردن کلمات کلیدی و توصیف‌گرها آن را دقیق‌تر کنید و در نهایت از اصطلاحات تخصصی ویدیو در پرامپت‌های خود استفاده کنید.

اصول اولیه نوشتن پرامپت:

سوژه (Subject): شی، شخص، حیوان یا منظره‌ای که می‌خواهید در ویدیوی خود داشته باشید (مثل منظره شهری، طبیعت، وسایل نقلیه یا توله سگ‌ها).
اکشن (Action): کاری که سوژه در حال انجام آن است (مثلا راه رفتن، دویدن یا چرخاندن سر).
سبک (Style): با استفاده از کلمات کلیدی سبک‌های فیلم‌سازی خاص، جهت خلاقانه را مشخص کنید (مثل علمی-تخیلی، فیلم ترسناک، فیلم نوآر یا سبک‌های انیمیشنی مانند کارتون).
موقعیت و حرکت دوربین (Camera positioning and motion): [اختیاری] مکان و حرکت دوربین را با استفاده از عباراتی مانند نمای هوایی، هم‌سطح چشم، نمای از بالا، دالی شات یا نمای از پایین کنترل کنید.
ترکیب‌بندی (Composition): [اختیاری] نحوه قاب‌بندی شات، مانند نمای باز، نمای نزدیک، تک‌شات یا دوشات.
فوکوس و افکت‌های لنز (Focus and lens effects): [اختیاری] از عباراتی مانند فوکوس کم‌عمق، فوکوس عمیق، فوکوس نرم، لنز ماکرو و لنز واید برای دستیابی به جلوه‌های بصری خاص استفاده کنید.
اتمسفر (Ambiance): [اختیاری] نحوه تاثیر رنگ و نور بر صحنه، مانند تنالیته آبی، شب یا تنالیته گرم.
نشانه‌های صوتی (Audio cues): [فقط در Veo 3] با Veo 3، می‌توانید نشانه‌هایی برای افکت‌های صوتی، نویز محیط و دیالوگ ارائه دهید.

مثال‌های کاربردی برای پرامپت‌نویسی:

در اینجا چند مثال آورده شده تا ببینید چطور جزئیات توصیفی می‌توانند نتیجه هر ویدیو را بهبود ببخشند.

مردی پای تلفن (افزایش جزئیات):
- پرامپت با جزئیات کمتر: «دوربین به سمت نمای نزدیک یک مرد ناامید با کت بارانی سبز حرکت می‌کند. او در حال برقراری تماس با یک تلفن دیواری چرخشی با نور نئون سبز است. شبیه یک صحنه فیلم است.»
- پرامپت با جزئیات بیشتر: «یک نمای نزدیک سینمایی، مردی ناامید با کت بارانی سبز فرسوده را دنبال می‌کند که در حال شماره‌گیری با تلفن چرخشی نصب شده روی دیوار آجری کثیف است و در درخشش وهم‌آور یک تابلوی نئون سبز غرق شده. دوربین نزدیک می‌شود و تنش در فک او و ناامیدی حک شده بر چهره‌اش را در حالی که برای برقراری تماس تلاش می‌کند، آشکار می‌سازد. عمق میدان کم روی پیشانی درهم‌رفته او و تلفن چرخشی سیاه متمرکز است و پس‌زمینه را در دریایی از رنگ‌های نئونی و سایه‌های نامشخص محو می‌کند و حس فوریت و انزوا را ایجاد می‌کند.»
پرامپت‌های منفی (Negative Prompts):
این پرامپت‌ها به شما کمک می‌کنند تا عناصری را که نمی‌خواهید در ویدیو باشند، مشخص کنید. مثلا برای پرامپت «انیمیشنی کوتاه و سبک‌دار از یک درخت بلوط بزرگ و تنها که برگ‌هایش به شدت در باد شدید می‌وزند» می‌توانید یک پرامپت منفی اضافه کنید:این کار باعث می‌شود مدل از تولید این موارد در ویدیو خودداری کند.
- پرامپت منفی: «پس‌زمینه شهری، سازه‌های ساخت بشر، فضای تاریک، طوفانی یا تهدیدآمیز.»

نحوه استفاده از API (برای حرفه‌ای‌ها)

برای استفاده از Veo، باید یک درخواست POST به نقطه پایانی (endpoint) predictLongRunning مدل ارسال کنید. این یک عملیات طولانی‌مدت است، به این معنی که شما یک درخواست ارسال می‌کنید، یک شناسه عملیات دریافت می‌کنید و سپس باید وضعیت آن عملیات را تا زمان تکمیل شدن بررسی (poll) کنید.

کد پایتون برای ساخت ویدیو:

در اینجا یک مثال ساده پایتون برای ساخت ویدیو با Veo 3 آمده است:

import time
from google import genai
from google.genai import types

client = genai.Client()

# ارسال درخواست برای ساخت ویدیو
operation = client.models.generate_videos(
    model="veo-3.0-generate-preview",
    prompt="یک نمای نزدیک از یک گلدن رتریور که در مزرعه‌ای از گل‌های آفتابگردان بازی می‌کند",
    config=types.GenerateVideosConfig(
        negative_prompt="پارس کردن، واق واق کردن",
    ),
)

# منتظر ماندن برای ساخته شدن ویدیو
while not operation.done:
    time.sleep(20)
    operation = client.operations.get(operation)

# دانلود و ذخیره ویدیو
generated_video = operation.result.generated_videos[0]
client.files.download(file=generated_video.video)
generated_video.video.save("veo3_video.mp4")

پارامترهای مهم API:

هنگام ارسال درخواست به API، می‌توانید از پارامترهای مختلفی برای کنترل خروجی استفاده کنید:

پارامتر	توضیحات
`prompt`	متن راهنما برای تولید ویدیو (برای تبدیل متن به ویدیو الزامی است).
`image`	تصویری که به عنوان راهنما برای تولید ویدیو استفاده می‌شود (برای تبدیل تصویر به ویدیو).
`negativePrompt`	متنی که توصیف می‌کند چه چیزهایی را نمی‌خواهید در ویدیو ببینید.
`aspectRatio`	نسبت تصویر ویدیو (مثلا `۱۶:۹`).
`durationSeconds`	طول ویدیوی خروجی به ثانیه (برای Veo 2 بین ۵ تا ۸).
`resolution`	رزولوشن ویدیو (فقط برای مدل‌های Veo 3، مقادیر `720p` یا `1080p`).
`sampleCount`	تعداد ویدیوهای خروجی درخواستی (بین ۱ تا ۴).
`seed`	یک عدد برای قطعی کردن خروجی. با یک سید مشخص، خروجی همیشه یکسان خواهد بود.
`generateAudio`	تولید صدا برای ویدیو (برای `veo-3.0-generate-preview` الزامی است).
`personGeneration`	تنظیمات ایمنی برای کنترل تولید چهره انسان (`allow_adult`, `dont_allow`).
`storageUri`	یک آدرس در Google Cloud Storage برای ذخیره ویدیوهای خروجی.

هوش مصنوعی مسئولانه و ایمنی

گوگل تاکید کرده که برای جلوگیری از سوءاستفاده، اقدامات ایمنی مختلفی را در نظر گرفته است.

تمام ویدیوهایی که توسط مدل‌های Veo 3 تولید می‌شوند، دارای یک واترمارک دیجیتال به نام SynthID هستند. این ابزار برای واترمارک کردن و شناسایی محتوای تولید شده توسط هوش مصنوعی طراحی شده و به جلوگیری از استفاده از آن در اطلاعات نادرست یا ساخت دیپ‌فیک کمک می‌کند.
ویدیوها از فیلترهای ایمنی و فرآیندهای بررسی حافظه عبور می‌کنند تا خطرات مربوط به حریم خصوصی، حق کپی و سوگیری کاهش یابد. پرامپت‌هایی که قوانین را نقض کنند، مسدود می‌شوند.
پارامتر personGeneration نیز محدودیت‌های جغرافیایی دارد. برای مثال، در مناطق اتحادیه اروپا، بریتانیا و خاورمیانه، تولید ویدیو از انسان با محدودیت‌هایی روبرو است.