امروز قراره با یک مدل جدید به اسم Command A Vision آشنا بشیم. این مدل یک مدل هوش مصنوعی مولد و پیشرفته است که برای شرکتها و کسب و کارها ساخته شده تا هم در کارهای مرتبط با تصویر (چندوجهی) و هم در کارهای متنی عملکرد خوبی داشته باشه.
امروز قراره با یک مدل جدید به اسم Command A Vision آشنا بشیم. این مدل یک مدل هوش مصنوعی مولد و پیشرفته است که برای شرکتها و کسب و کارها ساخته شده تا هم در کارهای مرتبط با تصویر (چندوجهی) و هم در کارهای متنی عملکرد خوبی داشته باشه.
ایده اصلی اینه که این مدل مثل چشمهای یک عامل هوشمند در محیط یک شرکت عمل کنه. با این قابلیت، میشه کارهای خستهکنندهای که با دادههای تصویری مثل اسلایدها، دیاگرامها، فایلهای PDF و عکسها سر و کار دارن رو خودکار کرد. فرقی نمیکنه که این کار تحلیل دفترچه راهنمای یک محصول باشه یا بررسی صحنههای واقعی برای تشخیص خطر؛ این مدل برای چالشهای تصویری سخت در محیطهای کاری طراحی شده.
بر اساس اطلاعات منتشر شده، عملکرد این مدل در بنچمارکهای کلیدی چندوجهی، از مدلهای همرده خودش مثل GPT 4.1، Llama 4 Maverick، Mistral Medium 3 و Pixtral Large بهتر بوده. Command A Vision با اولویت دادن به نیازهای شرکتها، گزینههای استقرار امن، بهینه و انعطافپذیری رو ارائه میده. یکی از ویژگیهاش اینه که به سختافزار سنگینی نیاز نداره و همین موضوع باعث میشه بشه اون رو به راحتی روی سرورهای داخلی شرکت (on-premise) یا روی یک زیرساخت ابری خصوصی با دو پردازنده گرافیکی (GPU) یا کمتر مستقر کرد.
این مدل به عنوان جدیدترین مدل پرچمدار شرکت Cohere معرفی شده که یک مدل «چگال» (dense) با ۱۱۲ میلیارد پارامتر هست و بر پایه مدل Command A ساخته شده. وزنهای این مدل هم به صورت عمومی منتشر شده که برای مدلی با این اندازه و کیفیت، اتفاق متداولی نیست. هدف اینه که کسب و کارها بتونن با استفاده از قابلیتهایی مثل تشخیص کاراکتر نوری (OCR) و تحلیل تصویر، کارهای تکراری رو خودکار کنن، از دادههای تصویری به اطلاعات ارزشمندی برسن و تصمیمهای دقیقتری بگیرن.
فصل دوم: این مدل دقیقا چه تواناییهایی داره؟
حالا بیایم دقیقتر ببینیم که Command A Vision چه کارهایی رو میتونه انجام بده. قابلیتهای اصلی این مدل به چند دسته تقسیم میشن.
۱. تحلیل نمودار، گراف و دیاگرام
این مدل در فهمیدن و تحلیل کردن انواع دادههای تصویری و چندزبانه، مثل چارتها، گرافها، جدولها و دیاگرامها توانایی خوبی داره. میتونه دادهها رو از فرمتهای تصویری مختلف با دقت استخراج کنه و دانش تخصصی حوزههای مختلف مثل مالی، بهداشت و درمان، تولید، ساخت و ساز و انرژی رو برای تحلیل به کار ببره. در نهایت هم بر اساس اطلاعاتی که استخراج کرده، تحلیلهای پیچیدهای رو انجام میده.
۲. پردازش اسناد و OCR
یکی از نقاط قوت Command A Vision، پردازش اسناد و تشخیص کاراکتر نوری یا همون OCR هست. این مدل میتونه متن و اطلاعات رو از انواع اسناد مثل مدارک اسکن شده، فاکتورها و فرمها با دقت استخراج کنه. اما کارش فقط به تشخیص متن ساده محدود نمیشه؛ بلکه ساختار و چیدمان سند رو هم درک میکنه تا بتونه دادههای معناداری رو بیرون بکشه.
این قابلیت در کنار پشتیبانی از خروجی داده ساختاریافته در حالت JSON، به Command A Vision اجازه میده تا کارهای تکراری پردازش اسناد رو خودکار کنه، دقت دادهها رو بالا ببره، گردش کارها رو بهینهتر کنه و با سیستمهای موجود در یک شرکت یکپارچه بشه. به همین دلیل، ابزار مفیدی برای شرکتهایی محسوب میشه که با حجم زیادی از اسناد سر و کار دارن. این مدل در بنچمارکهای DocVQA، TextVQA و OCRBench به عملکرد سطح بالایی رسیده.
۳. درک صحنههای واقعی
تواناییهای Command A Vision به درک صحنههای دنیای واقعی هم میرسه و میتونه محیطهای تصویری پیچیده رو تحلیل و تفسیر کنه. این قابلیت فراتر از تشخیص ساده اشیاست؛ چون مدل میتونه روابط فضایی بین اشیا، زمینه و حتی جزئیات ظریف در تصاویر و عکسها رو بفهمه. این ویژگی اون رو برای کاربردهای دنیای واقعی مثل تشخیص خطر در محیطهای صنعتی یا تحلیل داده در خردهفروشیها مناسب میکنه.
به طور خلاصه، کارهایی که این مدل میتونه انجام بده شامل موارد زیره:
- استخراج عبارات از فاکتورهای اسکن شده و تار
- شناسایی خطرات از روی تصاویر سایتهای صنعتی
- تجزیه و تحلیل نقشههای ساختمانی که داخل فایلهای PDF هستن
- خواندن دیاگرامها از دفترچههای راهنمای چندزبانه محصولات
- فهمیدن چارتها و جدولها
این مدل فقط OCR یا تشخیص اشیا نیست، بلکه چیدمان، زمینه و اصطلاحات تخصصی یک صنعت رو هم درک میکنه.
فصل سوم: عملکرد در بنچمارکها؛ اعداد و ارقام چه میگن؟
برای اینکه ببینیم یک مدل چقدر خوب کار میکنه، اون رو با معیارهایی به اسم «بنچمارک» میسنجن. Command A Vision هم در بنچمارکهای استاندارد تصویری با مدلهای دیگهای مقایسه شده. برای این مقایسه، مجموعهای متنوع از ۹ بنچمارک انتخاب شده تا هم کاربردهای رایج در شرکتها و هم ارزیابیهای عمومی و آکادمیک رو پوشش بدن.
نتایج نشون میده که این مدل به خصوص در تحلیل چارتها، اسناد و OCR قدرت بالایی داره. همچنین در ارزیابیهای ریاضیاتی یا استدلالی مثل MathVista هم امتیاز ۷۳.۵ درصد رو کسب کرده. به طور کلی، گفته شده که این مدل از مدلهای پیشرو «غیر متفکر» (non-thinking) در زمینه زبان-تصویر عملکرد بهتری داره.
در جدول زیر میتونی عملکرد این مدل رو در مقایسه با مدلهای دیگه ببینی.
مدل | ChartQA | InfoVQA | AI2D | MMMU (CoT) | MathVista | DocVQA | TextVQA | OCRBench | RealWorldQA | میانگین |
---|---|---|---|---|---|---|---|---|---|---|
Command A Vision | ۹۰.۹% | ۸۲.۹% | ۹۴.۰% | ۶۵.۳% | ۷۳.۵% | ۹۵.۹% | ۸۴.۸% | ۸۶.۹% | ۷۳.۶% | ۸۳.۱% |
GPT-4.1 (2025-04-14) | ۸۲.۷% | ۷۰.۰% | ۸۶.۵% | ۷۴.۸% | ۷۲.۲% | ۸۸.۶% | ۷۱.۱% | ۸۳.۴% | ۷۸.۰% | ۷۸.۶% |
Pixtral Large | ۸۸.۱% | ۵۹.۹% | ۹۳.۸% | ۶۴.۰% | ۶۹.۴% | ۹۳.۳% | ۷۹.۳% | ۷۴.۱% | ۶۹.۳% | ۷۶.۸% |
Mistral Medium 3 | ۸۲.۶% | ۷۱.۵% | ۹۳.۷% | ۶۵.۰% | ۷۰.۵% | ۹۵.۳% | ۸۳.۵% | ۷۵.۷% | ۶۷.۲% | ۷۸.۳% |
Llama 3.2V 90B | ۸۵.۸% | ۵۶.۸% | ۹۲.۳% | ۶۰.۶% | ۵۷.۳% | ۹۰.۱% | ۸۳.۴% | ۷۸.۳% | ۶۹.۸% | ۷۴.۹% |
Llama 4 Maverick | ۹۰.۰% | ۷۷.۱% | ۸۴.۴% | ۷۳.۴% | ۷۳.۷% | ۹۴.۴% | ۸۱.۶% | ۸۰.۰% | ۷۰.۴% | ۸۰.۵% |
یک نکته در مورد این جدول اینه که وقتی دادههای مربوط به عملکرد یک مدل از گزارشهای رسمی یا جدولهای امتیاز عمومی در دسترس نبوده، اعداد با ارزیابی داخلی و با بهترین تلاش ممکن بازسازی شدن که معمولا از طریق ابزاری به اسم VLMEvalKit انجام شده.
فصل چهارم: زیر کاپوت چه خبره؟ نگاهی به معماری و آموزش مدل
حالا که فهمیدیم این مدل چه کارهایی انجام میده، بیایم کمی فنیتر بهش نگاه کنیم و ببینیم چطور ساخته و آموزش داده شده.
معماری و ساختار داخلی
معماری این مدل از ساختاری به اسم Llava پیروی میکنه. به زبان ساده، از یک اتصالدهنده به نام MLP استفاده میکنه تا ویژگیهای تصویری رو از یک «انکودر تصویر» به اسم SigLIP2-patch16-512 بگیره و اونها رو به توکنهای تصویری (نرم) تبدیل کنه.
هر تصویری که به مدل داده میشه، بر اساس ابعادش به حداکثر ۱۲ تکه (tile) تقسیم میشه که هر کدوم رزولوشن ۵۱۲x۵۱۲ پیکسل دارن. علاوه بر این، یک تصویر کوچک خلاصهشده کلی (thumbnail) با اندازه ۵۱۲x۵۱۲ هم بهش اضافه میشه. ویژگیهای به دست اومده از این تصاویر، بعد از عبور از MLP و یک فرایند دیگه، به «برج متنی» (text tower) مدل Command A داده میشن. این برج متنی، یک مدل زبان بزرگ با ۱۱۱ میلیارد پارامتر هست.
با این روش، هر تکه تصویر معادل ۲۵۶ توکن میشه و یک تصویر کامل میتونه حداکثر ۳۳۲۸ توکن رو مصرف کنه. این حجم بالاست، اما باعث میشه تحلیل کامل و دقیقی انجام بشه.
فرایند آموزش سه مرحلهای
آموزش Command A Vision در سه مرحله انجام شده:
- همترازی زبان-تصویر (Vision-Language Alignment): در این مرحله اول، وزنهای انکودر تصویر و مدل زبان ثابت نگه داشته میشن و دستکاری نمیشن. این کار کمک میکنه تا ویژگیهای انکودر تصویر به فضای برداری مدل زبان نگاشت بشن. یعنی مدل یاد میگیره که مفاهیم تصویری رو به مفاهیم متنی ربط بده.
- تنظیم دقیق نظارت شده (Supervised Fine-Tuning – SFT): در مرحله دوم، هم انکودر تصویر، هم آداپتور تصویر و هم مدل زبان به صورت همزمان با استفاده از مجموعهای متنوع از وظایف چندوجهی مبتنی بر دستورالعمل، آموزش داده میشن. بعد از اون، یک تکنیک به اسم «ادغام مدل چندوجهی» روی چندین مدل متخصص انجام میشه تا بین بخشهای مختلف دادههای آموزشی تعادل برقرار بشه و اهمیت هر کدوم از کاربردهای تخصصی و شرکتی منعکس بشه.
- پس از آموزش با یادگیری تقویتی (Post-training using RL): در مرحله نهایی، از روشهای «منظمسازی» (regularization) و چندین الگوریتم یادگیری تقویتی از بازخورد انسانی (RLHF) مثل Contrastive Policy Gradient استفاده شده. هدف این مرحله این بوده که مدل با نیازهای شرکتها و مسائل ایمنی هماهنگ بشه و در عین حال عملکردش هم بهتر بشه.
فصل پنجم: ویژگیهای مخصوص شرکتها و کسب و کارها
Command A Vision با این هدف ساخته شده که نیازهای کلیدی شرکتها رو برآورده کنه. این مدل خیلی از قابلیتهای متنی مدل Command A رو حفظ کرده و ویژگیهای مهم دیگهای مثل تولید افزوده بازیابی (RAG) پیشرفته با قابلیت ذکر منبع و عملکرد چندزبانه در چندین زبان کلیدی تجاری رو هم با خودش ترکیب میکنه.
با این مدل، شرکتها میتونن به سرعت و با امنیت بالا به تحلیلها و اطلاعات آگاه از زمینه (context-aware) روی دادههای خودشون دسترسی پیدا کنن، چه این دادهها متنی باشن و چه در فرمتهای تصویری مختلف شرکتی. سری مدلهای Command جوری بهینه شدن که روی کاربردهای پیچیده تجاری عملکرد خوبی داشته باشن و همزمان تعادل بین عملکرد، دقت و بهینگی رو هم حفظ کنن.
استقرار آسان و بدون نیاز به دیتاسنتر
یکی از بخشهای جالب اینه که برای اجرای این مدل به یک خوشه محاسباتی غولپیکر نیاز نیست. شرکتهایی که در صنایع تحت نظارت شدید فعالیت میکنن و به استقرار خصوصی (private deployment) نیاز دارن، میتونن به صورت بهینه از این مدل در محیط عملیاتی استفاده کنن.
Command A Vision میتونه به صورت خصوصی فقط با دو پردازنده گرافیکی (GPU) یا کمتر مستقر بشه. به طور مشخص، برای اجرا فقط به دو پردازنده A100s یا یک پردازنده H100 (در حالت کوانتیزیشن ۴ بیتی) نیاز داره. این یعنی دادههای شرکت هیچوقت از ساختمان خارج نمیشن و امنیت حفظ میشه.
فصل ششم: نظر کاربران اولیه درباره این مدل چی بوده؟
بعضی از شرکتها قبل از عرضه عمومی، این مدل رو آزمایش کردن. در ادامه نظر دو نفر از مدیران این شرکتها رو میخونیم:
ما به شدت در مورد عرضه Command A Vision هیجانزده هستیم. این مدلها مرزهای کاری که با هوش مصنوعی مولد ممکن بود رو به طرز چشمگیری گسترش میدن و به ما این امکان رو میدن که از متن فراتر بریم و وارد قلمرو درک بصری بشیم. ما در همین مدت کوتاه دیدیم که Command A Vision بعضی از پیچیدهترین و زمانبرترین چالشهای ما رو حل میکنه؛ این مدل نه تنها گردش کارها رو سادهتر میکنه، بلکه فرصتهای کاملا جدیدی رو برای هوش مصنوعی مولد باز میکنه. با ادغام زمینه بصری در سیستمهای هوش مصنوعیمون، میتونیم شروع به ساخت راهحلهایی کنیم که بر اساس چیزهایی که میتونیم ببینیم پایهریزی شدن، نه فقط چیزهایی که میتونیم بخونیم. من هیجانزدهام که ببینم تا کجا میتونیم این فناوری رو پیش ببریم و با داشتنش در جعبه ابزارمون به چه چیزهایی میتونیم دست پیدا کنیم.
جفری انگلیش (Jeffrey English)، مدیر خدمات حرفهای در Fujitsu Intelligence
در طول آزمایشهای اولیه، مدل Command A Vision قابلیتهای استثنایی در درک و استخراج داده از اسناد پیچیده صنعت ساخت و ساز، مثل گواهیهای عدم ادعا (lien waivers)، فاکتورها و نقشهها از خودش نشون داده. توانایی خودکارسازی این نوع استخراج داده مبتنی بر هوش مصنوعی، این قدرت رو داره که پردازش اسناد، دقت دادهها و مدیریت پروژه رو متحول کنه و بتونه ریسک، زمان و هزینه رو برای صنعت ساخت و ساز کاهش بده.
مارک وبستر (Mark Webster)، معاون ارشد و مدیر کل در Oracle Infrastructure Industries
فصل هفتم: چطور میشه از Command A Vision استفاده کرد؟
حالا که با این مدل آشنا شدیم، سوال اینه که چطور میشه بهش دسترسی داشت یا ازش استفاده کرد.
دسترسی و قیمتگذاری
Command A Vision امروز روی پلتفرم Cohere و برای استفادههای تحقیقاتی روی Hugging Face در دسترسه. اگه شرکتی به استقرار خصوصی یا روی سرورهای داخلی (on-prem) علاقه داشته باشه، باید با تیم فروش این شرکت برای قیمتگذاری سفارشی تماس بگیره. وزنهای مدل هم به صورت متنباز منتشر شده و این یعنی دسترسی بهش محدود به یک API خاص نیست.
راهنمای استفاده فنی
برای کسانی که میخوان به صورت محلی این مدل رو اجرا کنن، میتونن از کد زیر استفاده کنن. اول باید کتابخانههای لازم رو نصب کرد:
# pip install "transformers[dev-torch]@git+https://github.com/huggingface/transformers.git"
و بعد با استفاده از کد پایتون زیر مدل رو اجرا کرد:
import torch
from transformers import AutoProcessor, AutoModelForImageTextToText
model_id = "CohereLabs/command-a-vision-07-2025"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.float16
)
# فرمت کردن پیام با الگوی چت Command-A-Vision
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://images.pexels.com/photos/1108099/pexels-photo-1108099.jpeg",
},
{"type": "text", "text": "what is in this image?"},
],
},
]
inputs = processor.apply_chat_template(
messages,
padding=True,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
gen_tokens = model.generate(**inputs, max_new_tokens=300)
print(
processor.tokenizer.decode(
gen_tokens[0][inputs.input_ids.shape[1] :], skip_special_tokens=True
)
)
همچنین میشه از طریق ارائهدهندههای استنتاج Hugging Face هم از این مدل استفاده کرد:
import os
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="cohere",
api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
model="CohereLabs/command-a-vision-07-2025",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe this image in one sentence."
},
{
"type": "image_url",
"image_url": {
"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
}
}
]
}
],
)
print(completion.choices[0].message)
تیم سازنده
در نهایت، این پروژه توسط تیم اصلی چندوجهی در شرکت Cohere ممکن شده که شامل این افراد میشه:
Alexis Chevalier، Bharat Venkitesh، Evgenia Rusak، Hugo Dalla-Torre، Julian Mack، Kyle Duffy، Sebastian Hofstätter، Victor Machado، Viraat Aryabumi، Vlad Shmyhlo، Yongshuo Zong، Cassie Cao و Pierre Harvey Richemond.
منابع
- [۱] Introducing Command A Vision: Multimodal AI Built for Business
- [۲] Introducing Command A Vision: Multimodal AI built for Business
- [۳] Command A Vision: Coheres neues KI-Modell versteht Bilder und Dokumente
- [۴] Command A Vision : Best MultiModal LLM is here by Cohere | by Mehul Gupta | Data Science in Your Pocket | Jul, 2025 | Medium
دیدگاهتان را بنویسید