GeekAlerts

جایی برای گیک‌ها

معرفی مدل چندوجهی Command A Vision از Cohere، درکی از دنیای واقعی و پردازش اسناد

معرفی مدل چندوجهی Command A Vision از Cohere، درکی از دنیای واقعی و پردازش اسناد

امروز قراره با یک مدل جدید به اسم Command A Vision آشنا بشیم. این مدل یک مدل هوش مصنوعی مولد و پیشرفته است که برای شرکت‌ها و کسب و کارها ساخته شده تا هم در کارهای مرتبط با تصویر (چندوجهی) و هم در کارهای متنی عملکرد خوبی داشته باشه.

امروز قراره با یک مدل جدید به اسم Command A Vision آشنا بشیم. این مدل یک مدل هوش مصنوعی مولد و پیشرفته است که برای شرکت‌ها و کسب و کارها ساخته شده تا هم در کارهای مرتبط با تصویر (چندوجهی) و هم در کارهای متنی عملکرد خوبی داشته باشه.

ایده اصلی اینه که این مدل مثل چشم‌های یک عامل هوشمند در محیط یک شرکت عمل کنه. با این قابلیت، میشه کارهای خسته‌کننده‌ای که با داده‌های تصویری مثل اسلایدها، دیاگرام‌ها، فایل‌های PDF و عکس‌ها سر و کار دارن رو خودکار کرد. فرقی نمیکنه که این کار تحلیل دفترچه راهنمای یک محصول باشه یا بررسی صحنه‌های واقعی برای تشخیص خطر؛ این مدل برای چالش‌های تصویری سخت در محیط‌های کاری طراحی شده.

بر اساس اطلاعات منتشر شده، عملکرد این مدل در بنچمارک‌های کلیدی چندوجهی، از مدل‌های هم‌رده خودش مثل GPT 4.1، Llama 4 Maverick، Mistral Medium 3 و Pixtral Large بهتر بوده. Command A Vision با اولویت دادن به نیازهای شرکت‌ها، گزینه‌های استقرار امن، بهینه و انعطاف‌پذیری رو ارائه میده. یکی از ویژگی‌هاش اینه که به سخت‌افزار سنگینی نیاز نداره و همین موضوع باعث میشه بشه اون رو به راحتی روی سرورهای داخلی شرکت (on-premise) یا روی یک زیرساخت ابری خصوصی با دو پردازنده گرافیکی (GPU) یا کمتر مستقر کرد.

این مدل به عنوان جدیدترین مدل پرچمدار شرکت Cohere معرفی شده که یک مدل «چگال» (dense) با ۱۱۲ میلیارد پارامتر هست و بر پایه مدل Command A ساخته شده. وزن‌های این مدل هم به صورت عمومی منتشر شده که برای مدلی با این اندازه و کیفیت، اتفاق متداولی نیست. هدف اینه که کسب و کارها بتونن با استفاده از قابلیت‌هایی مثل تشخیص کاراکتر نوری (OCR) و تحلیل تصویر، کارهای تکراری رو خودکار کنن، از داده‌های تصویری به اطلاعات ارزشمندی برسن و تصمیم‌های دقیق‌تری بگیرن.

فصل دوم: این مدل دقیقا چه توانایی‌هایی داره؟

حالا بیایم دقیق‌تر ببینیم که Command A Vision چه کارهایی رو میتونه انجام بده. قابلیت‌های اصلی این مدل به چند دسته تقسیم میشن.

۱. تحلیل نمودار، گراف و دیاگرام

این مدل در فهمیدن و تحلیل کردن انواع داده‌های تصویری و چندزبانه، مثل چارت‌ها، گراف‌ها، جدول‌ها و دیاگرام‌ها توانایی خوبی داره. میتونه داده‌ها رو از فرمت‌های تصویری مختلف با دقت استخراج کنه و دانش تخصصی حوزه‌های مختلف مثل مالی، بهداشت و درمان، تولید، ساخت و ساز و انرژی رو برای تحلیل به کار ببره. در نهایت هم بر اساس اطلاعاتی که استخراج کرده، تحلیل‌های پیچیده‌ای رو انجام میده.

۲. پردازش اسناد و OCR

یکی از نقاط قوت Command A Vision، پردازش اسناد و تشخیص کاراکتر نوری یا همون OCR هست. این مدل میتونه متن و اطلاعات رو از انواع اسناد مثل مدارک اسکن شده، فاکتورها و فرم‌ها با دقت استخراج کنه. اما کارش فقط به تشخیص متن ساده محدود نمیشه؛ بلکه ساختار و چیدمان سند رو هم درک میکنه تا بتونه داده‌های معناداری رو بیرون بکشه.

این قابلیت در کنار پشتیبانی از خروجی داده ساختاریافته در حالت JSON، به Command A Vision اجازه میده تا کارهای تکراری پردازش اسناد رو خودکار کنه، دقت داده‌ها رو بالا ببره، گردش کارها رو بهینه‌تر کنه و با سیستم‌های موجود در یک شرکت یکپارچه بشه. به همین دلیل، ابزار مفیدی برای شرکت‌هایی محسوب میشه که با حجم زیادی از اسناد سر و کار دارن. این مدل در بنچمارک‌های DocVQA، TextVQA و OCRBench به عملکرد سطح بالایی رسیده.

۳. درک صحنه‌های واقعی

توانایی‌های Command A Vision به درک صحنه‌های دنیای واقعی هم میرسه و میتونه محیط‌های تصویری پیچیده رو تحلیل و تفسیر کنه. این قابلیت فراتر از تشخیص ساده اشیاست؛ چون مدل میتونه روابط فضایی بین اشیا، زمینه و حتی جزئیات ظریف در تصاویر و عکس‌ها رو بفهمه. این ویژگی اون رو برای کاربردهای دنیای واقعی مثل تشخیص خطر در محیط‌های صنعتی یا تحلیل داده در خرده‌فروشی‌ها مناسب میکنه.

به طور خلاصه، کارهایی که این مدل میتونه انجام بده شامل موارد زیره:

  • استخراج عبارات از فاکتورهای اسکن شده و تار
  • شناسایی خطرات از روی تصاویر سایت‌های صنعتی
  • تجزیه و تحلیل نقشه‌های ساختمانی که داخل فایل‌های PDF هستن
  • خواندن دیاگرام‌ها از دفترچه‌های راهنمای چندزبانه محصولات
  • فهمیدن چارت‌ها و جدول‌ها

این مدل فقط OCR یا تشخیص اشیا نیست، بلکه چیدمان، زمینه و اصطلاحات تخصصی یک صنعت رو هم درک میکنه.

فصل سوم: عملکرد در بنچمارک‌ها؛ اعداد و ارقام چه میگن؟

برای اینکه ببینیم یک مدل چقدر خوب کار میکنه، اون رو با معیارهایی به اسم «بنچمارک» میسنجن. Command A Vision هم در بنچمارک‌های استاندارد تصویری با مدل‌های دیگه‌ای مقایسه شده. برای این مقایسه، مجموعه‌ای متنوع از ۹ بنچمارک انتخاب شده تا هم کاربردهای رایج در شرکت‌ها و هم ارزیابی‌های عمومی و آکادمیک رو پوشش بدن.

نتایج نشون میده که این مدل به خصوص در تحلیل چارت‌ها، اسناد و OCR قدرت بالایی داره. همچنین در ارزیابی‌های ریاضیاتی یا استدلالی مثل MathVista هم امتیاز ۷۳.۵ درصد رو کسب کرده. به طور کلی، گفته شده که این مدل از مدل‌های پیشرو «غیر متفکر» (non-thinking) در زمینه زبان-تصویر عملکرد بهتری داره.

در جدول زیر میتونی عملکرد این مدل رو در مقایسه با مدل‌های دیگه ببینی.

مدلChartQAInfoVQAAI2DMMMU (CoT)MathVistaDocVQATextVQAOCRBenchRealWorldQAمیانگین
Command A Vision۹۰.۹%۸۲.۹%۹۴.۰%۶۵.۳%۷۳.۵%۹۵.۹%۸۴.۸%۸۶.۹%۷۳.۶%۸۳.۱%
GPT-4.1 (2025-04-14)۸۲.۷%۷۰.۰%۸۶.۵%۷۴.۸%۷۲.۲%۸۸.۶%۷۱.۱%۸۳.۴%۷۸.۰%۷۸.۶%
Pixtral Large۸۸.۱%۵۹.۹%۹۳.۸%۶۴.۰%۶۹.۴%۹۳.۳%۷۹.۳%۷۴.۱%۶۹.۳%۷۶.۸%
Mistral Medium 3۸۲.۶%۷۱.۵%۹۳.۷%۶۵.۰%۷۰.۵%۹۵.۳%۸۳.۵%۷۵.۷%۶۷.۲%۷۸.۳%
Llama 3.2V 90B۸۵.۸%۵۶.۸%۹۲.۳%۶۰.۶%۵۷.۳%۹۰.۱%۸۳.۴%۷۸.۳%۶۹.۸%۷۴.۹%
Llama 4 Maverick۹۰.۰%۷۷.۱%۸۴.۴%۷۳.۴%۷۳.۷%۹۴.۴%۸۱.۶%۸۰.۰%۷۰.۴%۸۰.۵%

یک نکته در مورد این جدول اینه که وقتی داده‌های مربوط به عملکرد یک مدل از گزارش‌های رسمی یا جدول‌های امتیاز عمومی در دسترس نبوده، اعداد با ارزیابی داخلی و با بهترین تلاش ممکن بازسازی شدن که معمولا از طریق ابزاری به اسم VLMEvalKit انجام شده.

فصل چهارم: زیر کاپوت چه خبره؟ نگاهی به معماری و آموزش مدل

حالا که فهمیدیم این مدل چه کارهایی انجام میده، بیایم کمی فنی‌تر بهش نگاه کنیم و ببینیم چطور ساخته و آموزش داده شده.

معماری و ساختار داخلی

معماری این مدل از ساختاری به اسم Llava پیروی میکنه. به زبان ساده، از یک اتصال‌دهنده به نام MLP استفاده میکنه تا ویژگی‌های تصویری رو از یک «انکودر تصویر» به اسم SigLIP2-patch16-512 بگیره و اون‌ها رو به توکن‌های تصویری (نرم) تبدیل کنه.

هر تصویری که به مدل داده میشه، بر اساس ابعادش به حداکثر ۱۲ تکه (tile) تقسیم میشه که هر کدوم رزولوشن ۵۱۲x۵۱۲ پیکسل دارن. علاوه بر این، یک تصویر کوچک خلاصه‌شده کلی (thumbnail) با اندازه ۵۱۲x۵۱۲ هم بهش اضافه میشه. ویژگی‌های به دست اومده از این تصاویر، بعد از عبور از MLP و یک فرایند دیگه، به «برج متنی» (text tower) مدل Command A داده میشن. این برج متنی، یک مدل زبان بزرگ با ۱۱۱ میلیارد پارامتر هست.

با این روش، هر تکه تصویر معادل ۲۵۶ توکن میشه و یک تصویر کامل میتونه حداکثر ۳۳۲۸ توکن رو مصرف کنه. این حجم بالاست، اما باعث میشه تحلیل کامل و دقیقی انجام بشه.

فرایند آموزش سه مرحله‌ای

آموزش Command A Vision در سه مرحله انجام شده:

  1. هم‌ترازی زبان-تصویر (Vision-Language Alignment): در این مرحله اول، وزن‌های انکودر تصویر و مدل زبان ثابت نگه داشته میشن و دستکاری نمیشن. این کار کمک میکنه تا ویژگی‌های انکودر تصویر به فضای برداری مدل زبان نگاشت بشن. یعنی مدل یاد میگیره که مفاهیم تصویری رو به مفاهیم متنی ربط بده.
  2. تنظیم دقیق نظارت شده (Supervised Fine-Tuning – SFT): در مرحله دوم، هم انکودر تصویر، هم آداپتور تصویر و هم مدل زبان به صورت همزمان با استفاده از مجموعه‌ای متنوع از وظایف چندوجهی مبتنی بر دستورالعمل، آموزش داده میشن. بعد از اون، یک تکنیک به اسم «ادغام مدل چندوجهی» روی چندین مدل متخصص انجام میشه تا بین بخش‌های مختلف داده‌های آموزشی تعادل برقرار بشه و اهمیت هر کدوم از کاربردهای تخصصی و شرکتی منعکس بشه.
  3. پس از آموزش با یادگیری تقویتی (Post-training using RL): در مرحله نهایی، از روش‌های «منظم‌سازی» (regularization) و چندین الگوریتم یادگیری تقویتی از بازخورد انسانی (RLHF) مثل Contrastive Policy Gradient استفاده شده. هدف این مرحله این بوده که مدل با نیازهای شرکت‌ها و مسائل ایمنی هماهنگ بشه و در عین حال عملکردش هم بهتر بشه.

فصل پنجم: ویژگی‌های مخصوص شرکت‌ها و کسب و کارها

Command A Vision با این هدف ساخته شده که نیازهای کلیدی شرکت‌ها رو برآورده کنه. این مدل خیلی از قابلیت‌های متنی مدل Command A رو حفظ کرده و ویژگی‌های مهم دیگه‌ای مثل تولید افزوده بازیابی (RAG) پیشرفته با قابلیت ذکر منبع و عملکرد چندزبانه در چندین زبان کلیدی تجاری رو هم با خودش ترکیب میکنه.

با این مدل، شرکت‌ها میتونن به سرعت و با امنیت بالا به تحلیل‌ها و اطلاعات آگاه از زمینه (context-aware) روی داده‌های خودشون دسترسی پیدا کنن، چه این داده‌ها متنی باشن و چه در فرمت‌های تصویری مختلف شرکتی. سری مدل‌های Command جوری بهینه شدن که روی کاربردهای پیچیده تجاری عملکرد خوبی داشته باشن و همزمان تعادل بین عملکرد، دقت و بهینگی رو هم حفظ کنن.

استقرار آسان و بدون نیاز به دیتاسنتر

یکی از بخش‌های جالب اینه که برای اجرای این مدل به یک خوشه محاسباتی غول‌پیکر نیاز نیست. شرکت‌هایی که در صنایع تحت نظارت شدید فعالیت میکنن و به استقرار خصوصی (private deployment) نیاز دارن، میتونن به صورت بهینه از این مدل در محیط عملیاتی استفاده کنن.

Command A Vision میتونه به صورت خصوصی فقط با دو پردازنده گرافیکی (GPU) یا کمتر مستقر بشه. به طور مشخص، برای اجرا فقط به دو پردازنده A100s یا یک پردازنده H100 (در حالت کوانتیزیشن ۴ بیتی) نیاز داره. این یعنی داده‌های شرکت هیچوقت از ساختمان خارج نمیشن و امنیت حفظ میشه.

فصل ششم: نظر کاربران اولیه درباره این مدل چی بوده؟

بعضی از شرکت‌ها قبل از عرضه عمومی، این مدل رو آزمایش کردن. در ادامه نظر دو نفر از مدیران این شرکت‌ها رو میخونیم:

ما به شدت در مورد عرضه Command A Vision هیجان‌زده هستیم. این مدل‌ها مرزهای کاری که با هوش مصنوعی مولد ممکن بود رو به طرز چشمگیری گسترش میدن و به ما این امکان رو میدن که از متن فراتر بریم و وارد قلمرو درک بصری بشیم. ما در همین مدت کوتاه دیدیم که Command A Vision بعضی از پیچیده‌ترین و زمان‌برترین چالش‌های ما رو حل میکنه؛ این مدل نه تنها گردش کارها رو ساده‌تر میکنه، بلکه فرصت‌های کاملا جدیدی رو برای هوش مصنوعی مولد باز میکنه. با ادغام زمینه بصری در سیستم‌های هوش مصنوعیمون، میتونیم شروع به ساخت راه‌حل‌هایی کنیم که بر اساس چیزهایی که میتونیم ببینیم پایه‌ریزی شدن، نه فقط چیزهایی که میتونیم بخونیم. من هیجان‌زده‌ام که ببینم تا کجا میتونیم این فناوری رو پیش ببریم و با داشتنش در جعبه ابزارمون به چه چیزهایی میتونیم دست پیدا کنیم.

جفری انگلیش (Jeffrey English)، مدیر خدمات حرفه‌ای در Fujitsu Intelligence

در طول آزمایش‌های اولیه، مدل Command A Vision قابلیت‌های استثنایی در درک و استخراج داده از اسناد پیچیده صنعت ساخت و ساز، مثل گواهی‌های عدم ادعا (lien waivers)، فاکتورها و نقشه‌ها از خودش نشون داده. توانایی خودکارسازی این نوع استخراج داده مبتنی بر هوش مصنوعی، این قدرت رو داره که پردازش اسناد، دقت داده‌ها و مدیریت پروژه رو متحول کنه و بتونه ریسک، زمان و هزینه رو برای صنعت ساخت و ساز کاهش بده.

مارک وبستر (Mark Webster)، معاون ارشد و مدیر کل در Oracle Infrastructure Industries

فصل هفتم: چطور میشه از Command A Vision استفاده کرد؟

حالا که با این مدل آشنا شدیم، سوال اینه که چطور میشه بهش دسترسی داشت یا ازش استفاده کرد.

دسترسی و قیمت‌گذاری

Command A Vision امروز روی پلتفرم Cohere و برای استفاده‌های تحقیقاتی روی Hugging Face در دسترسه. اگه شرکتی به استقرار خصوصی یا روی سرورهای داخلی (on-prem) علاقه داشته باشه، باید با تیم فروش این شرکت برای قیمت‌گذاری سفارشی تماس بگیره. وزن‌های مدل هم به صورت متن‌باز منتشر شده و این یعنی دسترسی بهش محدود به یک API خاص نیست.

راهنمای استفاده فنی

برای کسانی که میخوان به صورت محلی این مدل رو اجرا کنن، میتونن از کد زیر استفاده کنن. اول باید کتابخانه‌های لازم رو نصب کرد:

# pip install "transformers[dev-torch]@git+https://github.com/huggingface/transformers.git"

و بعد با استفاده از کد پایتون زیر مدل رو اجرا کرد:

import torch
from transformers import AutoProcessor, AutoModelForImageTextToText
model_id = "CohereLabs/command-a-vision-07-2025"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.float16
)
# فرمت کردن پیام با الگوی چت Command-A-Vision
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://images.pexels.com/photos/1108099/pexels-photo-1108099.jpeg",
            },
            {"type": "text", "text": "what is in this image?"},
        ],
    },
]
inputs = processor.apply_chat_template(
    messages,
    padding=True,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)
gen_tokens = model.generate(**inputs, max_new_tokens=300)
print(
    processor.tokenizer.decode(
        gen_tokens[0][inputs.input_ids.shape[1] :], skip_special_tokens=True
    )
)

همچنین میشه از طریق ارائه‌دهنده‌های استنتاج Hugging Face هم از این مدل استفاده کرد:

import os
from huggingface_hub import InferenceClient
client = InferenceClient(
    provider="cohere",
    api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
    model="CohereLabs/command-a-vision-07-2025",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe this image in one sentence."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
                    }
                }
            ]
        }
    ],
)
print(completion.choices[0].message)

تیم سازنده

در نهایت، این پروژه توسط تیم اصلی چندوجهی در شرکت Cohere ممکن شده که شامل این افراد میشه:
Alexis Chevalier، Bharat Venkitesh، Evgenia Rusak، Hugo Dalla-Torre، Julian Mack، Kyle Duffy، Sebastian Hofstätter، Victor Machado، Viraat Aryabumi، Vlad Shmyhlo، Yongshuo Zong، Cassie Cao و Pierre Harvey Richemond.

منابع

  • [۱] Introducing Command A Vision: Multimodal AI Built for Business
  • [۲] Introducing Command A Vision: Multimodal AI built for Business
  • [۳] Command A Vision: Coheres neues KI-Modell versteht Bilder und Dokumente
  • [۴] Command A Vision : Best MultiModal LLM is here by Cohere | by Mehul Gupta | Data Science in Your Pocket | Jul, 2025 | Medium

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *