Мультимодальные модели обрабатывают не только текст, но и изображения, аудио и видео. В 2025 году три флагмана конкурируют за лидерство: GPT-4o (OpenAI), Gemini 2.0 Pro (Google) и Claude 3.5 Sonnet (Anthropic). У каждой модели свои сильные стороны в обработке разных типов данных.
Поддержка модальностей
| Модальность | GPT-4o | Gemini 2.0 Pro | Claude 3.5 Sonnet |
|---|---|---|---|
| Текст (input) | Да | Да | Да |
| Текст (output) | Да | Да | Да |
| Изображения (input) | Да | Да | Да |
| Генерация изображений | Да (DALL-E 3) | Да (Imagen 3) | Нет |
| Аудио (input) | Да | Да | Нет |
| Аудио (output / TTS) | Да | Да | Нет |
| Видео (input) | Нет* | Да | Нет |
| PDF (input) | Да (как изображения) | Да (нативно) | Да (как изображения) |
* GPT-4o поддерживает покадровый анализ видео через серию изображений, но не нативную обработку видеопотока
Анализ изображений: бенчмарки
| Бенчмарк | GPT-4o | Gemini 2.0 Pro | Claude 3.5 Sonnet |
|---|---|---|---|
| MMMU (мультимод. понимание) | 69.1% | 66.7% | 68.3% |
| MathVista (мат. визуализации) | 63.8% | 62.5% | 61.6% |
| ChartQA (графики и диаграммы) | 85.7% | 87.2% | 90.8% |
| DocVQA (документы) | 92.8% | 93.1% | 95.2% |
| TextVQA (текст на фото) | 78.0% | 82.3% | 74.1% |
Интересный результат: Claude 3.5 Sonnet лидирует в анализе документов (DocVQA) и графиков (ChartQA), несмотря на отсутствие аудио- и видео-модальностей. Gemini лучше всего распознаёт текст на фотографиях (TextVQA).
Практические тесты
Тест 1: Анализ скриншота интерфейса
Задача: описать элементы UI, найти проблемы UX. Claude 3.5 Sonnet дал самый детальный анализ с конкретными рекомендациями. GPT-4o хорошо описал структуру, но менее конкретен в рекомендациях.
Тест 2: Извлечение данных из таблицы (фото)
Задача: распознать таблицу с цифрами на фотографии. Gemini показал лучшую точность OCR. Claude и GPT-4o допустили 1-2 ошибки в распознавании цифр.
Тест 3: Анализ графика продаж
Задача: описать тренды на графике. Claude точнее определил точки перелома. GPT-4o лучше других интерпретировал причины трендов.
Примеры: мультимодальные запросы через ModelSwitch
import base64
from openai import OpenAI
client = OpenAI(
base_url="https://api.modelswitch.ru/v1",
api_key="msk_ваш_ключ"
)
# Анализ изображения
def analyze_image(image_path: str, question: str) -> str:
with open(image_path, "rb") as f:
b64 = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="gpt-4o", # или "claude-3.5-sonnet", "gemini-2.0-pro"
messages=[{
"role": "user",
"content": [
{"type": "text", "text": question},
{"type": "image_url", "image_url": {
"url": f"data:image/png;base64,{b64}"
}}
]
}]
)
return response.choices[0].message.content
# Пример использования
result = analyze_image(
"receipt.jpg",
"Извлеки все позиции и суммы из этого чека в JSON-формате"
)
Рекомендации по выбору
| Задача | Лучшая модель | Почему |
|---|---|---|
| Анализ документов / PDF | Claude 3.5 Sonnet | Лучший DocVQA, детальный анализ |
| OCR / текст на фото | Gemini 2.0 Pro | Лучший TextVQA, нативный PDF |
| Работа с видео | Gemini 2.0 Pro | Единственная модель с нативным видео |
| Аудио-транскрипция + анализ | GPT-4o | Нативный аудиовход + анализ |
| Генерация изображений | GPT-4o (DALL-E 3) | Лучшее качество генерации |
| Анализ графиков / чартов | Claude 3.5 Sonnet | Лучший ChartQA, точные выводы |
| Универсальные мультимодальные задачи | GPT-4o | Поддержка всех модальностей |
Через ModelSwitch вы можете использовать все три мультимодальные модели через один API: отправляйте изображения и документы на анализ в Claude, видео — в Gemini, аудио — в GPT-4o. Единый формат запросов, единый ключ, единый биллинг.