Мультимодальные модели обрабатывают не только текст, но и изображения, аудио и видео. В 2025 году три флагмана конкурируют за лидерство: GPT-4o (OpenAI), Gemini 2.0 Pro (Google) и Claude 3.5 Sonnet (Anthropic). У каждой модели свои сильные стороны в обработке разных типов данных.

Поддержка модальностей

Модальность	GPT-4o	Gemini 2.0 Pro	Claude 3.5 Sonnet
Текст (input)	Да	Да	Да
Текст (output)	Да	Да	Да
Изображения (input)	Да	Да	Да
Генерация изображений	Да (DALL-E 3)	Да (Imagen 3)	Нет
Аудио (input)	Да	Да	Нет
Аудио (output / TTS)	Да	Да	Нет
Видео (input)	Нет*	Да	Нет
PDF (input)	Да (как изображения)	Да (нативно)	Да (как изображения)

* GPT-4o поддерживает покадровый анализ видео через серию изображений, но не нативную обработку видеопотока

Анализ изображений: бенчмарки

Бенчмарк	GPT-4o	Gemini 2.0 Pro	Claude 3.5 Sonnet
MMMU (мультимод. понимание)	69.1%	66.7%	68.3%
MathVista (мат. визуализации)	63.8%	62.5%	61.6%
ChartQA (графики и диаграммы)	85.7%	87.2%	90.8%
DocVQA (документы)	92.8%	93.1%	95.2%
TextVQA (текст на фото)	78.0%	82.3%	74.1%

Интересный результат: Claude 3.5 Sonnet лидирует в анализе документов (DocVQA) и графиков (ChartQA), несмотря на отсутствие аудио- и видео-модальностей. Gemini лучше всего распознаёт текст на фотографиях (TextVQA).

Практические тесты

Тест 1: Анализ скриншота интерфейса

Задача: описать элементы UI, найти проблемы UX. Claude 3.5 Sonnet дал самый детальный анализ с конкретными рекомендациями. GPT-4o хорошо описал структуру, но менее конкретен в рекомендациях.

Тест 2: Извлечение данных из таблицы (фото)

Задача: распознать таблицу с цифрами на фотографии. Gemini показал лучшую точность OCR. Claude и GPT-4o допустили 1-2 ошибки в распознавании цифр.

Тест 3: Анализ графика продаж

Задача: описать тренды на графике. Claude точнее определил точки перелома. GPT-4o лучше других интерпретировал причины трендов.

Примеры: мультимодальные запросы через ModelSwitch

import base64
from openai import OpenAI

client = OpenAI(
    base_url="https://api.modelswitch.io/v1",
    api_key="msk_ваш_ключ"
)

# Анализ изображения
def analyze_image(image_path: str, question: str) -> str:
    with open(image_path, "rb") as f:
        b64 = base64.b64encode(f.read()).decode()

    response = client.chat.completions.create(
        model="gpt-4o",  # или "claude-3.5-sonnet", "gemini-2.0-pro"
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": question},
                {"type": "image_url", "image_url": {
                    "url": f"data:image/png;base64,{b64}"
                }}
            ]
        }]
    )
    return response.choices[0].message.content

# Пример использования
result = analyze_image(
    "receipt.jpg",
    "Извлеки все позиции и суммы из этого чека в JSON-формате"
)

Поддержка модальностей

Модальность	GPT-4o	Gemini 2.0 Pro	Claude 3.5 Sonnet
Текст (input)	Да	Да	Да
Текст (output)	Да	Да	Да
Изображения (input)	Да	Да	Да
Генерация изображений	Да (DALL-E 3)	Да (Imagen 3)	Нет
Аудио (input)	Да	Да	Нет
Аудио (output / TTS)	Да	Да	Нет
Видео (input)	Нет*	Да	Нет
PDF (input)	Да (как изображения)	Да (нативно)	Да (как изображения)

* GPT-4o поддерживает покадровый анализ видео через серию изображений, но не нативную обработку видеопотока

Анализ изображений: бенчмарки

Бенчмарк	GPT-4o	Gemini 2.0 Pro	Claude 3.5 Sonnet
MMMU (мультимод. понимание)	69.1%	66.7%	68.3%
MathVista (мат. визуализации)	63.8%	62.5%	61.6%
ChartQA (графики и диаграммы)	85.7%	87.2%	90.8%
DocVQA (документы)	92.8%	93.1%	95.2%
TextVQA (текст на фото)	78.0%	82.3%	74.1%

Практические тесты

Тест 1: Анализ скриншота интерфейса

Тест 2: Извлечение данных из таблицы (фото)

Тест 3: Анализ графика продаж

Примеры: мультимодальные запросы через ModelSwitch

import base64
from openai import OpenAI

client = OpenAI(
    base_url="https://api.modelswitch.io/v1",
    api_key="msk_ваш_ключ"
)

# Анализ изображения
def analyze_image(image_path: str, question: str) -> str:
    with open(image_path, "rb") as f:
        b64 = base64.b64encode(f.read()).decode()

    response = client.chat.completions.create(
        model="gpt-4o",  # или "claude-3.5-sonnet", "gemini-2.0-pro"
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": question},
                {"type": "image_url", "image_url": {
                    "url": f"data:image/png;base64,{b64}"
                }}
            ]
        }]
    )
    return response.choices[0].message.content

# Пример использования
result = analyze_image(
    "receipt.jpg",
    "Извлеки все позиции и суммы из этого чека в JSON-формате"
)

Задача	Лучшая модель	Почему
Анализ документов / PDF	Claude 3.5 Sonnet	Лучший DocVQA, детальный анализ
OCR / текст на фото	Gemini 2.0 Pro	Лучший TextVQA, нативный PDF
Работа с видео	Gemini 2.0 Pro	Единственная модель с нативным видео
Аудио-транскрипция + анализ	GPT-4o	Нативный аудиовход + анализ
Генерация изображений	GPT-4o (DALL-E 3)	Лучшее качество генерации
Анализ графиков / чартов	Claude 3.5 Sonnet	Лучший ChartQA, точные выводы
Универсальные мультимодальные задачи	GPT-4o	Поддержка всех модальностей

Задача	Лучшая модель	Почему
Анализ документов / PDF	Claude 3.5 Sonnet	Лучший DocVQA, детальный анализ
OCR / текст на фото	Gemini 2.0 Pro	Лучший TextVQA, нативный PDF
Работа с видео	Gemini 2.0 Pro	Единственная модель с нативным видео
Аудио-транскрипция + анализ	GPT-4o	Нативный аудиовход + анализ
Генерация изображений	GPT-4o (DALL-E 3)	Лучшее качество генерации
Анализ графиков / чартов	Claude 3.5 Sonnet	Лучший ChartQA, точные выводы
Универсальные мультимодальные задачи	GPT-4o	Поддержка всех модальностей

Сравнение мультимодальных моделей: GPT-4o, Gemini, Claude

Поддержка модальностей

Анализ изображений: бенчмарки

Практические тесты

Примеры: мультимодальные запросы через ModelSwitch

Рекомендации по выбору

Похожие статьи

GPT-4o vs GPT-4o-mini: когда платить больше не нужно

Claude vs GPT для кодогенерации: кто пишет код лучше

Сравнение AI моделей 2025: GPT-4o vs Claude 3.5 vs Gemini 2.0

Готовы начать?

Продукт

Разработчикам

Компания

Сравнение мультимодальных моделей: GPT-4o, Gemini, Claude

Поддержка модальностей

Анализ изображений: бенчмарки

Практические тесты

Примеры: мультимодальные запросы через ModelSwitch

Рекомендации по выбору

Похожие статьи

GPT-4o vs GPT-4o-mini: когда платить больше не нужно

Claude vs GPT для кодогенерации: кто пишет код лучше

Сравнение AI моделей 2025: GPT-4o vs Claude 3.5 vs Gemini 2.0

Готовы начать?

Продукт

Разработчикам

Компания