Мультимодальный AI -- это модели, способные одновременно работать с несколькими типами данных: текстом, изображениями, аудио и видео. В 2025 году мультимодальность стала стандартом для флагманских моделей: GPT-4o понимает картинки и аудио, Gemini 2.0 обрабатывает видео, а Claude 3.5 анализирует изображения и документы.
В этой статье разберём практические сценарии работы с мультимодальным AI через API и покажем примеры кода.
Анализ изображений: Vision API
Самый распространённый мультимодальный сценарий -- отправка изображений в LLM для анализа. Поддерживается в GPT-4o, Claude 3.5, Gemini 2.0.
from openai import OpenAI
import base64
client = OpenAI(
base_url="https://api.modelswitch.ru/v1",
api_key="msk_ваш_ключ"
)
# Вариант 1: изображение по URL
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Что изображено на этой картинке? Опиши детально."},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
]
}]
)
# Вариант 2: изображение в base64
with open("screenshot.png", "rb") as f:
image_b64 = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="claude-3.5-sonnet", # Claude тоже поддерживает vision
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Проанализируй этот скриншот интерфейса и предложи улучшения UX."},
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}}
]
}]
)
Типичные бизнес-применения: OCR документов, анализ товаров по фото, модерация контента, автоматическое описание изображений для SEO и доступности.
Генерация изображений: DALL-E и Stable Diffusion
Через OpenAI-совместимый API доступна генерация изображений:
# Генерация изображения через DALL-E 3
response = client.images.generate(
model="dall-e-3",
prompt="Футуристический город на Марсе, в стиле научной фантастики, закат",
size="1024x1024",
quality="hd",
n=1
)
image_url = response.data[0].url
print(f"Сгенерированное изображение: {image_url}")
Для генерации изображений через ModelSwitch доступны DALL-E 3, Stable Diffusion XL и другие модели. Все используют одинаковый формат API.
Работа с аудио: распознавание и синтез речи
Мультимодальный AI включает работу с аудио по двум направлениям:
Speech-to-Text (STT) -- распознавание речи:
# Распознавание речи через Whisper
with open("meeting_recording.mp3", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="ru",
response_format="verbose_json",
timestamp_granularities=["segment"]
)
for segment in transcript.segments:
print(f"[{segment.start:.1f}s] {segment.text}")
Text-to-Speech (TTS) -- синтез речи:
# Синтез речи
response = client.audio.speech.create(
model="tts-1-hd",
voice="nova",
input="Добро пожаловать в ModelSwitch -- единый API для всех AI моделей."
)
response.stream_to_file("welcome.mp3")
Мультимодальные пайплайны: комбинируем модальности
Настоящая мощь мультимодального AI раскрывается в комбинированных сценариях:
- Видеоанализ -- извлечение кадров из видео + Vision API для анализа каждого кадра + LLM для обобщения
- Голосовой ассистент -- STT для распознавания речи + LLM для генерации ответа + TTS для озвучивания
- Автоматизация документов -- OCR скана + LLM для извлечения данных + генерация структурированного JSON
- Контент-платформа -- генерация текста + DALL-E для иллюстраций + TTS для аудиоверсии статьи
С ModelSwitch все модальности доступны через единый API-ключ. Вы можете комбинировать Vision от GPT-4o, генерацию от DALL-E и TTS от OpenAI в одном приложении, а при необходимости -- переключить Vision на Gemini для поддержки видео, изменив только параметр model.
Мультимодальный AI -- это не будущее, а настоящее. И порог входа для разработчиков сегодня минимален: знакомый OpenAI SDK, понятный API и доступ ко всем модальностям через один gateway.