Whisper — модель автоматического распознавания речи (ASR) от OpenAI, поддерживающая более 90 языков, включая русский. Whisper превосходит большинство коммерческих решений по качеству транскрибации и работает с различными акцентами, диалектами и шумными записями. Через ModelSwitch вы подключаете Whisper API с оплатой в рублях и без регистрации в OpenAI.
Характеристики Whisper API
| Параметр | Значение |
|---|---|
| Модель | whisper-1 |
| Поддерживаемые языки | 90+ (включая русский) |
| Максимальный размер файла | 25 МБ |
| Поддерживаемые форматы | mp3, mp4, mpeg, mpga, m4a, wav, webm |
| Стоимость | $0.006 за минуту аудио |
| Режимы | Транскрибация, перевод на английский |
Стоимость Whisper API крайне низкая — транскрибация часа аудио обойдётся всего в $0.36. Это делает модель доступной для массовой обработки подкастов, звонков и встреч.
Транскрибация аудио через ModelSwitch
from openai import OpenAI
client = OpenAI(
base_url="https://api.modelswitch.ru/v1",
api_key="msk_ваш_ключ"
)
# Базовая транскрибация аудиофайла
with open("meeting_recording.mp3", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="ru", # Указываем русский язык для лучшей точности
response_format="text"
)
print(transcript)
Для получения транскрипции с таймкодами используйте формат verbose_json:
# Транскрибация с таймкодами
with open("podcast_episode.mp3", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="ru",
response_format="verbose_json",
timestamp_granularities=["segment"]
)
for segment in transcript.segments:
start = segment["start"]
end = segment["end"]
text = segment["text"]
print(f"[{start:.1f}s - {end:.1f}s] {text}")
Примеры использования
- Протоколы встреч — автоматическая транскрибация и суммаризация совещаний (Whisper + GPT-4o-mini)
- Подкасты — создание текстовых версий эпизодов для SEO
- Контакт-центры — транскрибация звонков для анализа качества обслуживания
- Образование — создание субтитров для лекций и вебинаров
- Медиа — автоматические субтитры для видеоконтента
Комбинируйте Whisper с текстовыми моделями для создания мощных пайплайнов: транскрибируйте аудио через Whisper, затем суммаризируйте через GPT-4o-mini — всё через один API-ключ ModelSwitch.
Заключение
Whisper API — лучшее решение для распознавания речи с поддержкой русского языка. Высокое качество, низкая цена ($0.006/мин) и простая интеграция через ModelSwitch. Зарегистрируйтесь на modelswitch.ru и начните транскрибировать аудио через AI.