Whisper API: автоматическое распознавание речи через AI

Как использовать Whisper API для распознавания речи через ModelSwitch. Транскрибация аудио, поддержка русского языка, примеры кода на Python.

Команда ModelSwitch25 января 2025 г.6 мин чтения

Whisper — модель автоматического распознавания речи (ASR) от OpenAI, поддерживающая более 90 языков, включая русский. Whisper превосходит большинство коммерческих решений по качеству транскрибации и работает с различными акцентами, диалектами и шумными записями. Через ModelSwitch вы подключаете Whisper API с оплатой в рублях и без регистрации в OpenAI.

Характеристики Whisper API

Параметр	Значение
Модель	whisper-1
Поддерживаемые языки	90+ (включая русский)
Максимальный размер файла	25 МБ
Поддерживаемые форматы	mp3, mp4, mpeg, mpga, m4a, wav, webm
Стоимость	$0.006 за минуту аудио
Режимы	Транскрибация, перевод на английский

Стоимость Whisper API крайне низкая — транскрибация часа аудио обойдётся всего в $0.36. Это делает модель доступной для массовой обработки подкастов, звонков и встреч.

Транскрибация аудио через ModelSwitch

from openai import OpenAI

client = OpenAI(
    base_url="https://api.modelswitch.io/v1",
    api_key="msk_ваш_ключ"
)

# Базовая транскрибация аудиофайла
with open("meeting_recording.mp3", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        language="ru",  # Указываем русский язык для лучшей точности
        response_format="text"
    )

print(transcript)

Для получения транскрипции с таймкодами используйте формат verbose_json:

# Транскрибация с таймкодами
with open("podcast_episode.mp3", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        language="ru",
        response_format="verbose_json",
        timestamp_granularities=["segment"]
    )

for segment in transcript.segments:
    start = segment["start"]
    end = segment["end"]
    text = segment["text"]
    print(f"[{start:.1f}s - {end:.1f}s] {text}")

Примеры использования

Протоколы встреч — автоматическая транскрибация и суммаризация совещаний (Whisper + GPT-4o-mini)
Подкасты — создание текстовых версий эпизодов для SEO
Контакт-центры — транскрибация звонков для анализа качества обслуживания
Образование — создание субтитров для лекций и вебинаров
Медиа — автоматические субтитры для видеоконтента

Комбинируйте Whisper с текстовыми моделями для создания мощных пайплайнов: транскрибируйте аудио через Whisper, затем суммаризируйте через GPT-4o-mini — всё через один API-ключ ModelSwitch.

Заключение

Whisper API — лучшее решение для распознавания речи с поддержкой русского языка. Высокое качество, низкая цена ($0.006/мин) и простая интеграция через ModelSwitch. Зарегистрируйтесь на modelswitch.io и начните транскрибировать аудио через AI.

Whisper API: автоматическое распознавание речи через AI

Команда ModelSwitch25 января 2025 г.6 мин чтения

Характеристики Whisper API

Параметр

Значение

Модель

whisper-1

Поддерживаемые языки

90+ (включая русский)

Максимальный размер файла

25 МБ

Поддерживаемые форматы

mp3, mp4, mpeg, mpga, m4a, wav, webm

Стоимость

$0.006 за минуту аудио

Режимы

Транскрибация, перевод на английский

Транскрибация аудио через ModelSwitch

from openai import OpenAI client = OpenAI( base_url="https://api.modelswitch.io/v1", api_key="msk_ваш_ключ" ) # Базовая транскрибация аудиофайла with open("meeting_recording.mp3", "rb") as audio_file: transcript = client.audio.transcriptions.create( model="whisper-1", file=audio_file, language="ru", # Указываем русский язык для лучшей точности response_format="text" ) print(transcript)

Для получения транскрипции с таймкодами используйте формат verbose_json:

# Транскрибация с таймкодами with open("podcast_episode.mp3", "rb") as audio_file: transcript = client.audio.transcriptions.create( model="whisper-1", file=audio_file, language="ru", response_format="verbose_json", timestamp_granularities=["segment"] ) for segment in transcript.segments: start = segment["start"] end = segment["end"] text = segment["text"] print(f"[{start:.1f}s - {end:.1f}s] {text}")

Примеры использования

Протоколы встреч — автоматическая транскрибация и суммаризация совещаний (Whisper + GPT-4o-mini)

Подкасты — создание текстовых версий эпизодов для SEO

Контакт-центры — транскрибация звонков для анализа качества обслуживания

Образование — создание субтитров для лекций и вебинаров

Медиа — автоматические субтитры для видеоконтента

Заключение

Whisper API: автоматическое распознавание речи через AI

Характеристики Whisper API

Транскрибация аудио через ModelSwitch

Примеры использования

Заключение

Похожие статьи

DALL-E 3 API: генерация изображений через ModelSwitch

TTS API: синтез речи с помощью AI через ModelSwitch

Интеграция AI API в Django и FastAPI: пошаговый гайд

Готовы начать?

Продукт

Разработчикам

Компания

Whisper API: автоматическое распознавание речи через AI

Характеристики Whisper API

Транскрибация аудио через ModelSwitch

Примеры использования

Заключение

Похожие статьи

DALL-E 3 API: генерация изображений через ModelSwitch

TTS API: синтез речи с помощью AI через ModelSwitch

Интеграция AI API в Django и FastAPI: пошаговый гайд

Готовы начать?

Продукт

Разработчикам

Компания