TTS (Text-to-Speech) API от OpenAI — это сервис синтеза речи, который преобразует текст в естественно звучащую речь. В отличие от классических TTS-систем, AI-модели OpenAI создают речь, практически неотличимую от человеческой, с правильными интонациями, паузами и эмоциональной окраской. Через ModelSwitch вы подключаете TTS API с оплатой в рублях.

Характеристики TTS API

Параметр	tts-1	tts-1-hd
Качество	Стандартное	Высокое (HD)
Задержка	Низкая	Выше
Стоимость	$15.00 за 1M символов	$30.00 за 1M символов
Голоса	alloy, echo, fable, onyx, nova, shimmer	alloy, echo, fable, onyx, nova, shimmer
Форматы вывода	mp3, opus, aac, flac, wav, pcm	mp3, opus, aac, flac, wav, pcm
Макс. длина текста	4096 символов	4096 символов

Модель tts-1 оптимизирована для работы в реальном времени (низкая задержка), а tts-1-hd — для максимального качества звучания. Оба варианта поддерживают русский язык.

Генерация речи через ModelSwitch

from openai import OpenAI
from pathlib import Path

client = OpenAI(
    base_url="https://api.modelswitch.io/v1",
    api_key="msk_ваш_ключ"
)

# Базовый синтез речи
response = client.audio.speech.create(
    model="tts-1",
    voice="nova",  # Женский голос, подходит для русского языка
    input="Добро пожаловать в ModelSwitch. Единый API для всех AI-моделей с оплатой в рублях.",
    response_format="mp3",
    speed=1.0
)

# Сохранение в файл
speech_file = Path("welcome.mp3")
response.stream_to_file(speech_file)
print(f"Аудиофайл сохранён: {speech_file}")

Для потокового воспроизведения в реальном времени:

# Потоковый синтез для чат-бота
response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input="Ваш заказ номер 12345 успешно оформлен. Доставка ожидается завтра с 10 до 14 часов.",
    response_format="opus"  # Opus — оптимальный формат для стриминга
)

# Потоковая запись
with open("notification.opus", "wb") as f:
    for chunk in response.iter_bytes():
        f.write(chunk)

Описание голосов

alloy — нейтральный, универсальный голос
echo — низкий мужской голос, подходит для аудиокниг
fable — выразительный голос для нарративного контента
onyx — глубокий мужской голос, подходит для новостей и подкастов
nova — женский голос, дружелюбный тон, хорош для чат-ботов
shimmer — мягкий женский голос, подходит для медитаций и обучения

Сценарии применения

Голосовые уведомления — автоматические звуковые оповещения в приложениях
Аудиокниги — озвучивание текстового контента для аудиоформата
Голосовые чат-боты — комбинация с Whisper (speech-to-text) и GPT-4o для полного голосового диалога
Образование — озвучивание учебных материалов, создание аудиокурсов
Accessibility — озвучивание интерфейсов и контента для людей с нарушениями зрения

Заключение

TTS API от OpenAI через ModelSwitch — простой способ добавить синтез речи в ваши приложения. Шесть голосов, поддержка русского языка, низкая задержка для real-time сценариев. Зарегистрируйтесь на modelswitch.io и начните генерировать речь через AI.

Характеристики TTS API

Параметр

tts-1

tts-1-hd

Качество

Стандартное

Высокое (HD)

Задержка

Низкая

Выше

Стоимость

$15.00 за 1M символов

$30.00 за 1M символов

Голоса

alloy, echo, fable, onyx, nova, shimmer

Форматы вывода

mp3, opus, aac, flac, wav, pcm

Макс. длина текста

4096 символов

Генерация речи через ModelSwitch

from openai import OpenAI from pathlib import Path client = OpenAI( base_url="https://api.modelswitch.io/v1", api_key="msk_ваш_ключ" ) # Базовый синтез речи response = client.audio.speech.create( model="tts-1", voice="nova", # Женский голос, подходит для русского языка input="Добро пожаловать в ModelSwitch. Единый API для всех AI-моделей с оплатой в рублях.", response_format="mp3", speed=1.0 ) # Сохранение в файл speech_file = Path("welcome.mp3") response.stream_to_file(speech_file) print(f"Аудиофайл сохранён: {speech_file}")

Для потокового воспроизведения в реальном времени:

# Потоковый синтез для чат-бота response = client.audio.speech.create( model="tts-1", voice="alloy", input="Ваш заказ номер 12345 успешно оформлен. Доставка ожидается завтра с 10 до 14 часов.", response_format="opus" # Opus — оптимальный формат для стриминга ) # Потоковая запись with open("notification.opus", "wb") as f: for chunk in response.iter_bytes(): f.write(chunk)

Описание голосов

alloy — нейтральный, универсальный голос

echo — низкий мужской голос, подходит для аудиокниг

fable — выразительный голос для нарративного контента

onyx — глубокий мужской голос, подходит для новостей и подкастов

nova — женский голос, дружелюбный тон, хорош для чат-ботов

shimmer — мягкий женский голос, подходит для медитаций и обучения

Сценарии применения

Голосовые уведомления — автоматические звуковые оповещения в приложениях

Аудиокниги — озвучивание текстового контента для аудиоформата

Голосовые чат-боты — комбинация с Whisper (speech-to-text) и GPT-4o для полного голосового диалога

Образование — озвучивание учебных материалов, создание аудиокурсов

Accessibility — озвучивание интерфейсов и контента для людей с нарушениями зрения

Заключение

TTS API: синтез речи с помощью AI через ModelSwitch

Характеристики TTS API

Генерация речи через ModelSwitch

Описание голосов

Сценарии применения

Заключение

Похожие статьи

DALL-E 3 API: генерация изображений через ModelSwitch

Whisper API: автоматическое распознавание речи через AI

Интеграция AI API в Django и FastAPI: пошаговый гайд

Готовы начать?

Продукт

Разработчикам

Компания

TTS API: синтез речи с помощью AI через ModelSwitch

Характеристики TTS API

Генерация речи через ModelSwitch

Описание голосов

Сценарии применения

Заключение

Похожие статьи

DALL-E 3 API: генерация изображений через ModelSwitch

Whisper API: автоматическое распознавание речи через AI

Интеграция AI API в Django и FastAPI: пошаговый гайд

Готовы начать?

Продукт

Разработчикам

Компания