TTS (Text-to-Speech) API от OpenAI — это сервис синтеза речи, который преобразует текст в естественно звучащую речь. В отличие от классических TTS-систем, AI-модели OpenAI создают речь, практически неотличимую от человеческой, с правильными интонациями, паузами и эмоциональной окраской. Через ModelSwitch вы подключаете TTS API с оплатой в рублях.
Характеристики TTS API
| Параметр | tts-1 | tts-1-hd |
|---|---|---|
| Качество | Стандартное | Высокое (HD) |
| Задержка | Низкая | Выше |
| Стоимость | $15.00 за 1M символов | $30.00 за 1M символов |
| Голоса | alloy, echo, fable, onyx, nova, shimmer | alloy, echo, fable, onyx, nova, shimmer |
| Форматы вывода | mp3, opus, aac, flac, wav, pcm | mp3, opus, aac, flac, wav, pcm |
| Макс. длина текста | 4096 символов | 4096 символов |
Модель tts-1 оптимизирована для работы в реальном времени (низкая задержка), а tts-1-hd — для максимального качества звучания. Оба варианта поддерживают русский язык.
Генерация речи через ModelSwitch
from openai import OpenAI
from pathlib import Path
client = OpenAI(
base_url="https://api.modelswitch.ru/v1",
api_key="msk_ваш_ключ"
)
# Базовый синтез речи
response = client.audio.speech.create(
model="tts-1",
voice="nova", # Женский голос, подходит для русского языка
input="Добро пожаловать в ModelSwitch. Единый API для всех AI-моделей с оплатой в рублях.",
response_format="mp3",
speed=1.0
)
# Сохранение в файл
speech_file = Path("welcome.mp3")
response.stream_to_file(speech_file)
print(f"Аудиофайл сохранён: {speech_file}")
Для потокового воспроизведения в реальном времени:
# Потоковый синтез для чат-бота
response = client.audio.speech.create(
model="tts-1",
voice="alloy",
input="Ваш заказ номер 12345 успешно оформлен. Доставка ожидается завтра с 10 до 14 часов.",
response_format="opus" # Opus — оптимальный формат для стриминга
)
# Потоковая запись
with open("notification.opus", "wb") as f:
for chunk in response.iter_bytes():
f.write(chunk)
Описание голосов
- alloy — нейтральный, универсальный голос
- echo — низкий мужской голос, подходит для аудиокниг
- fable — выразительный голос для нарративного контента
- onyx — глубокий мужской голос, подходит для новостей и подкастов
- nova — женский голос, дружелюбный тон, хорош для чат-ботов
- shimmer — мягкий женский голос, подходит для медитаций и обучения
Сценарии применения
- Голосовые уведомления — автоматические звуковые оповещения в приложениях
- Аудиокниги — озвучивание текстового контента для аудиоформата
- Голосовые чат-боты — комбинация с Whisper (speech-to-text) и GPT-4o для полного голосового диалога
- Образование — озвучивание учебных материалов, создание аудиокурсов
- Accessibility — озвучивание интерфейсов и контента для людей с нарушениями зрения
Заключение
TTS API от OpenAI через ModelSwitch — простой способ добавить синтез речи в ваши приложения. Шесть голосов, поддержка русского языка, низкая задержка для real-time сценариев. Зарегистрируйтесь на modelswitch.ru и начните генерировать речь через AI.