TCO (Total Cost of Ownership) AI-инфраструктуры — это полная стоимость владения системой для обработки AI-запросов, включая не только прямые затраты (серверы, токены), но и косвенные (персонал, поддержка, простои). Существуют три основных подхода: облачные GPU, собственные серверы и готовые API. Разберём каждый.
Три подхода к AI-инфраструктуре
Подход 1: Собственные серверы (on-premise). Вы покупаете серверы с GPU (NVIDIA A100/H100), устанавливаете open-source модели (Llama, Mistral) и обслуживаете всё самостоятельно.
Подход 2: Облачные GPU (cloud). Вы арендуете GPU-инстансы (AWS, GCP, Yandex Cloud) и запускаете на них модели. Нет капитальных затрат, но есть ежемесячная арендная плата.
Подход 3: Готовые API (managed). Вы используете API от OpenAI, Anthropic, Google (или через единый шлюз ModelSwitch) и платите за токены. Никакой инфраструктуры.
Сравнение TCO для 100 000 запросов в день
Рассмотрим сценарий: 100 000 запросов в день, средний запрос 1 000 input + 500 output токенов, модель уровня GPT-4o / Llama 3.1 70B.
| Статья расходов | Свои серверы | Облачные GPU | API (ModelSwitch) |
|---|---|---|---|
| Оборудование / Аренда | 5 000 000 руб. (CAPEX) | 450 000 руб./мес | 0 руб. |
| Стоимость inference | Электричество ~80 000 руб./мес | Входит в аренду | ~180 000 руб./мес |
| DevOps / ML-инженер | 250 000 руб./мес | 200 000 руб./мес | 0 руб. |
| Обслуживание, обновления | 50 000 руб./мес | 30 000 руб./мес | 0 руб. |
| Итого (первый год) | ~9 560 000 руб. | ~8 160 000 руб. | ~2 160 000 руб. |
| Стоимость за запрос | ~2.6 руб. | ~2.2 руб. | ~0.6 руб. |
Готовый API через ModelSwitch обходится в 3–4 раза дешевле собственной инфраструктуры для данного объёма.
Когда какой подход выбрать
Готовый API (ModelSwitch) подходит, когда:
- Объём до 500 000 запросов в день — API экономически эффективнее
- Нужен доступ к проприетарным моделям (GPT-4o, Claude, Gemini)
- Нет ML-команды для обслуживания инфраструктуры
- Важна скорость запуска (минуты, а не месяцы)
- Нужна гибкость — переключение между моделями без деплоя
Облачные GPU подходят, когда:
- Объём от 500 000 запросов в день и выше
- Данные не могут покидать ваш контур (compliance)
- Нужен fine-tuning собственных моделей
- Есть ML-команда из 2+ человек
Свои серверы подходят, когда:
- Объём от 1 000 000 запросов в день
- Строгие требования к безопасности (гос. сектор, военка)
- Горизонт планирования 3+ года — CAPEX окупится
- Есть ML- и DevOps-команда
Гибридный подход: лучшее из двух миров
Многие компании комбинируют подходы:
- Open-source модели на своих GPU — для типовых задач (классификация, embeddings), где Llama 3.1 8B достаточно
- Проприетарные модели через API — для сложных задач (генерация, анализ), где нужен GPT-4o или Claude
ModelSwitch позволяет реализовать гибридный подход: используйте наш API для проприетарных моделей и свою инфраструктуру для open-source. Единый формат запросов упрощает маршрутизацию между ними.