Кейс 01

Липсинк-система — снижение расходов на 99%+ против премиум видео-ИИ

Заменили премиум видео-ИИ ($3–5/мин) на опенсорс-воркфлоу на ComfyUI. То же качество, расходы в центах.

Роль: RTP Agency·Сроки: 6+ месяцев в продакшене·Статус: 3+ коммерческих внедрений
Премиум API видео-ИИ$3–5 / мин
Кастомный ComfyUI-воркфлоуценты / мин
99%+ к расходам

Бизнес-задача

Агентству моушн-дизайна, делающему рекламные креативы, требовалась генерация липсинк-видео в масштабе. Они платили премиум за ведущий проприетарный API — примерно $0.05–0.08 за секунду видео, что выливалось в:

  • $3–5 за минуту сгенерированного видео
  • Десятки долларов за готовый креатив
  • Неподъёмная экономика при их объёме заказов

Помимо стоимости, они упирались в лимиты API, потолок качества и отсутствие кастомизации, что ограничивало их креатив. Нужно было решение заметно дешевле, без зависимости от внешних API и с возможностью подстройки под их задачи.

Наш подход

Большинство команд либо смирились бы с премиум-ценами, либо попытались бы построить собственную модель. Мы пошли третьим путём: построили production-инфраструктуру вокруг лучших опенсорс-моделей ИИ с оптимизированной по стоимости GPU-оркестрацией.

Оценив доступные варианты, мы выбрали Infinity Talk (на базе Wan 2.1) как основу для липсинка. Ключевые причины:

  • Сопоставимой опенсорс-альтернативы на тот момент не было
  • Архитектура на ComfyUI позволяла глубокую кастомизацию через модификации воркфлоу
  • Качество не уступало премиум-API на задачах агентства — а в части сценариев превосходило
  • Можно развернуть на собственном хостинге, полностью убрав зависимость от API

Production-архитектура

Сложность была не в запуске модели, а в доведении до production-уровня.

Мы построили контейнеризированную инфраструктуру деплоя, которая обеспечивает:

  • Интерфейс Telegram-бота (через локальный Bot API сервер для больших медиафайлов сверх стандартных лимитов Telegram)
  • Оркестрацию воркфлоу для пайплайнов ComfyUI
  • Обработку тяжёлых файлов (большие видео на вход и выход)
  • Поллинг и вебхук-интеграцию с GPU-провайдерами
  • Docker-шаблон, который мы переиспользуем на похожих проектах — подставил конфиг, задеплоил, готово за минуты

Дизайн инфраструктуры модульный и повторяемый — с тех пор мы использовали ту же основу Docker-шаблона для деплоя похожих ИИ-пайплайнов другим клиентам с минимальными правками.

Инженерия стоимости

Вот где экономика становится интересной.

Изначальные расходы на премиум-API (их прежнее решение)

  • $3–5 за минуту видео
  • Десятки долларов за готовый креатив
  • Ограничения по лимитам API

Наша первая реализация (self-hosted GPU на VAST AI)

  • $2/час за аренду GPU H200
  • Пакетная обработка: десятки видео в час на одном GPU-инстансе
  • Стоимость видео: копейки вместо долларов

Текущая оптимизированная версия (RunningHub)

  • $15/мес фиксированная подписка для клиента (50K токенов + доступ к премиум-GPU)
  • Фактически безлимитная генерация в рамках практики
  • Стоимость видео в токенах: ~200 токенов (пренебрежимо мало при таком объёме)
Чистое снижение расходов: 99%+ по сравнению с ценами премиум-API при их объёме.

Сам путь оптимизации показывает ключевой консалтинговый принцип: непрерывная итерация по выбору инфраструктуры. Сначала верным ответом был VAST AI, но когда их цены изменились и появились лучшие альтернативы, переход на RunningHub дал ещё один скачок в экономике.

Photo-to-video против video-to-video

Мы реализовали оба режима с осознанным разделением по сценариям:

  • Photo-to-video — быстрее генерация, меньше галлюцинаций, часто выше качество. По умолчанию для большинства задач.
  • Video-to-video — нужен конкретным клиентам с длинным форматом (воркфлоу на 5–10 минут). Изначально этот режим был сломан в доступных реализациях; мы отладили и заставили его работать, что стало ключевым отличием.

Рабочий V2V на тот момент не было ни у кого в опенсорс-сообществе, и следующий клиент нашёл нас напрямую через техническую статью, которую мы опубликовали по реализации Infinity Talk.

Признание и обмен знаниями

Опубликовали подробный технический разбор по реализации Infinity Talk, который получил признание редакции и сильный отклик сообщества. Он стал основным референсом для тех, кто заходит в эту тему, и привёл к прямому привлечению клиентов.

Результат

99%+
Снижение расходов против проприетарного API
6+ мес
Непрерывная работа в продакшене
3
Платных коммерческих внедрения
$15/мес
Текущая стоимость инфраструктуры

Для исходного клиента: тот же объём липсинк-видео за долю прежней стоимости. Никаких лимитов API. Настраиваемый воркфлоу под конкретные креативные задачи. 6+ месяцев непрерывной работы в продакшене.

Более широкий коммерческий эффект: 3 платных внедрения у разных клиентов с разными потребностями. Каждое кастомизировано через модификации воркфлоу (где-то V2V, где-то I2V). Основа инфраструктуры переиспользована на нескольких ИИ-проектах.

Технологический стек

Модели ИИInfinity Talk (на базе Wan 2.1)
Движок воркфлоуComfyUI
GPU-вычисленияVAST AI · RunningHub
ИнтерфейсTelegram Bot API (локальный сервер)
ИнфраструктураDocker · оркестрация на Python

Что это показывает

  • Экспертиза в опенсорс-ИИ на production-уровне — не эксперименты, а коммерческие внедрения
  • Мышление в духе оптимизации расходов — понимание, когда уместны API-сервисы, а когда self-hosted/альтернативные провайдеры дают огромную экономию
  • Мышление о production-инфраструктуре — переиспользуемые Docker-шаблоны, корректная работа с файлами, интеграция с мессенджерами
  • Непрерывное улучшение — готовность менять провайдеров инфраструктуры, когда меняется экономика или возможности
  • Экспертный контент — обмен знаниями генерирует входящие заявки

Похожая задача?

Расскажите, что вы строите — будем рады обсудить.

Обсудить