Ліпсинк-система — зниження витрат на 99%+ проти преміум відео-ШІ
Замінили преміум відео-ШІ ($3–5/хв) на опенсорс-воркфлоу на ComfyUI. Та сама якість, витрати в центах.
Роль: RTP Agency·Терміни: 6+ місяців у продакшені·Статус: 3+ комерційних впроваджень
Преміум API відео-ШІ$3–5 / хв
Кастомний ComfyUI-воркфлоуценти / хв
−99%+ до витрат
Бізнес-задача
Агенції моушн-дизайну, яка робить рекламні креативи, потрібна була генерація ліпсинк-відео в масштабі. Вони платили преміум за провідний пропрієтарний API — приблизно $0.05–0.08 за секунду відео, що виливалося в:
- $3–5 за хвилину згенерованого відео
- Десятки доларів за готовий креатив
- Непідйомна економіка за їхнього обсягу замовлень
Окрім вартості, вони впиралися в ліміти API, стелю якості та відсутність кастомізації, що обмежувало їхній креатив. Потрібне було рішення помітно дешевше, без залежності від зовнішніх API і з можливістю підлаштування під їхні задачі.
Наш підхід
Більшість команд або змирилися б із преміум-цінами, або спробували б побудувати власну модель. Ми пішли третім шляхом: побудували production-інфраструктуру навколо найкращих опенсорс-моделей ШІ з оптимізованою за вартістю GPU-оркестрацією.
Оцінивши доступні варіанти, ми обрали Infinity Talk (на базі Wan 2.1) як основу для ліпсинку. Ключові причини:
- Зіставної опенсорс-альтернативи на той момент не було
- Архітектура на ComfyUI дозволяла глибоку кастомізацію через модифікації воркфлоу
- Якість не поступалася преміум-API на задачах агенції — а в частині сценаріїв перевершувала
- Можна розгорнути на власному хостингу, повністю прибравши залежність від API
Production-архітектура
Складність була не в запуску моделі, а в доведенні до production-рівня.
Ми побудували контейнеризовану інфраструктуру деплою, яка забезпечує:
- Інтерфейс Telegram-бота (через локальний Bot API сервер для великих медіафайлів понад стандартні ліміти Telegram)
- Оркестрацію воркфлоу для пайплайнів ComfyUI
- Обробку важких файлів (великі відео на вхід і вихід)
- Полінг і вебхук-інтеграцію з GPU-провайдерами
- Docker-шаблон, який ми повторно використовуємо на схожих проєктах — підставив конфіг, задеплоїв, готово за хвилини
Дизайн інфраструктури модульний і повторюваний — відтоді ми використовували ту саму основу Docker-шаблону для деплою схожих ШІ-пайплайнів іншим клієнтам з мінімальними правками.
Інженерія вартості
Ось де економіка стає цікавою.
Початкові витрати на преміум-API (їхнє колишнє рішення)
- $3–5 за хвилину відео
- Десятки доларів за готовий креатив
- Обмеження за лімітами API
Наша перша реалізація (self-hosted GPU на VAST AI)
- $2/год за оренду GPU H200
- Пакетна обробка: десятки відео на годину на одному GPU-інстансі
- Вартість відео: копійки замість доларів
Поточна оптимізована версія (RunningHub)
- $15/міс фіксована підписка для клієнта (50K токенів + доступ до преміум-GPU)
- Фактично безлімітна генерація в межах практики
- Вартість відео в токенах: ~200 токенів (знехтувано мало за такого обсягу)
Чисте зниження витрат: 99%+ порівняно з цінами преміум-API за їхнього обсягу.
Сам шлях оптимізації показує ключовий консалтинговий принцип: безперервна ітерація щодо вибору інфраструктури. Спочатку правильною відповіддю був VAST AI, але коли їхні ціни змінилися і з'явилися кращі альтернативи, перехід на RunningHub дав ще один стрибок в економіці.
Photo-to-video проти video-to-video
Ми реалізували обидва режими з усвідомленим розділенням за сценаріями:
- Photo-to-video — швидша генерація, менше галюцинацій, часто вища якість. За замовчуванням для більшості задач.
- Video-to-video — потрібен конкретним клієнтам із довгим форматом (воркфлоу на 5–10 хвилин). Спочатку цей режим був зламаний у доступних реалізаціях; ми відлагодили і змусили його працювати, що стало ключовою відмінністю.
Робочого V2V на той момент не було ні в кого в опенсорс-спільноті, і наступний клієнт знайшов нас напряму через технічну статтю, яку ми опублікували щодо реалізації Infinity Talk.
Визнання та обмін знаннями
Опублікували докладний технічний розбір щодо реалізації Infinity Talk, який отримав визнання редакції та сильний відгук спільноти. Він став основним референсом для тих, хто заходить у цю тему, і привів до прямого залучення клієнтів.
Результат
99%+
Зниження витрат проти пропрієтарного API
6+ міс
Безперервна робота в продакшені
3
Платних комерційних впровадження
$15/міс
Поточна вартість інфраструктури
Для вихідного клієнта: той самий обсяг ліпсинк-відео за частку колишньої вартості. Жодних лімітів API. Налаштовуваний воркфлоу під конкретні креативні задачі. 6+ місяців безперервної роботи в продакшені.
Ширший комерційний ефект: 3 платних впровадження у різних клієнтів із різними потребами. Кожне кастомізовано через модифікації воркфлоу (десь V2V, десь I2V). Основа інфраструктури повторно використана на кількох ШІ-проєктах.
Технологічний стек
| Моделі ШІ | Infinity Talk (на базі Wan 2.1) |
| Рушій воркфлоу | ComfyUI |
| GPU-обчислення | VAST AI · RunningHub |
| Інтерфейс | Telegram Bot API (локальний сервер) |
| Інфраструктура | Docker · оркестрація на Python |
Що це демонструє
- Експертиза в опенсорс-ШІ на production-рівні — не експерименти, а комерційні впровадження
- Мислення в дусі оптимізації витрат — розуміння, коли доречні API-сервіси, а коли self-hosted/альтернативні провайдери дають величезну економію
- Мислення про production-інфраструктуру — повторно використовувані Docker-шаблони, коректна робота з файлами, інтеграція з месенджерами
- Безперервне покращення — готовність міняти провайдерів інфраструктури, коли змінюється економіка або можливості
- Експертний контент — обмін знаннями генерує вхідні заявки