Кейс 03

Motion Control воркфлоу — зниження витрат на 84% проти преміум відео-ШІ

Замінили преміум-сервіси motion control на опенсорс-воркфлоу на ComfyUI. Близько $12 000 річної економії на клієнта на масштабі продакшену — і можливості, яких немає у преміум-сервісів.

Роль: RTP Agency·Терміни: 4–5 місяців у продакшені·Статус: Працює з 2 комерційними клієнтами
Kling 2.6 (преміум)$1.20 / відео
Кастомний воркфлоу на Wan 2.2$0.19 / відео
84% до витрат

Бізнес-задача

Агенції цифрового контенту потрібно було виробляти відео в промисловому масштабі — сотні й тисячі роликів на місяць. Вони розглядали преміум відео-ШІ-сервіси (Kling 2.6 і подібні) для генерації відео з motion control, де рухи вихідного відео переносяться на цільового персонажа.

Економіка була жорсткою:

  • Преміум-сервіси беруть $0.21–$1.20 за генерацію для motion control (3.5–20 кредитів по ~$0.06–0.08 за кредит)
  • За їхнього обсягу (1000+ відео на місяць, мета — 100 відео на годину під час продакшен-спринтів) це виливалося в тисячі доларів на місяць лише за ШІ-генерацію
  • Кредитні ліміти не давали масштабуватися під реальні потреби з випуску
  • Контент-політики преміум-сервісів обмежували, що взагалі можна згенерувати

Їм потрібна була генерація відео промислового масштабу, водночас радикально дешевше і операційно гнучка.

Що було складним

Motion control нетривіально відтворити. Технологія вимагає:

  • Детекція скелета/пози з вихідного відео
  • Сегментація персонажа, що точно працює зі складним рухом
  • Перенесення руху зі збереженням і дії, і візуальної зв'язності
  • Обробка фону і контексту, щоб результат виглядав природно

Більшість преміум-сервісів (Kling, Hailuo, RunwayML) зробили motion control пропрієтарною фічею і беруть за неї відповідно. Опенсорс-аналоги існували, але були або зламані, або важкознаходжувані, або вимагали глибокої експертизи в ComfyUI, щоб довести до production.

Наш підхід

Після широкого ресерчу і тестів ми визначили, що Wan 2.2 — старіша, але недооцінена опенсорс-модель — здатна повторити якість преміум motion control за правильної архітектури воркфлоу на ComfyUI.

Складність: наявні воркфлоу були або зламані, або вимагали ручної сегментації (вручну відмічати, де персонаж на кожному кадрі — цілковито непрактично в масштабі).

Ітерація 1

Отримали зламаний воркфлоу, напханий незрозумілими моделями і невикористовуваними LoRA. Зрізали до робочих компонентів, але сегментація все ще вимагала ручної покадрової розмітки. У масштабі продакшену неробочий варіант.

Ітерація 2

Після додаткового ресерчу знайшли кращий воркфлоу з автоматичними моделями сегментації. Кастомізували і стабілізували під продакшен. Це і стало production-версією.

Поточні доопрацювання

  • Вбудували саб-воркфлоу апскейлу відео для підвищення якості
  • Додали інтерполяцію кадрів (плавний вивід 30fps → 60fps)
  • Побудували навколо RunningHub API з паралельною обробкою по кількох ключах
  • Обробили межові випадки (розбіжності з об'єктами між вихідним рухом і цільовим персонажем)

Production-архітектура

  • Воркфлоу ComfyUI на GPU-обчисленнях RunningHub
  • GPU класу RTX 5080 достатньо для навантаження (преміум-залізо не потрібне)
  • 5 паралельних задач на API-ключ, мульти-ключова схема для масштабування понад ліміти одного акаунта
  • Час генерації: ~20 хвилин обчислень на відео на стандартному тарифі
  • Вбудовано в ширший контент-пайплайн (як модуль усередині великої системи автоматичного виробництва контенту)
  • Доступно через кілька інтерфейсів — Telegram-боти, веб-інтерфейс або напряму ComfyUI для просунутих користувачів

Порівняння можливостей: не просто дешевше, а інші можливості

Окрім вартості, у преміум-сервісів є жорсткі технічні ліміти, що обмежують комерційне використання:

Обмеження преміум-сервісу (Kling 2.6 Motion Control)

  • Максимум 30 секунд за одну безперервну генерацію
  • Витрата кредитів зростає з тривалістю (довше = експоненційно дорожче)
  • Обмеження контент-політики на низку комерційних сценаріїв

Наша реалізація

  • Немає жорсткого ліміту тривалості — довжина відео обмежена лише доступним GPU-часом
  • Можна генерувати відео на 1, 2, 10+ хвилин однією безперервною генерацією
  • Та сама економіка вартості за секунду, лінійно масштабована з тривалістю
  • Жодних тертів із контент-політикою для легітимної комерційної роботи
Для довгого контенту це не оптимізація — це прогалина у можливостях, яку преміум-сервіси попросту не закривають.

Інженерія вартості — математика

Структура цін RunningHub

  • $0.0004 за коїн
  • 24 коїни за хвилину GPU-часу
  • ~$0.01 за хвилину обчислень

Вартість відео для типового 30-секундного ролика

20 хвилин GPU-часу на відео → 480 коїнів → ~$0.19 за відео

Порівняння з Kling 2.6 motion control (те саме 30-секундне відео)

15–20 кредитів за генерацію × $0.06–0.08 за кредит → ~$0.90–$1.60 за відео (середина ~$1.20)

За реального обсягу продакшену клієнта

Зниження вартості за відео — це заголовок, але сукупна цінність складається з трьох підсилюючих один одного факторів: зниження витрат на 84%, зняття лімітів тривалості, що відкриває формати контенту, які конкуренти не можуть зробити, і операційна гнучкість за рахунок паралельної обробки по кількох ключах.

Порівняння якості

Чесна відповідь: якість не поступається Kling для production-сценарію, місцями краща.

Де преміум-сервіси трохи виграють: межові випадки з незвичними об'єктами (наприклад, у вихідному відео людина тримає коробку, а в цільового персонажа її немає — обидві системи тут можуть давати артефакти, розв'язується попереднім правленням вихідного зображення).

Де наша реалізація не поступається або перевершує: стандартні сценарії перенесення руху, а це 95%+ обсягу продакшену.

Обидва іноді галюцинують. Це очікувана поведінка для поточного покоління відео-ШІ — ні преміум, ні опенсорс не вільні від галюцинацій.

Здобута експертиза

На цьому проєкті ми напрацювали глибоку експертизу в:

  • Архітектурі воркфлоу ComfyUI — включно з відлагодженням, управлінням бібліотеками та екосистемою ComfyUI Manager
  • Можливостях опенсорс відео-моделей — зокрема, сильних і слабких сторонах Wan 2.2 (чудово для перенесення руху, слабше для генерації з нуля)
  • Оптимізації GPU-ресурсів — отримання production-якості на споживчих GPU замість корпоративного заліза
  • Інтеграції пост-обробки відео — апскейл і інтерполяція кадрів, вбудовані в основний воркфлоу генерації
  • Стабілізації продакшену — робота з неминучими поломками, коли мейнтейнери кастомних нод міняють репозиторії, версії моделей застарівають тощо

Результат

84%
Зниження витрат на масштабі продакшену
~$12K
Річна економія на клієнта
~$0.19
Вартість відео при 30-сек ролику
100+/год
Мета промислової пропускної здатності
  • 4–5 місяців безперервної роботи в продакшені у 2 комерційних клієнтів в активному виробництві контенту
  • Промисловий випуск — підтримка цільової пропускної здатності 100+ відео на годину
  • Можливості понад преміум-сервіси — немає ліміту в 30 секунд на довжину відео
  • Інтегрована основа для ширшого пайплайну автоматичного виробництва контенту
  • Операційна гнучкість — без обмежень контент-політики та кредитних лімітів понад ємність інфраструктури

Технологічний стек

Модель ШІWan 2.2 (опенсорс)
Рушій воркфлоуComfyUI
СегментаціяАвтоматичні моделі сегментації
GPU-обчисленняRunningHub (клас RTX 5080)
Обробка відеоFFmpeg
Пост-обробкаАпскейл · Інтерполяція кадрів

Що це демонструє

  • Глибока експертиза в опенсорс-ШІ — пошук, відлагодження і доведення до продакшену воркфлоу, які не задокументовані і маловідомі
  • Мислення в дусі арбітражу вартості — бачити, коли преміум-сервіси беруть долари за можливості, які опенсорс дає за центи
  • Пошук прогалин у можливостях — знаходити бізнес-цінність у тому, чого преміум-сервіси взагалі не дають (довгий motion control)
  • Production-інженерія — перетворювати зламані або непрактичні воркфлоу на промислово надійні
  • Архітектура воркфлоу — зв'язування кількох етапів обробки (motion control + сегментація + апскейл + інтерполяція) у зв'язні production-пайплайни
  • Оптимізація GPU-обчислень — production-результати на споживчому рівні заліза

Схожа задача?

Розкажіть, що ви будуєте — будемо раді обговорити.

Обговорити