Кейс 03

Metra AI — Production-SaaS для автоматизации контента в Telegram

Построили под ключ SaaS-платформу с мультиагентной LLM-оркестрацией. От архитектуры до запуска за 3 месяца.

Роль: RTP Agency·Сроки: 3 месяца·Статус: Работает, есть платные пользователи·metra-ai.org →

Парсер структурыразбор анатомии, сохранение ссылок

Рерайтер контентапо абзацам, изолированные вызовы

Стилизацияэмодзи и форматирование канала

Валидатор правилправила конкретного канала

Бизнес-задача

Владельцы Telegram-каналов и контент-команды тратят огромное количество времени на ручное создание постов. Стандартные решения либо не подходят под специфику Telegram (Buffer, Hootsuite заточены под Instagram/Twitter), либо опираются на сырой вывод ChatGPT, который выдаёт шаблонный контент низкого качества, требующий долгой ручной правки.

Главная боль: контент-команды тратят 60–80% времени на продакшен вместо стратегии, а качество страдает, потому что сгенерированному ИИ контенту обычно не хватает голоса бренда, контекста канала и актуальности в реальном времени.

Что мы построили

Полноценную SaaS-платформу, автоматизирующую весь процесс работы с контентом в Telegram:

Генерация постов на ИИ с сохранением голоса бренда и лора канала
Система планирования с многоразовыми недельными пресетами
Интеграция данных в реальном времени для новостного контента
Встроенная Telegram-CRM для работы с лидами без раскрытия данных аккаунта владельца
Мультиаккаунтная инфраструктура с несколькими операторами для агентств с множеством каналов

Архитектура: почему мультиагентность, а не один вызов LLM

Ключевая техническая инновация — многоступенчатый пайплайн LLM-оркестрации вместо одиночных вызовов API. Это осознанный архитектурный выбор, основанный на важном инсайте:

LLM плохо работают, когда им дают слишком много одновременных ограничений. Один промпт на 3000 токенов с запросом «перепиши пост в голосе X, с лором Y, в формате Z, по правилам A/B/C» даёт нестабильный результат, потому что внимание размывается между требованиями.

Решение: разложить генерацию поста на специализированные этапы, у каждого — одна чёткая зона ответственности.

Стандартный пайплайн постинга

Парсер структуры — извлекает анатомию поста и сохраняет ссылки (которые премиум-LLM по умолчанию вырезают)
Рерайтер контента — обрабатывает каждый абзац изолированными вызовами, сохраняя структурную целостность
Стилизация — добавляет эмодзи и форматирование под персону канала
Валидатор правил — применяет правила конкретного канала (например, убрать пунктуацию, ограничить длину)

Расширенный пайплайн (генерация с нуля)

Селектор архетипа — выбирает структуру поста по типу контента и параметрам длины
Поблочный генератор — пишет каждую секцию с фокусным контекстом
Применение стиля и форматирования
Валидация по авто-правилам

Такая архитектура устраняет типичные сбои ИИ — галлюцинации посреди текста, расползание структуры, чрезмерное применение лора, поломку формата — которые дают одиночные вызовы LLM.

Ключевые технические находки

1. Слой нормализации промптов

Модель изображений слишком часто отклоняла легитимные промпты — ложные срабатывания на обычных запросах вроде генерации людей. Вместо перехода на более дорогую модель мы построили слой нормализации промптов, который переформулирует безобидный ввод пользователя так, чтобы он не блокировался ошибочно, сохраняя исходный смысл. Это позволило держать качество высоким без хостинга более дорогих альтернатив.

2. Сжатие и перевод лора

Лор канала от пользователя (часто 3000+ токенов неструктурированного текста) сжимается и переводится на язык постинга канала ещё при загрузке. ИИ получает структурированное именно на нужном языке вместо сырого лора — это резко повышает релевантность контента и снижает затраты на токены.

3. Лор как контекст, а не ограничение

В ходе итераций обнаружили, что ИИ чрезмерно применяет лор, если давать его как прямую инструкцию. Спроектировали лор как мягкий контекст, который влияет, но не доминирует над генерацией — контент выходит естественнее.

4. Стратегия выбора премиум-LLM

Выбирали конкретные LLM под конкретные задачи:

Меньше ложных отказов на легитимных пограничных случаях
Лучшая интеграция новостей в реальном времени через API в духе Perplexity
Оптимизация затрат на масштабе

Инфраструктура

Несколько серверов Ubuntu в продакшене (основной сервис, CRM, стейджинг)
16 Docker-контейнеров с грамотным разделением ответственности
Бэкенд как единый источник истины — все запросы клиента идут через бэкенд, никогда напрямую к ИИ-провайдерам или БД
Стек мониторинга: Prometheus, Grafana, Sentry для ошибок, Uptime Kuma для здоровья сервисов
Шифрование: все чувствительные данные (номера телефонов, сообщения, пароли) зашифрованы с корректным salt+pepper и GPU-устойчивым хешированием. Ключи расшифровки хранятся вне сервера.
Безопасность: 2FA, ротация JWT, фингерпринтинг сессий, проксирование доменов

Результат

3 мес

От разработки до запуска

Docker-контейнеров в продакшене

1-я неделя

Первые платные пользователи

25/день

Авто-постов на канал на платном тарифе

Запустили в продакшен в рамках 3-месячного окна разработки. Мультиаккаунтная CRM позволяет агентствам управлять операторами без раскрытия данных владельца канала. Активная ранняя тяга с растущей базой пользователей.

Технологический стек

Бэкенд	FastAPI · Python · Celery
Фронтенд	React · TypeScript · Next.js
База данных	PostgreSQL · Redis
Инфраструктура	Docker · Nginx · Multiple Ubuntu servers
Мониторинг	Prometheus · Grafana · Sentry · Uptime Kuma
ИИ / LLM	Мультипровайдерный стек (проприетарный + опенсорс)

Что это демонстрирует

Умение спроектировать и построить production-SaaS под ключ
Глубокое понимание ограничений LLM и как обойти их архитектурой
Безопасность и инфраструктура production-уровня
Прагматичная оптимизация затрат на уровне архитектуры
Сквозное продуктовое мышление: бизнес-задача → техническое решение → деплой → эксплуатация

Похожая задача?

Расскажите, что вы строите — будем рады обсудить.

Обсудить →

← Назад: Black Camel Productions Далее: Липсинк-система →