Как мы отсеиваем 95% мусора из Telegram-чатов до того, как сообщение попадёт в LLM
Купить в 1 клик

Не хватает прав доступа к веб-форме.

Спасибо за заказ!
Ошибка!
В ближайшее время наш менеджер свяжется с вами.

Мы работаем для Вас!

Время работы:  Пн-Пт   10 -17; Сб.-Вск  выходной

1280x800 532x281
16.мар.2026

Как мы отсеиваем 95% мусора из Telegram-чатов до того, как сообщение попадёт в LLM

Привет, Хабр! Меня зовут Артём, я фаундер Leadl.ai. Мы строим AI-агента для поиска b2b-клиентов, и одна из его ключевых задач это мониторинг чатов и различных источников.Звучит просто, пока не сталкиваешься с масштабом.У нас в пуле 20000+ чатов в 15 источниках. Суммарно около 1000 000 000 сообщений в сутки. Из них реально полезных (запросы на услуги, поиск подрядчиков, вакансии) от силы 3-5%. Остальное: флуд, криптоспам, «доброе утро», мемы и бесконечные стикеры.Задача: вытащить эти 3-5% качественных сообщений. Первой мыслью было отдать всё на откуп большой LLM типа GPT-4o. Посчитали. Среднее сообщение 50 токенов. 100 000 сообщений  50 токенов/сообщение  ($10 / 1M токенов) = $50 в день только на input. Добавьте сюда output и prompt — и счёт легко перевалит за $100-150/день или $3000-4500/месяц. Для стартапа это путь в никуда.Нам нужен был pipeline, который бы отсеивал мусор на ранних этапах, чтобы до дорогого LLM-скоринга доходило не более 5-10% от всего потока. Вот как мы его построили, через какие грабли прошли и что из этого вышло. Читать далее

Название: Как мы отсеиваем 95% мусора из Telegram-чатов до того, как сообщение попадёт в LLM
Ссылка на источник:  https://habr.com/ru/articles/1010890/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1010890

Возврат к списку