Мы работаем для Вас!

Время работы: Пн-Пт 10 -17; Сб.-Вск выходной

29.мар.2026

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке.Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод. Так родился концепт Zero-Cost Agent — алгоритмического лома, который симулирует поведение нейросети. Читать далее

Название: Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей
Ссылка на источник: https://habr.com/ru/articles/1016442/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1016442

Возврат к списку

Сообщение в РСконсалт

Логин:
Пароль:
	Запомнить меня

Регистрация
Забыли свой пароль?
Войти как пользователь: