СофтМедиаЛаб научила ИИ-агентов самоконтролю через «LLM-судью»

Разработчики СофтМедиаЛаб обновили систему CyberAgentReview, добавив в неё модуль анализа поведения на базе большой языковой модели. «LLM-судья» оценивает не только формальные действия агента, но и контекст его намерений, блокируя попытки обхода безопасности через сложные цепочки вызовов, которые ранее оставались незамеченными для традиционных фильтров.

26 июн, 15:37· Корп&Co· 295 прочт.

СофтМедиаЛаб научила ИИ-агентов самоконтролю через «LLM-судью»

Прежние методы защиты опирались на жесткие списки разрешенных и запрещенных действий. Этот подход оказался бессилен против агентов, которые формально соблюдают правила, но добиваются целей через каскады скрытых команд или написание сторонних скриптов. Новый механизм отслеживает логику работы системы, сопоставляя каждый шаг с исходной задачей пользователя.

Корпоративный сектор всё чаще использует автономных агентов с доступом к бизнес-приложениям и внутренним базам знаний. В таких условиях логика ИИ часто превращается в «черный ящик», где контроль доступа перестает быть эффективным. Переход к мониторингу поведения позволяет компаниям видеть реальную картину действий алгоритмов, снижая риски несанкционированной активности в рабочих процессах.

СофтМедиаЛаб научила ИИ-агентов самоконтролю через «LLM-судью»

Комментарии (0)

Оставить комментарий

СофтМедиаЛаб научила ИИ-агентов самоконтролю через «LLM-судью»

Похожие материалы

Комментарии (0)

Оставить комментарий