GLM 5.1 обошла DeepSeek V3.2 в тестах Veai

Почти в два раза быстрее и на 26% точнее в навигации: модель GLM 5.1 сменила DeepSeek V3.2 в качестве основного инструмента в бенчмарке Veai. Тестирование показало, что обновление решило проблему ложных отчетов об исправлении багов и избыточной многословности, характерной для предыдущих версий системы.

24 апр, 14:52· Корп&Co· 4 872 прочт.

GLM 5.1 обошла DeepSeek V3.2 в тестах Veai

В ходе испытаний GLM 5.1 показала значительный прогресс в работе с инструментами и навигации по репозиториям. В 26 из 32 задач модель точнее ориентировалась в коде, а показатель успешности редактирования файлов достиг 97,8%. В отличие от предшественника, новая версия реже допускает системные ошибки, такие как ложные заявления об исправлении багов при падающей сборке. Модель стала самостоятельнее в длинных сценариях, избавившись от избыточной многословности, на которую часто жаловались пользователи DeepSeek.

Технические метрики подтверждают качественный скачок: скорость генерации выросла с 40 до 58 токенов в секунду, при этом суммарное время на выполнение тестового набора сократилось с 12,5 до 7,2 тысяч секунд. Несмотря на использование механизмов рассуждения, которые обычно замедляют процесс, полезный результат теперь появляется быстрее. Единственным аспектом, где DeepSeek сохраняет преимущество, остается строгое соблюдение границ вносимых изменений, однако общая эффективность GLM 5.1 в доведении задач до финала оказалась выше.

GLM 5.1 обошла DeepSeek V3.2 в тестах Veai

Комментарии (0)

Оставить комментарий

GLM 5.1 обошла DeepSeek V3.2 в тестах Veai

Похожие материалы

Комментарии (0)

Оставить комментарий