00:00
Экономисты
Экономисты
USD/RUB
EUR/RUB
Юрлица

GLM 5.1 обошла DeepSeek V3.2 в тестах Veai

Почти в два раза быстрее и на 26% точнее в навигации: модель GLM 5.1 сменила DeepSeek V3.2 в качестве основного инструмента в бенчмарке Veai. Тестирование показало, что обновление решило проблему ложных отчетов об исправлении багов и избыточной многословности, характерной для предыдущих версий системы.

GLM 5.1 обошла DeepSeek V3.2 в тестах Veai

Почти в два раза быстрее и на 26% точнее в навигации: модель GLM 5.1 сменила DeepSeek V3.2 в качестве основного инструмента в бенчмарке Veai. Тестирование показало, что обновление решило проблему ложных отчетов об исправлении багов и избыточной многословности, характерной для предыдущих версий системы.

В ходе испытаний GLM 5.1 показала значительный прогресс в работе с инструментами и навигации по репозиториям. В 26 из 32 задач модель точнее ориентировалась в коде, а показатель успешности редактирования файлов достиг 97,8%. В отличие от предшественника, новая версия реже допускает системные ошибки, такие как ложные заявления об исправлении багов при падающей сборке. Модель стала самостоятельнее в длинных сценариях, избавившись от избыточной многословности, на которую часто жаловались пользователи DeepSeek.

Технические метрики подтверждают качественный скачок: скорость генерации выросла с 40 до 58 токенов в секунду, при этом суммарное время на выполнение тестового набора сократилось с 12,5 до 7,2 тысяч секунд. Несмотря на использование механизмов рассуждения, которые обычно замедляют процесс, полезный результат теперь появляется быстрее. Единственным аспектом, где DeepSeek сохраняет преимущество, остается строгое соблюдение границ вносимых изменений, однако общая эффективность GLM 5.1 в доведении задач до финала оказалась выше.

Поделиться

Комментарии (0)

Оставить комментарий

Пока нет комментариев. Будьте первым!