亚搏app官方网站实测翻车？GLM-5基准接近顶级，但确切编程任务仅完成75项引质疑

日前，智谱 GLM-5发布，激勉业界关爱。国外有名科技账号 BridgeMind 发文称，“GLM-5 是一个基准测试很强、但难以在确切职责中生涯的模子”。其示意我方花了一整天技艺进行实测，并公布了多项对比数据。

凭证其露出的数据，在“东说念主工分析智能指数”这一基准测试中，GLM-5收获不低，与Claude Opus 4.5并排50分，仅比Opus 4.6低3分。从这一标的来看，GLM-5在通用材干测试中推崇接近业界头部水平。

{jz:field.toptypename/}

但在Bridge Bench这一强调确切全国编程任务的测试中，后果出现彰着差距。Claude Opus 4.6总分60.1，平均反映技艺8.3秒，完成130个任务中的130个。GPT 5.2 Codex总分58.3，平均反映技艺19.9秒，亚博体育完成129个任务。GLM-5总分为41.5，平均反映技艺达到156.7秒，仅完成约75个任务。

从分类收获看，GLM-5在调试和算法类任务上仍有一定推崇，调试得分70.1，算法61.5，但在安全、生成和UI等表情上彰下落伍，其中UI仅13.1分，安全23.2分。合座完成率和反映速率成为其在骨子缔造环境中的主要短板。

BridgeMind 示意，基准测试收获并弗玉成齐代表模子在坐褥环境中的推崇。他以为，在确切复杂任务下，反映速率、贯通性和任务完成率更具参考价值。

当今干扫数据尚未见官方恢复，也短缺更大限制的第三方交叉考证。但这一测试已激勉不少网友讨论，GLM-5 在确切缔造场景中的推崇是否可靠，仍需更多公开、透明的实测数据接济。

【干系阅读】

关于亚搏