
日前,智谱 GLM-5发布,激勉业界关爱。国外有名科技账号 BridgeMind 发文称,“GLM-5 是一个基准测试很强、但难以在确切职责中生涯的模子”。其示意我方花了一整天技艺进行实测,并公布了多项对比数据。

凭证其露出的数据,在“东说念主工分析智能指数”这一基准测试中,GLM-5收获不低,与Claude Opus 4.5并排50分,仅比Opus 4.6低3分。从这一标的来看,GLM-5在通用材干测试中推崇接近业界头部水平。
{jz:field.toptypename/}但在Bridge Bench这一强调确切全国编程任务的测试中,后果出现彰着差距。Claude Opus 4.6总分60.1,平均反映技艺8.3秒,完成130个任务中的130个。GPT 5.2 Codex总分58.3,平均反映技艺19.9秒,亚博体育完成129个任务。GLM-5总分为41.5,平均反映技艺达到156.7秒,仅完成约75个任务。
从分类收获看,GLM-5在调试和算法类任务上仍有一定推崇,调试得分70.1,算法61.5,但在安全、生成和UI等表情上彰下落伍,其中UI仅13.1分,安全23.2分。合座完成率和反映速率成为其在骨子缔造环境中的主要短板。
BridgeMind 示意,基准测试收获并弗玉成齐代表模子在坐褥环境中的推崇。他以为,在确切复杂任务下,反映速率、贯通性和任务完成率更具参考价值。
当今干扫数据尚未见官方恢复,也短缺更大限制的第三方交叉考证。但这一测试已激勉不少网友讨论,GLM-5 在确切缔造场景中的推崇是否可靠,仍需更多公开、透明的实测数据接济。
【干系阅读】
