​​2024年1月16日,智谱AI召开新闻发布会,在会上,号称对标GPT4的GLM4模型正式发布

GLM-4模型在各项评测集上的表现显示出显著的进步。例如:

  • MMLU得分为81.5,达到GPT-4的94%水平。
  • GSM8K得分为87.6,达到GPT-4的95%水平。
  • MATH得分为47.9,达到GPT-4的91%水平。
  • BBH得分为82.3,达到GPT-4的99%水平。
  • HellaSwag得分为85.4,达到GPT-4的90%水平。
  • HumanEval得分为72,达到GPT-4的100%水平。

发布会上声称的这些数据表明,GLM-4在各个方面都表现出与GPT-4接近的性能水平。

 

 

 

 

 

 

那么,GLM4到底行不行呢,到底是名正言归还是名不副实?笔者选取了文心4.0,通义千问2.1为对抗对象,通过语言创作,逻辑推理,代码生成,多模态等四个角度,来对GLM4进行全方位的测评。
评分标准为10分值,如果模型按照prompt要求输出结果,则可得到满分,如果模型回答出彩,则会得到2分以内的附加分


1.语言理解创作


在这里,笔者编写了一段长文本,这需要模型对文本信息进行准确的推断,筛选出文本中的物理实验
 


文心4.0回答


通义2.1
 


GLM4

 



在这个问题里,三个模型都正确回答了问题,其中文心4与GLM4都给出了更进一步的说明,

本轮对抗得分为:

通义:10 文心4: 11 glm4 :12


诗歌创作任务

prompt:

任务:请根据以下详细指导,创作一首符合要求的诗歌。

主题:探索未知的宇宙

风格:超现实主义,结合科幻元素,李白风格

韵脚:使用交替韵(ABAB),每两句换一次韵

诗行数量:12行

文采:使用一定的较难理解的深奥表达

情感:表达对宇宙奥秘的敬畏和人类探索的渴望
文心4
 



通义2.1
 


glm4

 


在以上问题中,通义2.1生成了16小句

本轮对抗得分为
通义2.1:8 文心4:10 glm4:10.5

新闻报道生成

prompt

 


文心4

 

 

通义2.1

 



GLM4


 



通义千问未能正确理解提示词

本轮对抗得分为
文心4:11 通义2.1:5 GLM4:10


故事续写能力

 


 




文心4

 

通义2.1

 

GLM4

 




本轮对抗得分为


文心4: 11 通义2.1:9 glm4:10


广告文案创作:
 

文心4

 

 

通义2.1
 

 

GLM4
 

 

本轮对抗得分为
文心4:12 通义:9 GLM4:9

 

散文创作:

中国AI人工智能行不行?测完清华大学智谱GLM4,我的回答是.. 

Prompt

 

 

 

 

文心4

 

 

 

通义2.1

 

 

 

GLM4

 

 



GLM4字数401,文心4为502 ,通义为444


本轮对抗得分为

 

文心4:12 GLM4:7 通义:8





2.逻辑推理能力




 



文心4

 

 

通义2.1

 


 





GLM4:
 




本题只有文心4正确理解


本轮对抗得分为

文心4:12 通义0 GLM4:0



 



文心4

 

通义2.1

 

 

GLM4



 




三个模型均给出了标准答案

通义和GLM4则额外给出了一些方案


本轮对抗得分为

文心4:10 通义2.1:11 GLM4:11



 




文心4

 

 

 

通义2.1

 

 

 

GLM4:
 



在本轮对抗中,GLM4完全正确,通义2.1只有部分公式正确,而文心4完全没有理解题意


本轮对抗得分为





文心4:0 通义2.1:3 GLM4:12





3.代码能力测评


 


文心4
 




通义2.1

 




GLM4

 

 







文心4生成的代码是正确的。该答案提供了一个Python函数,使用了datetime模块来比较两个日期字符串。strptime函数用来将字符串转换为datetime对象,之后使用 < 操作符来比较两个日期。如果date1在date2之前,就返回True,否则返回False。这种实现方法是符合题目要求的。

分数:10.00

解释:答案逻辑清晰,使用了正确的模块和方法,没有检测到语法或逻辑错误。完全符合题目要求。

 

 

通义2.1的这个答案实现了题目的要求,并提供了一个有效的解决方案。代码逻辑正确,利用了datetime模块将日期字符串转换成日期对象,并进行了比较。这个答案正确地处理了日期范围判断的问题。

我会给这个答案一个高分,比如9.5分。

分数解释:

  • 代码风格良好,命名清晰。
  • 函数逻辑正确,直接使用了内建库进行日期比较。
  • 正确处理了字符串转日期对象的过程。
  • 函数返回类型符合要求。

扣分原因可以基于是否有额外的错误处理来判断用户输入的日期格式是否合法,但由于题目中没有要求处理非法输入,这并不是必须的。所以,只要是在没有附加需求的情况下,代码答案是很接近完美的。

 

 

GLM4这个回答是正确的,该代码片段实现了一个函数,能判断给定的两个日期中,第一个日期是否早于第二个日期。它通过 datetime 模块的 strptime 函数,将日期字符串转换为 datetime 对象进行比较。如果第一个日期早于第二个日期,函数返回 True,否则返回 False。在测试示例中,"2023-01-01" 早于 "2023-12-31",所以结果为 True。由于完成了题目的所有要求,并且能在实际操作中正确运行,所以我会给这个答案满分。


本轮对抗得分为:文心4:10分 通义2.1:9.5分 GLM4:10分

 

按照类似逻辑,笔者测试了以下题目



 


篇幅所限,这里直接呈现最终得分

文心4:9分 通义2.1:10分 GLM4:10分




 




文心4:9分 通义2.1:8分 GLM4:9.5分

4.多模态画图能力



请生成一幅艺术图:

主体:湖泊

造型:写意、宁静

效果:透明感和湿润感

风格:写意

天气:晴天或多云

 

 

文心4.

 

通义2.1:

 

 

GLM4

 

 






5.评分汇总

 

 

 

文心4:117分 通义2.1:90.5分 GLM4:111分


与之基准的是,GPT4 turbo在语言理解与创作中(中文)得分60,逻辑推理得分33,代码得分30,总共123分

 

 

而GPT3.5则在以上三项分别得分42,10,18,共计70分
 

 

 

GLM4的实力超乎了笔者的预期,其对标GPT4的目标名副其实


测评过后,笔者的心情很复杂

 

一方面根据测评结果,中国的人工智能取得了长足的发展,在记忆能力,理解能力,创作能力等方面进步十分显著,远远超乎了业内外的预期

但这里有一个重大变量,GPT5,考虑到GPT4是去年三月发布的产物,这也意味着中国的人工智能还是追赶者的姿态。
 

但真正担忧并不在于技术方面


而是在应用生态方面

 

 

根据全球总榜数据,海外访问量最高的为chat gpt的16.5亿,而国内访问最多的文心一言大约为1600万,具有明显差距。

 

 


 

 

 

 

中国人工智能的调用量与open AI等海外知名企业差了一个数量级,这在应用生态的影响上是无法忽视的


原因也很简单,海外企业面向的是全球用户,同时其具有绝对的先发优势

 


在这种情况下,中国人工智能发展的真正阻碍已经不是技术实力了

 

而是市场的认可度

 

 

在最后,笔者希望中国的人工智能企业能够专心搞技术,同时尽可能创作出极好的应用案例,让用户意识到中国的人工智能已经具有了可用的实力。在另一方面,也希望一些人摘下有色眼镜,从基本事实的角度出发,承认中国人工智能的发展

我相信,在多方的合作之下,中国必将成为世界上人工智能应用最广泛的国家​​​​​​​