高考已顺利落幕,让大模型写高考作文题已不稀奇,但让AI做高考“语数外”全卷测试,会交出怎样的答卷呢?
2024年全国高考结束后,上海人工智能实验室旗下司南评测体系(OpenCompass)选取6个开源模型以及GPT-4o进行高考“语数外”全卷能力测试。
评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测“闭卷”性。同时,所有成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
6月19日,司南评测体系发布了首个大模型高考全卷评测结果。“大模型高考”的前三甲得分率均超70%,大部分模型“考生”语文、英语科目表现良好,但数学全都不及格。
Mixtral 8x22B
法国AI创业公司Mistral于2024年4月17日开源的对话模型。
零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。
智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。
上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型。
阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。
阿里巴巴于2024年6月6日开源的72B稠密模型。
OpenAI的闭源模型,是当前市场上最强大和精确的语言模型之一。
司南评测体系团队称,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。
评测选取新课标I卷“语数外”三科题目作为测试集,既包含选择、填空等“答案唯一性”题目,也包括简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。因受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含2道带图试题),英语听力部分(分值30分)不纳入此次评测。
大模型“高考生”成绩
阿里通义千问2(Qwen2)-72B
总分:303分
OpenAI GPT-4o
总分:296分
上海人工智能实验室的书生·浦语2.0(InternLM2-20B-WQX)
总分:295.5分
大模型的高考成绩如下:
从结果来看,大部分模型在“语言”本质上的表现良好,语文平均得分率为67%,英语更是达到了81%。
而数学则是所有大模型的短板,数学全都不及格,最高分只有75分,平均得分率仅为36%,这表明大模型的数学能力存在较大提升空间。
实验室表示,此次成绩由具备高考评卷经验的老师匿名人工判分。在打分前,老师们并未被告知答案由大模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况,团队会要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。
实验室表示,每个题目都邀请了至少三位老师评阅取均分,团队对分差较大的题目还进行了再次审核。
在完成所有大模型答卷的评卷工作后,阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。
语文:模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。
大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。
多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。
数学:大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。
英语:英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。
联合团队认为,如同高考阅卷也存在细微差异,由于主观题类型的引入,本次评测也无法做到绝对的公平。
相关新闻
4个大模型做高考数学题,结果……
除了司南评测体系团队,还有媒体选取了4名有代表性的大模型“考生”对2024全国高考数学新课标1卷客观题部分进行测评。这4个大模型分别为:星火大模型(v3.5版本)、文心一言(3.5版)、智谱清言(GLM-4)为通用大模型,九章大模型则为以数学能力见长的教育垂类模型。
据统计,14道题目中,九章大模型共答对11道,星火大模型共答对12道,二者不相上下。而另外两位差别较大,文心一言共答对1道,智谱清言共答对4道。
最终统计结果显示,四位“考生”此次作答正确率从高到低依次为星火大模型(85.71%)、九章大模型(78.57%)、智谱清言(28.57%)、文心一言(7.14%)。
新重庆-重庆日报综合上海人工智能实验室微信公众号、澎湃新闻、新民晚报、上观新闻等
