一、前 言
人工智能是引领新一轮科技革命和产业变革的重要引擎,是新型工业化的核心动力。近期,我国大模型综合实力不断提升,创新成果加速涌现,人工智能在设计、生产、检测、销售、管理、服务等关键工序开始深化应用,从“单点赋能”向多点渗透”演进,从通用场景向行业特定场景转化,正加速赋能千行百业。
为贯彻落实党中央国务院关于促进人工智能发展的决策部署,中国工业互联网研究院联合香港科技大学,跟踪近一年来大模型技术进展,结合工业企业大模型应用情况调研,总结八类典型应用场景,针对国内外具有代表性的大模型开展测试,发布新一轮的准确性测评报告,供业界参考。
二、主要结论
本报告主要结论如下:
01
发展趋势:
1
国内多款大模型能力接近GPT-4o,部分场景已有所突破,但尚未全面超越;
2
对比往期测评,以GPT-3.5为基准,国内新发布大模型能力从24年初的1.1提升至1.4,进步显著;
3
国内大模型在多模态能力和代码能力上与国际头部水平存在差距,需针对短板加强训练。
02
场景成熟度:
1
目前大模型比较擅长知识问答、文档生成、数据分析、智能安监等场景;
2
在工程建模、代码生成、工业原型设计等领域,国内外大模型准确度均有待提升。
03
行业知识掌握:
1
国内大模型在各个行业的知识问答中展现出优势;
2
国内大模型在建材、采矿、石化化工等多个行业优势显著,钢铁行业与国际水平接近。
三、测评内容与测评方法
01
测评内容
近半年来,大模型技术快速迭代发展,代码生成应用逐渐增多,多模态技术成效日渐凸显。为此,本次测评在前期评测体系基础上新增三类工业通用应用测评场景,包括代码生成、图生文、文生图等多模态能力。
02
测评方法
为了更贴合应用场景实际,进一步评价模型的多维能力,本期测评题型以问答题为主;为保障判分的一致性与准确度,问答题的评分方式由人工判分改为大模型判分,按步骤赋分。
四、测评结果
01
综合排名
◆ 综合能力上,GPT-4o和近期发布的Claude-3.5处于领先地位,国内大模型紧随其后;
◆ 2024年上半年国内发布的多个模型综合能力接近GPT-4o,如通义千问-2.5、混元-Pro、百川-4、Alnno、DeepSeek-V2等;
◆ 国外大模型中,GPT-4o和Claude与其他国际大模型,如Mistral-Large、Llama3相比领先优势明显。
02
能力对比与变化趋势
◆ 国内大模型在工业知识问答领域领先幅度较大,在数据分析、工程建模等领域能力接近;
◆ 国外大模型在代码理解、代码生成和智能安监等领域具有一定优势;
◆ 对比往期测评,2024年上半年国内大模型能力提升明显(以GPT3.5为基准)。
五、场景测评
01
场景测评一: 代码生成
测评内容:
代码生成指大模型编写代码能力,包括基础编程、科学计算、数据结构、实用算法、代码推理等细分领域,判分时使用测试用例来判断代码生成准确度。测试中生成10组代码,其中一组完成全部测试样例为通过。
题目样例:
问题示例:
编写python代码实现进销存推演。forecast 是一个列表,存储了销量的预测值,in_come 是在途库存,就是未来要进入仓库的库存。返回一个列表,存储了每天的期末库存量。
注意:1. 当天库存不足时,出货量为当天库存量
from typing import List
def deduction(initial_inv: int, forecast: List, in_come: List):
评分标准:
生成10组代码,一组全部通过如下测试样例得1分,否则不得分:
assert deduction(5, [1, 2, 3], [1, 0, 1]) == [5, 3, 1]
assert deduction(15, [3, 2, 1, 6, 8, 9], [0, 0, 10, 0, 0, 9]) == [12, 10, 19, 13, 5, 5]
assert deduction(10, [1, 2, 3], [5, 0, 0]) == [14, 12, 9]
assert deduction(0, [1, 2, 3], [0, 0, 0]) == [0, 0, 0]
assert deduction(25, [1, 2, 3, 1, 1, 1] , [0, 0, 0, 0, 20, 0, 0]) == 24, 22, 19, 18, 3...
图1 代码生成测评结果与细分能力对比
本场景测评发现:

◆ 代码生成领域,国际大模型处于领先地位,国内模型中,豆包-Pro、混元-Pro等表现优秀,但仍有差距;
◆ 国内外大模型面向工程实际的代码能力整体处于较低水平,尤其是对于实用算法、科学计算和数据结构等领域能力偏弱。
02
场景测评二: 智能安监
测评内容:
多模态大模型智能安监场景主要包括:防护装备监测、行为监测、事故监测、区域安全监测、危险车辆监测等细分场景,测试方法以判断形式为主,采用均衡的正负样本数量进行测试。
题目样例:
问题示例:
这是一张作业现场的视频截图,你要做的是:1.描述图片中的内容。2.判断图中是否有人员倒地的情况。
评分标准:
(1)判断正确得1分,否则不得分;
(2)图片场景描述不准确不得分;
图2 智能安监测评结果和细分能力对比
本场景测评发现:
◆ 多模态大模型在智能安监场景的应用能力相对成熟,综合能力为83,最优模型综合能力超90;
◆ 国外头部大模型在防护装备、区域监测等细分场景具有领先优势,国内更侧重车辆监测、人员行为识别。
03
场景测评三: 工业原型设计
测评内容:
大模型在工业原型设计场景的任务主要是进行外观和结构的设计,测评主要考察其根据提示词生成图片的一致性,测试时通过人工评估方式,按照图片对提示词要求的符合程度进行打分。
题目样例:
问题示例:
输出一个轿车的设计图,必须符合以下要求:
1.整体要求:
(1)主体:只有轿车,没有其他物品;
(2)风格:风格要求为写实的风格;
2.局部要求:
(1)形状:1.车身为流线型2.车辆大灯为泪滴形。
(2)数量:一辆
(3)结构:车辆具有尾翼,只有两个座位
(4)材料:金属
(5)颜色:1.车辆车身为蓝色,车漆呈现金属质感2.车窗为黑色
(6)布局:1.尾翼位于汽车尾部2.车身表面有条状橙色条纹装饰
(7)功能:车辆为电动车,因此车辆前端没有进气孔,也没有排气孔
(8)状态:1.轿车本身停在宽阔的公路中央2.车窗均关闭
评分标准:
(1)生成的图片每满足要求得1分,满分为10分
(2)各项要求中,有两个小点的,每满足一个小点得0.5分
图3 工业原型设计测评结果与细分维度对比
本场景测评发现:
◆ 在工业原型设计文生图领域,GPT-4o(Dalle·E)处于领先地位,对比其他模型具有显著优势;
◆ 国内大模型文生图能力与国际水平具有一定差距,在主体一致性、状态一致性、风格一致性上差距较大;
◆ 在工业品状态、功能、布局等空间感知能力要求高的领域,国内外大模型表现均有待提升。
04
场景测评四:工业知识问答
题目样例:
问题示例:
你知道哪些常用逻辑电平? TTL与CMOS电平可以直接互连吗?
评分标准:
(1) 常用逻辑电平包括:12V,5V,3.3V。(1分,给出标准中同样或近似的回答则得1分,否则不得分。)
(2) TTL和CMOS电平是否可以直接互连:不可以直接互连。(1分,给出标准中同样或近似的回答则得1分,否则不得分。)
(3) TTL和CMOS电平互连的条件:CMOS输出可以直接接到TTL,而TTL接到CMOS需要在输出端口加一上拉电阻接到5V或者12V。(1分)
本题共3小项,每个小项1分,满分3分。对于每个小项,如果描述有差距,或者详细程度不足,酌情给0.3或者0.5分或者0.8分。
图4 工业知识问答测评结果
图5 工业知识问答行业能力对比
本场景测评发现:
◆ 在知识问答领域国内大模型已具备一定优势,通义千问、DeepSeek等多个大模型实现对GPT-4o超越;
◆ 国内大模型在建材、采矿、石化化工等行业具有显著优势,在钢铁等行业与国际水平接近;
◆ 对比不同行业,国内外大模型在电子设备制造、钢铁等行业有较好的知识储备,对于纺织、装备制造等行业仍需加强训练。
05
场景测评五:工程建模
题目样例:
问题示例:
某公司在2018年年初预订x万产量的目标,2018年6月已完成计划的60%,此后按照上半年月均产量生产,则2018年超出计划产量300万。那么该公司2018年年初预订的产量为多少万元?
评分标准:
1. 如果能正确列出完成计划的60%即为 $0.6x$ 万的关系,得1分;
2. 如果能正确列出下半年产量也为 $0.6x$ 万的关系,得1分;
3. 如果能正确列出并解方程 $0.6x + 0.6x - x = 300$,得1分;
4. 如果能正确解出 $x=1500$,得1分;
本题共四个得分点,满分为4分,得分情况为(得分/满分)。
图6 工程建模测评结果
本场景测评发现:
◆ 在工程建模领域,腾讯混元和GPT-4o处于领先地位,对比其他模型具有显著优势;
◆ 国内外大模型建模能力整体处于较低水平,存在较高建模或计算出错的可能性。
06
场景测评六:数据分析
题目样例:
问题示例:
您需要撰写一份简短的报告,介绍下面的图表/表格/图形的主要特征。您应该执行以下任务:概括数据,描述过程的各个阶段等等,请使用中文进行撰写。下表为2001—2010年几种型号电话年产量。
评分标准:
(1). 文章对比了2001年至2010年几种电话的年均产量变化。(1分,如果有相关的全局性描述,则得1分,否则不得分。)
(2). 在这10年期间,B电话稳步下降,而A电话支出迅速增长。(1分必须有B稳步下降的描述,且有A电话迅速增长的描述性语言,只给出数据不进行对比描述不得分。)
(3). 2007年是A产量超过B电话产量的转折点。(1分,必须指出2007年A电话超过B的关键节点,只给出数据不描述不得分。)(4)... (5)...
本题共5小项,对于每个小项,如果学生的回答中有和该项一致的语句,则得1分,如果描述有差距,或者详细程度不足,酌情给0.3或者0.5分或者0.8分。
图7 数据分析测评结果
本场景测评发现:
◆ 在数据分析领域,Claude、DeepSeek、百川、讯飞星火等模型能力突出,构成第一梯队;
◆ 第一梯队成绩为85分左右,说明大模型可提取描述大部分表格信息,但仍可能有部分遗漏或描述偏差。
07
场景测评七:文档生成
题目样例:
问题示例:
阅读以下观点,回答你是否同意,如果你不同意,请说明哪种情况会削弱下面的观点:
过去的一年, QM的工伤事故比邻近的工厂多 $30 \%$, 邻近工厂每班工作时间比我们公司短 1 小时。专家称许多工伤事故的主要原因是疲劳和睡眠不足。因此, 为减少QM的工伤事故数量, 从而提高生产效率, 我们需要把 3 个班次的工作时间缩短 1 小时, 这样我们的员工可以获得充足的睡眠。
评分标准:
总结提炼后,评分标准如下:
(1) 两家公司是否具有可比性, 没有给出具体的分析...
(2) 去年的情况今年是否依然持续...
(3) 倒班时间缩短一小时,不能保证员工获得充足的睡眠;
(4) 即便缩短倒班时间能够保证员工获得充足的睡眠,员工的工伤数量也并不一定会下降...
对于以上四点,每个分论点在作文中有所体现得1分,共计4分。
图8 文档生成能力测评结果
本场景测评发现:
◆ 在文档生成领域,Alnno、SenseNova和通义千问等国内模型优势明显,已实现对GPT-4o的领先;
◆ 国内外文档生成成绩普遍较高,说明大模型在该领域的应用前景较好,可广泛采用提高效率。
08
场景测评八:代码理解
题目样例:
问题示例:
回答下列选择题,并给出解析。下列代码中存在什么安全问题?
public void doPost(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {javax.servlet.http.Cookie[] theCookies = request.getCookies();
...
java.util.Properties benchmarkprops = new java.util.Properties();
String algorithm = "MD5";
java.security.MessageDigest.getInstance(algorithm);
byte[] input = {(byte) '?'};
Object inputParam = param;
if (inputParam instanceof String) input = ((String) inputParam).getBytes();}
评分标准:
代码中使用已知的弱哈希算法MD5,代码如下:
String algorithm = "MD5";
java.security.MessageDigest md = java.security.MessageDigest.getInstance(algorithm);
弱哈希算法有MD5、SHA-1 和 SHA-2 等哈希函数。
(回答中如果能指出安全问题是弱哈希算法得1分,否则不得分)
图9 代码理解测评结果
本场景测评发现:
◆ 在代码理解领域,GPT-4o和文心一言准确度较高,相对其他模型优势明显;
◆ 国内外成绩均偏低,说明大模型在编程领域知识掌握薄弱。
六、模型改进建议
与测评后续规划
01
各场景第一梯队:
02
大模型改进建议:
1
针对国内大模型多模态能力偏弱问题,建议收集工业品图片及对应文字描述进行强化训练。
2
针对国内大模型建模能力弱的问题,可收集数学建模专业语料进行强化训练,结合检索增强和代码解释器等增强工具提升大模型数学推理能力。
3
针对国内大模型代码理解和生成能力不足的问题,应全面提升模型训练中代码语料的数量和质量,加入代码解释器模块提升代码生成效果有较大帮助,建议更多国内大模型引入。
4
针对国内大模型数据分析能力不足的问题,可使用优秀数据分析案例进行微调,在应用阶段将优秀案例加入提示词,利用大模型的小样本学习能力提升效果。
03
后续测评计划:
1
开展大模型基础应用能力研究。紧跟高智能、多模态大模型发展趋势,扩展测评维度,优化测评基准。
2
挖掘行业应用场景。调研重点行业需求,研判大模型在工业领域潜在应用场景,遴选、推广一批优秀的行业模型。
3
构建测评体系。完善工业语料库建设,迭代测评工具,构建快速响应、评估准确地大模型应用测评能力。
4
丰富指数体系。持续研究大模型对行业、产业、社会的影响,不断丰富中国AI大模型应用指数体系。
附 录
01
附录1:大模型版本号
02
附录2:评分细则
03
附录3:往期测评报告
联系人:
叶老师:13661350566
邱老师:18823660419