大语言模型排行榜





1.LMSYS排行榜


LMSYS 和加州大学伯克利分校 SkyLab 的成员开发了一个名为Chatbot Arena的开源项目,是一个开放的大型语言模型评估平台,允许用户与多种语言模型进行互动,并通过人类偏好对它们进行评级。平台收集了超过 100 万张人类投票,使用 Elo 排名系统和 Bradley-Terry 模型来展示语言模型的排名。

其访问地址是:

https://chat.lmsys.org/?leaderboard


最新的排行榜截图如下:



这是总体问答情况的排行榜,GPT4-o占据了榜首位置,来自中国的Yi-Large-preview进入前10,处于第9的位置。


Yi-Large-Preview,是一个千亿参数的闭源大模型,由国内的零一万物(01.AI)推出。而零一万物(01.AI)是一家专注于人工智能领域的公司,由著名的计算机科学家、企业家李开复带队孵化。


再来看中文问答的排行榜:



从上图可以看到,在中文问答测试中,Google公司的Gemini 1.5Pro排名第一。

开卷有易:大语言模型三大排行榜全览及国内AIGC服务备案信息放送

零一万物(01.AI)的Yi-Large-Preview排到了第四的位置。

国内的另外两个大语言模型也进入了榜单前列,一个是阿里巴巴的Qwen-Max,一个是清华智谱的GLM 4。



2.SuperCLUE排行榜


SuperCLUE是基于中文语言理解测评基准的排行榜。是由一个致力于AI评测基准、AI数据集开源的开发者社区建立的科学、客观、中立的AI评测基准。其定位是:为更好的服务中文语言理解、任务和产业界,作为通用语言模型测评的补充,通过搜集整理发布中文任务及标准化测评等方式完善基础设施,最终促进中文NLP的发展。


其访问地址是:

https://www.superclueai.com/



上图是总排行榜,还可以选择“十大基础能力排行榜”等:



3.清华SUPERBENCH排行榜


清华大学的人工智能研究院出了一个SUPERBENCH排行榜,这个排行榜使用了一种不同的评测方法——

在黑盒环境中进行零样本思维链推理(COT)的评测。评测的具体流程如下:

语言模型需要在进行思维链推理后,按照特定的格式输出其最终答案。其次,为了更准确地评估语言模型在该数据集上的性能(而非仅仅是按格式输出结果的能力),对于那些未能遵循指定格式输出的模型,将进行进一步的提问。如果模型能够直接输出正确的结果,这也将被视为正确的回答。

其访问地址为:

https://fm.ai.tsinghua.edu.cn/superbench/#/leaderboard


最新的榜单如图:



国家网信办备案信息






国内的大语言模型百花齐放,基于这些模型究竟生出了多少“生成式人工智能服务”呢?这个是有据可查的:


根据《生成式人工智能服务管理暂行办法》要求,网信部门会同相关部门开展了生成式人工智能服务备案工作,现将已备案信息在网上公告。



网址是:

https://www.cac.gov.cn/2024-04/02/c_1713729983803145.htm


如上图红框内容,可以下载备案信息的附件。


……



根据这份备案信息,我们能看到目前我国共有117个生成式人工智能服务,真是百花齐放了,希望咱们国内的这些服务越来越好。