从2022年末开始,一场由大语言模型( large language model,LLM)所引发的革命浩浩荡荡地开始了。在今年年初,GPT-4的发布,可以说是轰动了整个科技界和互联网行业,为本就受到广泛讨论的ChatGPT,再添了一把火。OpenAI在发布了ChatGPT之后,各领域都真正地体验到了LLM带来的革命性的力量,广泛地在业务流中使用LLM已经成为了一个必然地趋势。
然而,由于训练数据等方面的限制,ChatGPT在中文场景,尤其是中文互联网场景中的表现远不如其在英文世界中那么好用。正如有了PayPal之后我们还要一个支付宝,无数人都在期待着一个更加适合中国语境的ChatGPT的出现。
最近几个月,国内发布了几款中文ChatGPT模型让我印象很深刻,一个是百度的文心一言,我之前已经聊过了。
另一个则是由昆仑万维自研的大模型“天工”。作为国内拥有最大GPU集群、汇聚百位开源社区AI科学家的国产ChatGPT团队,我对这个系统也相当感兴趣,让我们来看看“天工”到底如何更懂中文?
天工官网:
APP也可以直接使用,大家感兴趣的可以试试。
1.关于”天工”
首先,我们来看看“天工”是怎么介绍自己的:
其实,无论是ChatGPT、文心一言还是“天工”,其本质上就是大语言模型(large language model, LLM)。如果要想大模型能够跟人一样对话交流甚至是思考,往往需要较大的数据量进行训练,并用一个大模型去学习和摸透这些数据中所蕴含的知识,才能够像人一样进行交流。
LLM不仅要理解单词的含义,还要理解如何造句和给出上下文有意义的回答,甚至使用合适的专业词汇,才算是真正地学会了语言。而作为ChatGPT基础的GPT-3.5和GPT-4就是一个超大的,学习到了各类语言知识的统计语言模型。
从数学的角度来看,LLM是对词语序列的概率相关性分布的建模,即利用已经说过的语句作为输入条件,来预测下一个时刻不同语句甚至语言集合出现的概率分布。模型的训练依靠于某种被叫做子监督学习的方法,这种学习方法有点像在做填词游戏。
如果一个人能够在选词填空游戏中始终做对,那我们通常就会认为他“了解”到了这些词汇的意思,也理解题目中那句话所表达的含义。LLM的原理也是一样,通过不断进行“选词填空”游戏,从而学习出一个掌握关于语言的知识的“大模型”。这就是LLM的成功诀窍之一“大模型”。
ChatGPT的另一个成功之处,则是所谓的来自人类反馈的强化学习。这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中,人类训练者扮演着用户和人工智能助手的角色,并通过近端策略优化算法进行微调。
这就好比有一个人一直在告诉模型,怎么样的回答才是提问者所偏好的。模型将会学习出提问者对于“答案”的偏好,因此也就能够更好地给出提问者所希望的答案了。这也就是LLM的另一个成功诀窍,即“人类反馈”。
那么“天工”在这块儿做的怎么样呢?
首先我们来看大模型部分。天工大模型是昆仑万维自研的双千亿级大模型,背后拥有一个一百四十亿参数模型:SkyText。SkyText是一个相当强大的中文预训练模型,可以进行聊天、问答、中英互译等不同的任务。 应用这个模型,除了可以实现基本的聊天、对话、你问我答外,还能支持中英文互译、内容续写、对对联、写古诗、生成菜谱、第三人称转述、创建采访问题等多种功能。
该模型可以有各类的应用,例如教你怎么做菜:
其次,“天工”也同样使用了类似Reinforcement Learning from Human Feedback的技术,能够通过人类的反馈来调整优化模型。
此外,根据其官方的技术文档说明,”天工”产品还使用了蒙特卡洛搜索树算法来优化其模型的对话效果。有着这些技术的加持,再加上其拥有国内最大GPU集群,汇聚百位开源社区AI科学家,让人很期待“天工”的具体效果。
2. “天工”的实际体验
任何人工智能产品都需要通过实践的检验,让我们直接来看看“天工AI对话”的实际体验究竟怎么样。
首先,还是常规的综述/读后感任务:
感觉整体上还行,至少看得出来真的直到《三体》是在讲什么内容。
再来看看诗歌创作的问题,例如我们想要它生成一首关于在知乎回答问题的诗歌:
对仗工整,逻辑清晰,还有着浓厚的人文关怀,非常棒的诗歌呀!
再来看看日常问题解决得怎么样,例如学会如何用PyTorch搭建神经网络模型:
说到中文的大语言模型,就不得不提到百度的文心一言了,那么我们这里也一起来做一个横向的对比。而选择的题目,我们就用“百度知道”中的问题吧,看“天工”能否在文心一言最擅长的地方打败它。
我们先来看看第一个百度知道的问题:
先来看看“天工”的结果:
再来看看百度的结果:
相对而言,“天工”额外提出了要注重香水使用的场合、自身特性和专业人士建议,这些都算是比较中肯的意见。
再来看看另一个问题:
先来看看“天工”的回答:
再来看看文心一言的回答:
“天工”则是明确知道这个词来源于的是赌场,用来形容在比赛中获得胜利,最后在PUBG的影响下成为了流行的网络用语。
我们最后来看看“天工”能不能理解前段时间比较火的“九转大肠”的问题:
可见“天工”至少是明白“原味”九转大肠的真正含义了。综合上述表现,可以看出天工AI对话在传统文化、特色网络“梗”,网络用语方面,是相当了解的。同时,我发现天工AI对话不仅在逻辑推理、语义识别等方面能够轻松超越其他大模型,而且它本身基于自研双千亿级大模型,能够支持20轮次以上的自然语言交互,保证你在持续的多轮对话中拿到你想要的答案。
3.天工AI搜索
除了上述的对话互动功能之外,天工还重磅更新了“天工AI搜索”的功能。
所谓AI搜索,区别于传统关键词搜索,输出大量链接海量信息。AI搜索是基于自然语言搜索,利用大模型的语义解析能力去分析用户的真实意图,比传统的搜索引擎理解能力更强。
那么,为什么要使用AI搜索,而不是继续用之前的传统搜索呢,还有哪些颠覆性的特点?
其实,传统的搜索方式,被我们称为是“关键词搜索”,这种搜索方式已经存在了几十年。这种类型的搜索引擎使用统计技术将查询与索引中的项目相匹配,工作方式很像书后的索引,指向书中信息所在的所有位置。关键字搜索往往非常快,并且适用于精确的查询关键字匹配。但是经常遇到长尾查询、概念搜索、问题式搜索、同义词和查询与索引中的内容不完全匹配的其他短语,甚至是现在满天飞的广告。
于是,随着大语言模型的诞生,如果尝试将二者结合起来,开发一种不同以往的,基于AI技术的搜索方式。这是AI搜索引擎的一次巨大的革新,也就是“语义搜索”。
语义搜索涉及理解搜索查询中单词和短语的含义,并返回与查询语义相关的结果。语义搜索引擎使用自然语言处理 (NLP) 技术来理解单词和短语的含义,并查找可能与搜索查询相关的相关概念、同义词和其他相关信息。事实上,目前的New Bing,就是使用的这套AI搜索系统。
但是,毕竟New Bing系统所预设的训练预料以及使用场景,仍旧是英文场景,未免有一些水土不服,因此,我们就需要更多着眼于中文场景的AI搜索引擎。
天工AI搜索就是这样的一次探索,它是国内第一款融入大语言模型的搜索引擎。天工AI搜索基于大模型能力的AI搜索可以根据上下文语义与用户展开多轮次、深度的对话。
衡量一个AI搜索功能的强大与否,一般来说有三个维度。
1)首先就是“”追问”的轮次。
追问是基于大模型能力的AI搜索可以根据上下文语义与用户展开多轮次、深度的对话,从而实现对于复杂问题的深入研究。天工AI搜索的“追问”功能让用户可以就一个问题展开20轮次以上交互,以此展开深度探索。这一点非常强悍。
2)AI搜索的另一个评价维度就是信息是否可以溯源。
信息溯源当时必应上线AI搜索功能时,被用来和GPT进行对比的最主要的一个功能。传统搜索存在不同来源的海量信息带来的大量冗余和信息不一致。天工AI搜索在所有回答中加入了信源索引,以此保障答案可追溯、可考证、可信赖。可以过滤收费网页和无效信息,无广告,给用户呈现最具核心价值的搜索结果。同时,用户可将每轮次的搜索结果留存在天工内,便于随时查阅回溯,也可一键分享给他人。
3) 时效性是评价的第三个维度。
实际上,AI搜索除了需要做到可检索之外,还需要保证信息和资料足够新。联网搜索引擎作为大模型的资料库保证实时性;大模型基于精准用户意图识别能快速整合、提炼信息,给出最有价值的答案。在这个维度上,天工AI搜索也基于联网大模型来保证实时更新最新的材料,从而保证所引证的各种材料的实时性。
那我们来看看实际的效果如何。大家都知道,这两天OpenAI发布了DALL·E 3的绘画模型,我们用天工AI搜索来试试看检索的效果如何:
同时我们还可以追问DALL·E3是否能够代替人类创作艺术作品
可以看到,即便是询问当下最为时兴的话题,天工AI搜索依旧可以迅速精确检索,给出合理的回答,列举匹配的参考链接,以及推荐合适的追问问题,可以说是非常强大了。
4.“天工”如此厉害的原因
“天工“之所以能够取得如此优秀的结果,与其长期的技术积累与强大的训练数据集是分不开的。
昆仑万维早在多年前就开始布局中文AIGC领域的积累,旗下发布的产品包括”天工”巧绘SkyPaint、”天工”乐府SkyMusic、”天工”妙笔SkyText、”天工”智码SkyCode等等。覆盖了图像、音乐、文本、编程等多模态内容生成能力,标志着昆仑万维成为目前国内AIGC领域布局最为全面的公司之一,也是国内第一个全身心投入到AIGC开源社区的公司。同时,在2月8日,昆仑万维宣布旗下的全球最大第三方独立浏览器Opera浏览器计划接入ChatGPT功能,成为全球除微软Bing搜索引擎、Edge浏览器之外,又一集成ChatGPT功能的浏览器。
同时,昆仑万维也长期聚焦大规模预训练语言模型,基于海量的公开语料进行训练,目前完成千亿级参数的模型训练,在中文ChatGPT模型开发中有着大量的经验积累。
此外,”天工”的数据是精细筛选过的。预训练大模型通常需要海量的文本来进行训练,网络文本自然成为了最重要的语料来源。而训练语料的质量无疑直接影响着模型的效果。为了训练出能力出众的模型,昆仑万维在数据清洗时使用了30多道的清洗流程。精益求精的细节处理,铸造了卓越的模型效果。
最后,预训练大模型领域过去一直是被英文社区主导着,而中文预训练大模型的重要性不言而喻。不同于英文的拼音文字,中文预训练大模型的中文输入方式显然应该有所不同。昆仑万维针对中文的特点,优化创新使用了独特的中文编码方式,更加符合中文的语言习惯,重新构建出更利于模型理解的中文字典。因此才能够使得“天工”如此强大。
5. “天工”的意义
“天工“和ChatGPT共同组成了东西方不同思维和技术背景下对AI的理解和实际应用,带动了全球技术新革命。根据案例显示,”天工”更懂中国,能够更好地解决中国用户地具体问题,能够更大程度上发挥大模型的生产力工具作用。
在技术如此开放的当下,ChatGPT的技术领先优势其实窗口期并不长,我们有理由相信,未来在国内厂商的共同努力下,一定会出现可以完全对标ChatGPT的技术和产品,中国AIGC的能力和水平才能够赶上世界一流。因为我们已经看到了像天工AI搜索这种颠覆行业的产品的出现,这是生成式AI在C端落地的成功尝试,未来像昆仑万维一样的大模型厂商会将生成式AI带向落地的远方。
