如何看待大模型和AI搜索之间的关系和演进，生成式AI有哪些实际落地应用？

从2022年末开始，一场由大语言模型（ large language model，LLM）所引发的革命浩浩荡荡地开始了。在今年年初，GPT-4的发布，可以说是轰动了整个科技界和互联网行业，为本就受到广泛讨论的ChatGPT，再添了一把火。OpenAI在发布了ChatGPT之后，各领域都真正地体验到了LLM带来的革命性的力量，广泛地在业务流中使用LLM已经成为了一个必然地趋势。

ChatGPT的各类应用

然而，由于训练数据等方面的限制，ChatGPT在中文场景，尤其是中文互联网场景中的表现远不如其在英文世界中那么好用。正如有了PayPal之后我们还要一个支付宝，无数人都在期待着一个更加适合中国语境的ChatGPT的出现。

最近几个月，国内发布了几款中文ChatGPT模型让我印象很深刻，一个是百度的文心一言，我之前已经聊过了。

另一个则是由昆仑万维自研的大模型“天工”。作为国内拥有最大GPU集群、汇聚百位开源社区AI科学家的国产ChatGPT团队，我对这个系统也相当感兴趣，让我们来看看“天工”到底如何更懂中文？

天工官网：

APP也可以直接使用，大家感兴趣的可以试试。

1.关于”天工”

首先，我们来看看“天工”是怎么介绍自己的：

其实，无论是ChatGPT、文心一言还是“天工”，其本质上就是大语言模型（large language model， LLM）。如果要想大模型能够跟人一样对话交流甚至是思考，往往需要较大的数据量进行训练，并用一个大模型去学习和摸透这些数据中所蕴含的知识，才能够像人一样进行交流。

LLM不仅要理解单词的含义，还要理解如何造句和给出上下文有意义的回答，甚至使用合适的专业词汇，才算是真正地学会了语言。而作为ChatGPT基础的GPT-3.5和GPT-4就是一个超大的，学习到了各类语言知识的统计语言模型。

从数学的角度来看，LLM是对词语序列的概率相关性分布的建模，即利用已经说过的语句作为输入条件，来预测下一个时刻不同语句甚至语言集合出现的概率分布。模型的训练依靠于某种被叫做子监督学习的方法，这种学习方法有点像在做填词游戏。

自监督学习就类似于做填空题

如果一个人能够在选词填空游戏中始终做对，那我们通常就会认为他“了解”到了这些词汇的意思，也理解题目中那句话所表达的含义。LLM的原理也是一样，通过不断进行“选词填空”游戏，从而学习出一个掌握关于语言的知识的“大模型”。这就是LLM的成功诀窍之一“大模型”。

ChatGPT的另一个成功之处，则是所谓的来自人类反馈的强化学习。这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中，人类训练者扮演着用户和人工智能助手的角色，并通过近端策略优化算法进行微调。

这就好比有一个人一直在告诉模型，怎么样的回答才是提问者所偏好的。模型将会学习出提问者对于“答案”的偏好，因此也就能够更好地给出提问者所希望的答案了。这也就是LLM的另一个成功诀窍，即“人类反馈”。

那么“天工”在这块儿做的怎么样呢？

首先我们来看大模型部分。天工大模型是昆仑万维自研的双千亿级大模型，背后拥有一个一百四十亿参数模型：SkyText。SkyText是一个相当强大的中文预训练模型，可以进行聊天、问答、中英互译等不同的任务。应用这个模型，除了可以实现基本的聊天、对话、你问我答外，还能支持中英文互译、内容续写、对对联、写古诗、生成菜谱、第三人称转述、创建采访问题等多种功能。

该模型可以有各类的应用，例如教你怎么做菜：

其次，“天工”也同样使用了类似Reinforcement Learning from Human Feedback的技术，能够通过人类的反馈来调整优化模型。

此外，根据其官方的技术文档说明，”天工”产品还使用了蒙特卡洛搜索树算法来优化其模型的对话效果。有着这些技术的加持，再加上其拥有国内最大GPU集群，汇聚百位开源社区AI科学家，让人很期待“天工”的具体效果。

2. “天工”的实际体验

任何人工智能产品都需要通过实践的检验，让我们直接来看看“天工AI对话”的实际体验究竟怎么样。

首先，还是常规的综述/读后感任务：

感觉整体上还行，至少看得出来真的直到《三体》是在讲什么内容。

再来看看诗歌创作的问题，例如我们想要它生成一首关于在知乎回答问题的诗歌：

对仗工整，逻辑清晰，还有着浓厚的人文关怀，非常棒的诗歌呀！

再来看看日常问题解决得怎么样，例如学会如何用PyTorch搭建神经网络模型：

说到中文的大语言模型，就不得不提到百度的文心一言了，那么我们这里也一起来做一个横向的对比。而选择的题目，我们就用“百度知道”中的问题吧，看“天工”能否在文心一言最擅长的地方打败它。

我们先来看看第一个百度知道的问题：

先来看看“天工”的结果：

再来看看百度的结果：

相对而言，“天工”额外提出了要注重香水使用的场合、自身特性和专业人士建议，这些都算是比较中肯的意见。

再来看看另一个问题：

先来看看“天工”的回答：

再来看看文心一言的回答：

“天工”则是明确知道这个词来源于的是赌场，用来形容在比赛中获得胜利，最后在PUBG的影响下成为了流行的网络用语。

我们最后来看看“天工”能不能理解前段时间比较火的“九转大肠”的问题：

可见“天工”至少是明白“原味”九转大肠的真正含义了。综合上述表现，可以看出天工AI对话在传统文化、特色网络“梗”，网络用语方面，是相当了解的。同时，我发现天工AI对话不仅在逻辑推理、语义识别等方面能够轻松超越其他大模型，而且它本身基于自研双千亿级大模型，能够支持20轮次以上的自然语言交互，保证你在持续的多轮对话中拿到你想要的答案。

3.天工AI搜索

除了上述的对话互动功能之外，天工还重磅更新了“天工AI搜索”的功能。

所谓AI搜索，区别于传统关键词搜索，输出大量链接海量信息。AI搜索是基于自然语言搜索，利用大模型的语义解析能力去分析用户的真实意图，比传统的搜索引擎理解能力更强。

那么，为什么要使用AI搜索，而不是继续用之前的传统搜索呢，还有哪些颠覆性的特点？

其实，传统的搜索方式，被我们称为是“关键词搜索”，这种搜索方式已经存在了几十年。这种类型的搜索引擎使用统计技术将查询与索引中的项目相匹配，工作方式很像书后的索引，指向书中信息所在的所有位置。关键字搜索往往非常快，并且适用于精确的查询关键字匹配。但是经常遇到长尾查询、概念搜索、问题式搜索、同义词和查询与索引中的内容不完全匹配的其他短语，甚至是现在满天飞的广告。

于是，随着大语言模型的诞生，如果尝试将二者结合起来，开发一种不同以往的，基于AI技术的搜索方式。这是AI搜索引擎的一次巨大的革新，也就是“语义搜索”。

语义搜索涉及理解搜索查询中单词和短语的含义，并返回与查询语义相关的结果。语义搜索引擎使用自然语言处理 (NLP) 技术来理解单词和短语的含义，并查找可能与搜索查询相关的相关概念、同义词和其他相关信息。事实上，目前的New Bing，就是使用的这套AI搜索系统。

但是，毕竟New Bing系统所预设的训练预料以及使用场景，仍旧是英文场景，未免有一些水土不服，因此，我们就需要更多着眼于中文场景的AI搜索引擎。

天工AI搜索就是这样的一次探索，它是国内第一款融入大语言模型的搜索引擎。天工AI搜索基于大模型能力的AI搜索可以根据上下文语义与用户展开多轮次、深度的对话。

衡量一个AI搜索功能的强大与否，一般来说有三个维度。

1）首先就是“”追问”的轮次。

追问是基于大模型能力的AI搜索可以根据上下文语义与用户展开多轮次、深度的对话，从而实现对于复杂问题的深入研究。天工AI搜索的“追问”功能让用户可以就一个问题展开20轮次以上交互，以此展开深度探索。这一点非常强悍。

2）AI搜索的另一个评价维度就是信息是否可以溯源。

信息溯源当时必应上线AI搜索功能时，被用来和GPT进行对比的最主要的一个功能。传统搜索存在不同来源的海量信息带来的大量冗余和信息不一致。天工AI搜索在所有回答中加入了信源索引，以此保障答案可追溯、可考证、可信赖。可以过滤收费网页和无效信息，无广告，给用户呈现最具核心价值的搜索结果。同时，用户可将每轮次的搜索结果留存在天工内，便于随时查阅回溯，也可一键分享给他人。

3）时效性是评价的第三个维度。
实际上，AI搜索除了需要做到可检索之外，还需要保证信息和资料足够新。联网搜索引擎作为大模型的资料库保证实时性；大模型基于精准用户意图识别能快速整合、提炼信息，给出最有价值的答案。在这个维度上，天工AI搜索也基于联网大模型来保证实时更新最新的材料，从而保证所引证的各种材料的实时性。

那我们来看看实际的效果如何。大家都知道，这两天OpenAI发布了DALL·E 3的绘画模型，我们用天工AI搜索来试试看检索的效果如何：

同时我们还可以追问DALL·E3是否能够代替人类创作艺术作品

可以看到，即便是询问当下最为时兴的话题，天工AI搜索依旧可以迅速精确检索，给出合理的回答，列举匹配的参考链接，以及推荐合适的追问问题，可以说是非常强大了。

4.“天工”如此厉害的原因

“天工“之所以能够取得如此优秀的结果，与其长期的技术积累与强大的训练数据集是分不开的。

昆仑万维早在多年前就开始布局中文AIGC领域的积累，旗下发布的产品包括”天工”巧绘SkyPaint、”天工”乐府SkyMusic、”天工”妙笔SkyText、”天工”智码SkyCode等等。覆盖了图像、音乐、文本、编程等多模态内容生成能力，标志着昆仑万维成为目前国内AIGC领域布局最为全面的公司之一，也是国内第一个全身心投入到AIGC开源社区的公司。同时，在2月8日，昆仑万维宣布旗下的全球最大第三方独立浏览器Opera浏览器计划接入ChatGPT功能，成为全球除微软Bing搜索引擎、Edge浏览器之外，又一集成ChatGPT功能的浏览器。

同时，昆仑万维也长期聚焦大规模预训练语言模型，基于海量的公开语料进行训练，目前完成千亿级参数的模型训练，在中文ChatGPT模型开发中有着大量的经验积累。

此外，”天工”的数据是精细筛选过的。预训练大模型通常需要海量的文本来进行训练，网络文本自然成为了最重要的语料来源。而训练语料的质量无疑直接影响着模型的效果。为了训练出能力出众的模型，昆仑万维在数据清洗时使用了30多道的清洗流程。精益求精的细节处理，铸造了卓越的模型效果。

最后，预训练大模型领域过去一直是被英文社区主导着，而中文预训练大模型的重要性不言而喻。不同于英文的拼音文字，中文预训练大模型的中文输入方式显然应该有所不同。昆仑万维针对中文的特点，优化创新使用了独特的中文编码方式，更加符合中文的语言习惯，重新构建出更利于模型理解的中文字典。因此才能够使得“天工”如此强大。

5. “天工”的意义

“天工“和ChatGPT共同组成了东西方不同思维和技术背景下对AI的理解和实际应用，带动了全球技术新革命。根据案例显示，”天工”更懂中国，能够更好地解决中国用户地具体问题，能够更大程度上发挥大模型的生产力工具作用。

在技术如此开放的当下，ChatGPT的技术领先优势其实窗口期并不长，我们有理由相信，未来在国内厂商的共同努力下，一定会出现可以完全对标ChatGPT的技术和产品，中国AIGC的能力和水平才能够赶上世界一流。因为我们已经看到了像天工AI搜索这种颠覆行业的产品的出现，这是生成式AI在C端落地的成功尝试，未来像昆仑万维一样的大模型厂商会将生成式AI带向落地的远方。

如何看待大模型和AI搜索之间的关系和演进，生成式AI有哪些实际落地应用？

1.关于”天工”

2. “天工”的实际体验

3.天工AI搜索

4.“天工”如此厉害的原因

5. “天工”的意义

AI工具箱怎么用

AI工具那个好用

好用的AI工具有哪些？

Turnitin 使用什么人工智能检测器？揭秘学术诚信的守护者

看门人 AI 坏了吗？

人工智能深度学习神经网络在双色球彩票中的应用研究(二)

扫描全能王app2025最新版本免费下载官方正版软件

特稿｜专访李西峙：打造中国自主人工智能计算机语言体系和软件生态 | Tatfook site

【科普】人工智能的十种重要应用

'如何启动AI写作助手：快速开启智能创作工具指南'

非线性回归分析（Nonlinear Regression Analysis）

【人工智能 | 大数据】基于人工智能的大数据分析方法

搜索引擎怎么找结果的数据 | 帆软数字化转型知识库

如何安装AI软件？怎么安装破解版AI？

揭秘“imy炸弹”：索爱手机的恶意软件噩梦

一周AIGC丨OpenAI 收入按年化标准计算已超 13 亿美元，套壳 ChatGPT 者活不长久

AI换脸软件（离线版） AI FaceSwap v2.0 中文免费版

2025年免费AI编写文章软件评测，哪个好？排名公布

AI短视频脚本app最新版下载

电脑端视频剪辑软件哪个好用？15款热门剪辑软件分享！

AI 代理工具

AI 开放平台

AI 模型库

AI 开源项目

AI 小工具

AI 教程

AI 资讯

跨境资讯

如何看待大模型和AI搜索之间的关系和演进，生成式AI有哪些实际落地应用？

1.关于”天工”

2. “天工”的实际体验

3.天工AI搜索

4.“天工”如此厉害的原因

5. “天工”的意义

AI工具箱怎么用

AI工具那个好用

好用的AI工具有哪些？

Turnitin 使用什么人工智能检测器？揭秘学术诚信的守护者

看门人 AI 坏了吗？

人工智能深度学习神经网络在双色球彩票中的应用研究(二)

扫描全能王app2025最新版本免费下载官方正版软件

特稿 ｜ 专访李西峙：打造中国自主人工智能计算机语言体系和软件生态 | Tatfook site

【科普】人工智能的十种重要应用

'如何启动AI写作助手：快速开启智能创作工具指南'

非线性回归分析（Nonlinear Regression Analysis）

【人工智能 | 大数据】基于人工智能的大数据分析方法

搜索引擎怎么找结果的数据 | 帆软数字化转型知识库

如何安装AI软件？怎么安装破解版AI？

揭秘“imy炸弹”：索爱手机的恶意软件噩梦

一周AIGC丨OpenAI 收入按年化标准计算已超 13 亿美元，套壳 ChatGPT 者活不长久

AI换脸软件（离线版） AI FaceSwap v2.0 中文免费版

2025年免费AI编写文章软件评测，哪个好？排名公布

AI短视频脚本app最新版下载

电脑端视频剪辑软件哪个好用？15款热门剪辑软件分享！

特稿｜专访李西峙：打造中国自主人工智能计算机语言体系和软件生态 | Tatfook site