05人工智能技术的突破-大语言模型技术021本章目标理解大语言模型工程了解大语言模型的应用技术了解大语言模型评估重点难点2/48大语言模型工程大语言模型工程的实现数据工程(Data)能力层级(Capabilities)规模扩展(Scalingup)实现三维度4/48规模扩展:大力出奇迹3-1ScalingLaw在人工智能领域,尤其是在大模型的发展中scalinglaw扮演着至关重要的角色。它描述了模型性能如何随着模型规模(如参数数量)、数据量和计算资源的增加而提升。这一定律对于理解大模型的能力扩展和优化训练策略具有重要意义。5/48规模扩展:大力出奇迹3-2模型规模与性能计算资源与性能数据量与性能模型参数量增加通常会提升性能,但这种提升遵循幂律关系,即小幅度规模增加可能带来较大性能改进,而规模进一步增加时,性能提升速率会逐渐放缓。训练数据量的增加也与模型性能的提升相关联。更多的数据可以帮助模型学习更丰富的特征,但同样存在一个饱和点,超过这个点后,性能提升的速率会减缓计算资源的增加,如更多的FLOPs(浮点运算次数),同样与模型性能的提升相关。6/48规模扩展:大力出奇迹3-3性能提升能力涌现大模型参数量不断增长,从亿级到百亿级性能提升显著,超100B后边际效益减弱。词表从几千词扩大到几万甚至十几万词,增强语义表达准确性。词向量维度从512维增至768、1024或2048维,提升语义捕捉能力,但过高维度会增计算开销。Transformer模型层数从8层增至48层、96层甚至上百层,增强表达和泛化能力,但过多层数可能遇梯度消失等问题。当模型规模超10B时,会出现能力涌现现象,即模型在训练时未被特别设计的能力,在实际使用时却能表现出来。如GPT主要任务是预测下一个token,但达百亿参数时,能进行上下文学习、具备推理能力、遵循指令生成内容,甚至处理未训练过的新任务。能力涌现非绝对发生,但为大模型增添吸引力和应用潜力。7/48数据:大语言模型能力的来源4-12134如图书馆的公开藏书、研究论文等数据公开数据互联网数据是大模型的主要数据来源,尤其是社交媒体、博客、新闻等文本数据。互联网数据例如GitHub上的代码数据,它对大模型的推理能力提升起到了重要作用。半公开数据未来可能包括图像、视频、语音等多模态数据,但如何有效结合这些数据以用于语言模型的训练仍在研究中。其他领域数据8/48数据:大语言模型能力的来源4-2数据来源说明维基百科在线百科,严谨图书经典为主的古登堡计划和自助出版

平台Smashwords等杂志期刊论文:ArXiv等链接WebText,RedditCommon
Crawl开源项目,爬取互联网数据GitHub程序员聚集地合计700多GB,约有19万套四大名著的阅读量,5000亿左右的token数量GPT-3的训练数据9/48数据:大语言模型能力的来源4-3语言过滤指标过滤统计特征过滤关键词过滤质量过滤句子级别文档级别数据集级别冗余去除隐私数据发现隐私数据消除隐私消除子词词元化字节对编码WordPiece词元切分小红爱吃苹果,**@她吃完苹果会写作业。小红爱吃苹果。她喜欢吃苹果。小红的身份证号是32343455.小红爱吃苹果。小红/爱吃/苹果数据处理流程10/48数据:大语言模型能力的来源4-4AB数据比例数据顺序与轮次例如,维基百科、知乎、互联网爬取的文本和代码数据等,它们在训练中占据的比例会影响模型的文本生成能力、知识覆盖面和推理能力。在训练时,数据被分批送入模型,不同类型数据的输入顺序及每轮训练中的数据比例是否一致,都会对模型的训练效果产生影响。数据混合策略11/48能力:大语言模型的能力层级语言表达能力是模型最基本的能力。如ChatGPT等模型,早在2018年GPT-1就已展现此能力,能生成自然语言和代码语言,未来或能理解动物语言。因语言模型本质是建模语言规律,通过大量数据转化为模型,使大语言模型在语言处理上出色。模型的推理能力是涌现能力,需100亿级以上参数。目前的大模型中,100亿以上的基本上都有一定的推理能力,得益于强化学习技术的突破。模型具备知识存储能力,能存储海量公开知识,但存在“幻觉”和灾难性遗忘问题,大模型在知识存储上表现更佳。推理能力知识存储能力语言表达能力12/48案例剖析——GPT的“成长之路”预训练(自监督)监督微调人类反馈强化学习阶段1:模型训练接收输入处理输入进行推理生成输出上下文学习+训练知识阶段2:推理13/48深入“大脑”:GPT的工作流程010203概率模型构建构建一个能够准确表示token序列分布的概率模型。这个模型需要捕捉复杂语言模式和语义关系。表示学习利用神经网络创建能够理解上下文的有效token表示。参数优化通过前向/反向传播、迭代优化模型参数,以最小化误差。1.训练阶段:构建大脑010203上下文生成接收输入序列,并生成上下文相关的内部表示。自回归生成根据先前生成的序列,按顺序预测下一个最有可能的token(NTP)。输出序列重复生成直到达到指定长度或生成特定结束标记。模型参数保持不变。2.推理阶段:应用知识14/48深入“大脑”:GPT的记忆存储在模型的数百万或数十亿个参数中。这种记忆在推理过程中是静态的,反映了其训练数据中的海量知识和语言模式,确保了知识的一致性和稳定性。长期记忆主要通过输入上下文(即提示和正在进行的对话)来管理。这种动态记忆使模型能够在特定任务或对话中保持对话流、跟踪细节和保持连贯性。短期记忆15/48小结数据处理和模型规模,哪个对AI能力影响更大?为什么?大语言模型有哪些能力?16/48大语言模型的应用大语言模型应用场景分析3-1如撰写文章、编写文案等文本生成将文本从一种语言翻译成另一种语言翻译对长文本进行概括,提取出主要内容摘要对文本进行情感分析、主题分类等文本分析2341语言处理场景18/48大语言模型应用场景分析3-2模型回答用户提出的问题,提供准确且相关的信息智能问答系统它能够处理客户的咨询、问题解答和其他常见服务需求,减少人工客服的负担,提高响应速度和服务质量客户服务系统帮助企业和用户分析数据趋势、生成报告、提供商业洞察等,通常应用于金融、市场研究等领域。智能数据分析助手231知识助手场景 19/48大语言模型应用场景分析3-3模型将复杂的任务分解成多个可执行的步骤,并依次执行任务分解与执行模型能够理解编程语言,解释代码逻辑,甚至生成新的代码代码解释与生成如调用代码解释器、使用软件接口plug-in等软件接口操作231任务执行场景20/48大语言模型应用类型分析在模型即服务中,模型被打造成一种服务,通过API或其他形式提供给用户使用。例如,OpenAI提供的API服务,开发者可以通过调用API来利用模型的强大能力进行各种自然语言处理任务。模型增强AI赋能指的是将大语言模型嵌入到现有的工作流程和工具中,以提高效率和质量。这类应用通过将模型与现有工具结合,实现工具功能的增强和流程的改进。AI赋能AI原生应用是基于人工智能技术创造出的全新应用场景和需求。这些应用是完全依赖于人工智能技术的创新。如斯坦福小镇的智能代理(Agent)应用,靠多个智能代理协作完成复杂任务。AI原生21/48应用方法微调技术promptRAG在已有的预训练模型基础上,使用特定任务的数据对模型进行再训练,以优化其在该任务上的表现。结合检索和生成的技术,通过检索外部知识来增强模型的回答准确性和相关性。设计特定的输入提示来引导模型生成预期的输出,常用于对话系统和文本生成。22/48大模型微调技术大模型微调微调是对预训练模型进行进一步训练的过程。被微调的模型可能是预训练的基座模型,也可能是已经微调过的模型。微调的核心在于引入新数据,调整模型的训练数据分布,使模型参数进行适度变化。与完全重新训练不同,微调可以只对部分参数进行小幅度调整,以保留模型原有的知识和能力。23/48全量微调3-1"总结这篇文章的主要观点。"[相应的总结]"解释光合作用的过程。"[关于光合作用的详细解释]指令遵循微调(SupervisedFine-Tuning,SFT)24/48全量微调3-2对齐微调(AlignmentFine-Tuning)25/48全量微调3-3全量微调的挑战tokens选择、隐私处理、混合策略、数据顺序和训练轮次等batchsize、训练轮次、checkpoint设置等如QKV矩阵运算、自动微分、梯度计算等GPU利用率、显存管理、精度选择(如FP16、FP32或TF精度)等计算方法优化超参数调整硬件参数优化数据处理26/48高效微调(回顾)参数高效微调技术27/48通过在输入前添加一组可学习的“前缀”嵌入,来引导模型生成更符合特定任务的输出,而不需要修改模型的其他部分。PrefixTuning在训练时,固定住原来预训练模型的参数不变,只对新增的Adapter结构和LayerNorm层进行微调,从而保证了训练的高效性。AdapterTuning核心思想就是通过低秩分解来模拟参数的改变量,从而以极小的参数量来实现大模型的间接训练Lora全量微调与高效微调优缺点全量微调优点缺点性能最优:能够充分利用模型的所有参数,通常在特定任务上达到最佳性能计算资源消耗大:需要训练所有参数,对硬件资源要求高适应性强:不受限于任务类型或数据集特性,适用范围广训练时间长:由于参数量大,训练过程耗时,不利于快速迭代无需额外优化:直接对所有参数进行调整,无需复杂的优化策略容易过拟合:在小规模数据集上容易出现过拟合高效微调计算资源消耗低:仅更新少量参数,显著减少计算资源需求,适合在资源有限的环境中使用性能上限较低:在某些复杂任务上,可能无法达到全量微调的性能水平训练速度快:由于更新参数少,训练时间大幅缩短,适合快速迭代适应性有限:对某些特定任务或数据集的适应能力可能不如全量微调,尤其是在任务复杂或数据分布差异较大时泛化能力强:较少的参数更新降低了过拟合的风险,尤其适用于小规模数据集优化难度较高:部分高效微调方法(如PrefixTuning、P-tuning)需要对训练过程进行精细优化28/48为什么使用RAG29/48RAG的工作原理6-1数据输入获取案例用户输入:“人工智能的发展历程是怎样的?”文档方面:准备人工智能相关的资料30/48RAG的工作原理6-2信息检索-检索相关文档文档切分:将长文档切分成较小的段落或片段。文本向量:将输入问题和知识库文档转换为向量表示。知识库和向量数据:构建和存储包含向量表示的知识库。检索和排序:根据输入问题检索和排序相关文档片段。31/48RAG的工作原理6-3信息检索-检索相关文档案例系统从知识库中检索相关的文档。例如,检索到以下文档:文档A:介绍了人工智能的起源和早期发展。文档B:讨论了人工智能在20世纪末的突破。文档C:描述了近年来深度学习的发展及其影响。32/48RAG的工作原理6-4答案生成prompt预处理答案生成答案筛选格式化输出输出答案33/48RAG的工作原理6-5答案生成案例答案可能是:“人工智能的发展历程可以分为几个阶段:起源和早期发展、20世纪末的突破、以及近年来的深度学习革命。这些阶段共同推动了人工智能技术的快速发展和应用。”34/48RAG的工作原理6-635/48RAG适用场景动态知识环境在需要频繁更新知识库或处理最新信息的场景中,RAG表现出色。开放域问答当系统需要回答广泛且不可预测的问题时,RAG能够灵活地检索和整合相关信息。专业领域应用在医疗、法律、金融等专业领域,RAG可以有效结合专业知识库和语言模型,提供准确的专业回答。大规模信息处理对于需要从海量文档中快速提取信息的场景,如企业知识管理、学术研究等,RAG能够显著提高效率。个性化服务在需要根据用户背景或历史交互提供定制化回答的应用中,RAG可以有效整合用户相关信息。36/48RAG实际应用场景客户服务系统科研文献助手法律咨询系统医疗诊断辅助企业知识管理系统RAG可以协助律师快速检索相关法律条文、判例和解释,提供更准确的法律建议。RAG可以帮助客服人员快速检索产品信息,提供准确的客户支持。在科研领域,RAG可以帮助研究人员快速定位和综合大量学术文献中的关键信息。通过检索最新的医学文献和病例,辅助医生进行诊断和治疗决策。在大型企业中,RAG技术可以有效整合和利用企业内部的庞大知识库。37/48RAG的优势与局限优势局限提高回答准确性:通过引入外部知识,减少知识幻觉计算资源需求:实时检索和知识整合需要较高的计算资源。增强专业性:能够处理特定领域的专业问题。知识库质量依赖:系统性能很大程度上取决于知识库的质量和全面性。实时性:可以利用最新更新的知识库内容。潜在的检索偏差:检索结果可能不完全匹配用户意图,影响回答质量。灵活性:适应各种类型的查询,包括开放性问题。RAG优势与局限38/48RAG与微调的对比RAG微调原理RAG结合了检索(Retrieval)和生成(Generation)两部分。首先,它通过检索模块从外部知识库中获取相关信息,然后将这些信息作为上下文传递给生成模块,用于生成回答。微调是对预训练语言模型进行再训练,使其在特定领域或特定任务上表现更好。通过在包含领域特定知识和问题的训练数据上进行微调,模型可以更准确地回答相关问题,减少幻觉现象。实现方式检索模块生成模块选择预训练模型准备领域特定数据微调训练应用场景适用于需要动态获取最新信息的场景,如实时新闻、问答系统。适用于知识库比较完善且易于更新的系统。适用于特定领域的应用,如医学、法律等。适用于数据量较大且领域知识稳定的场景。区别依赖性:RAG依赖于外部知识库的检索,而微调依赖于高质量的领域特定数据。灵活性:RAG更灵活,可以动态获取最新信息;微调依赖于训练时的数据,更新较为困难。实现复杂度:RAG需要构建和维护检索系统,微调需要大量高质量标注数据和计算资源进行再训练。39/48小结微调和RAG,分别适用于解决什么问题?RAG的工作流程分为哪两个核心阶段?它如何解决模型的“幻觉”问题?40/48大语言模型的评估现有的模型评估的方法评估方法优点缺点客观题测试自动化程度高有刷题”现象,即模型并非真正理解问题,而是通过记忆相似的输入输出进行推断,影响评估的公正性。人工测评贴近实际使用场景,能够捕捉更丰富的模型表现覆盖面有限,评估标准主观,不同测评者可能对同一模型的表现有不同的理解和评价,因此在一致性上存在问题。AI裁判评估有潜力实现更加一致和快速的评估存在模型本身的偏见和限制,可能会影响评估结果的客观性。42/48模型评测的数据集43/48由DanHendrycks和一组研究人员于2020年发布,它由约16,000个多项选择题组成,涵盖数学、哲学、法律和医学等57个学科。MMLU由HuggingFace设立的一个公开榜单,是目前大语言模型领域最具权威性的榜单。Open大语言模型Leaderboard由LMSYSOrg发布(加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织)。ChatbotArena一个针对中文大语言模型的综合性评测基准,旨在评估大语言模型在多个能力维度上的表现,包括基础能力、专业能力和中文特性能力。SuperCLUE由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言大语言模型的综合性考试评测集C-Eval该数据集初始收集50,247个Python相关问题,经严格筛选与标注,最终确定10,960个问题。这些问题广泛覆盖Python编程各知识点,极具多样性。QACP实战训练—AI产品情报分析师挑战任务描述本次挑战将模拟一个真实的市场竞争或投资分析场景。你将扮演一名顶尖的产品情报分析
