MLOps
机器学习运维(MLOps)是一组工作流实践,旨在简化 ML 模型的部署和维护过程。AI 平台应支持模型的训练、服务和监控等 MLOps 阶段。
大语言模型运维(LLMOps)是 MLOps 的一个子集,重点关注对生产环境中的大语言模型进行运维管理的一系列实践方法、技术和工具。LLM 可以执行文本生成、内容总结、信息分类等任务,但是会占用 GPU 的大量计算资源,这意味着您的 AI 平台需要足以容纳和支持 LLM 的输入和输出。
生成式 AI
生成式 AI 依靠基于大型数据集训练的神经网络及深度学习模型来创建新内容。在经过充分的训练后,该模型能够将从训练中学到的知识应用到实际场景中,这被称为 AI 推理。
生成式 AI 涵盖了许多最终用户与人工智能相关联的功能,例如生成文本和图片、数据增强、对话式 AI(例如聊天机器人)等。一定要注意的是,您选择的 AI 平台在支持生成式 AI 功能方面应达到速度和准确性要求。
可扩展性
可扩展的模型才是成功的模型。为了进行扩展,数据科学团队需要一个集中式解决方案,以便构建和部署 AI 模型、进行实验和微调以及与其他团队合作。这些都需要大量的数据以及计算能力,最重要的是,要有一个能够满足这些需求的平台。
模型取得成功后,您会希望在不同的环境中复制这些模型:本地环境、公共云平台以及边缘环境。可扩展的解决方案应支持在上述所有环境中进行部署。
自动化
当企业组织要投入生产的模型从少数几个发展到十几个或更多时,您就需要考虑自动化问题。数据科学管道的自动化可让您将最成功的流程转化为可重复的操作。这不仅可以加快您的工作流,还能带来更好且可预测性更高的用户体验,并提升可扩展性。还可以减少重复性任务,让数据科学家和工程师腾出时间进行创新、迭代和优化。
工具和集成功能
开发人员和数据科学家利用工具和集成功能来构建应用和模型并高效地进行部署。AI 平台需要能够支持您的团队已在使用的工具、语言和存储库,且可与您的整个技术堆栈和合作伙伴解决方案集成。
安全与合规
您应针对 AI 平台建立强大的安全实践来降低风险并保护数据。在培训、开发等日常运维中,扫描通用漏洞披露(CVE)并通过访问管理、网络分段和加密技术为应用和数据建立运维保护至关重要。
责任和监管
AI 平台还必须允许您以符合道德标准且合规的方式使用和监控数据。为了保护企业组织的数据和用户数据,选择一个对可见性、跟踪和风险管理策略的支持贯穿整个 ML 生命周期的平台非常重要。该平台还必须符合企业组织的现有数据合规性和安全性标准。
支持
预配置的端到端 AI 平台最重要的优势之一是其附带的技术支持。借助跨部署环境对错误的持续跟踪和修复,您的模型的执行效果会更好。一些 AI 平台提供商还通过提供上手和培训资源来帮助您的团队快速开始使用。如果企业组织选择利用开源工具自行构建平台,则建议考虑选择那些支持机器学习功能集和基础架构的供应商。
