春节前后AI的火热让AI在极短时间就获得了极大的关注。投资人意气风发,希望在AI上能投出AI时代的独角兽企业;创业者磨刀霍霍,加速跑步入场,万物兼可加AI;企业老板忧心忡忡,公司2025年必须拥抱AI,先部署一套满血Deepseek。

AI的热闹依旧在持续,大模型、机器人等主流玩家每周都要上热搜,但主流以下却并没有大批实际AI应用出现。大众对机器人的猜想是:打仗得有多厉害;对deepseek的印象是,和它聊天真有趣。但是这些想法和感受,并没有办法让AI实现落地,投资人们对于AI的期待是企业流程智能化、机器人养老/送外卖、自动驾驶开滴滴;创业者对于AI的期待是有用没用加AI,加了AI有故事;企业主对于AI的期待是,上AI等于降本增效,上AI就可以优化成本。可自从AI从2023年爆火至今,似乎这些猜想都没有实现。

对于机器人、自动驾驶等领域,我们过往并没有深度参与,也无法深度理解其中的技术难点和应用难点,但是对于企业侧,或者说数字化,我们过往有一些认知,结合以往认知,我们可以推测AI落地正在面临的一些难题。

顺着AI当下的火热,结合我们在一线的实际体感,正好和大家分享一下AI在企业内落地的难点,这次主要分享AI落地难点的关键一环——数据。

对于AI在企业内落地,不管是之前的agent公司还是已经部署上deepseek的公司,都有一个很明显的感受,不准!对于员工而言,不准就意味着没办法切实提效,久而久之就不会使用。而AI厂商在实际落地过过程中也是困难重重,最直观的感受就是企业数据怎么采,采多少,如果让AI处理采集上来片面的信息,结果往往是看着还行,但在企业内用在什么地方都不太能用;如果员工通过大篇幅的对话不停阐述清楚一个问题或者自己的需求,那结合最终结果来看,这效率还不如自己做了。所以对于AI落地的服务商,怎么从企业内取数,取什么数以及如何维护都面临着极大的挑战。

企业数据痛点从过往就一直存在,在AI时代又再一次被关注。趁着现在,我们把对于企业内数据的一些思考给大家做一些分享,希望对大家有用。如果大家也在找一些解决方案,也欢迎与EMOO Search联系。

(图片由Ideogram一次生成,未经任何处理)


数字化、智能化快速发展的当下,企业数据的增量远超过往任何时候。

在基础设施不断完善并且持续升级的背景下,企业产生数据、存储数据、传输数据的速度快速增长,各类管理系统、SaaS、存储服务器等专注于企业数字化的软件层出不穷。但是当下这些软件很多无法真正帮助企业发展,同时采集和存储的数据也不能对企业经营决策提供强有力的支持。

虽然国内企业对数字化已有共识,国家在数字经济上也持续加大投入,但是不可否认国内除去特定行业/场景,大多数单位、企业、各类组织仍然处在信息化过程中,部分步入数字化,极少能摸到数智化。

导致这个情况的原因很多,我将自己在企业经营过程中的所见所想记录在本文中,文章将从挑战与机遇两方面入手,分篇章讨论当下企业在数字化转型中遇到的问题以及当下技术能解决到何种程度,文章内容部分参考文献,部分结合自己过往所见所闻,当然也不排除有主观部分。

希望以下内容对大家有所帮助,也欢迎大家积极留言探讨。

企业内的数据到底是什么样的?

对于企业内数据到底是什么样的,我们主流有以下分类:

按功能:

业务数据(市场数据、销售数据、客户服务数据等)

管理数据(人力资源数据、财务数据等)

生产数据

研发数据

按数据类型:

结构化数据

半结构化数据

非结构化数据

按敏感程度:

公开数据

内部数据

机密数据

其它分类方式

列举以上类型,主要便于大家对企业内数据的快速理解。

企业数据从采集、存储来看,都是通过采集器、流程引擎及服务器数据库等进行采集及存储。

较为典型的如:财务系统中,工资数据、账目流水等,是用财务软件采集、记录,按照固定格式编辑好的结构化数据,类似于将Excel表格存储在数据库中,大家都能看懂,也知道怎么用。

但是财务系统中,诸如:发票识别、合同扫描等,以图片、PDF等形式存在的非结构化数据,是以文件形式存储,无法直接进行识别分析,需要通过特定技术手段,如OCR、向量存储等方式处理后才能使用的数据。

对于采集和存储好的数据,若是可针对内外部公开的数据,可以通过知识库、云文档或者附件等形式存储在特定服务器中,供外部客户及内部员工等查看。

对于企业内非公开数据,企业要根据各部门的职能情况,对各系统及服务器数据库进行权限配置,对数据进行合理的管理。一方面对对应人员的权责利以及数据的有效性进行一定的监督,另一方面也避免了企业内数据泄漏、跨部门干预等乱象。

如:销售人员不能触碰公司的财务数据,一线研发不需要知道客户的成交金额,行政人员也无需了解研发的bug修复情况等。

通过对工具权限的配置,企业将数据进行了一定的隔离,保证了企业内不同部门采集存储数据的准确性,安全性等。

当然,为了保证企业整体数据的安全,国内外部分企业也会通过自己采购服务器数据库等方式保证所有系统及数据存储在自有服务器中,通过物理方式对数据进行保护。

使用数据时,企业需要让特定人员,如财务总监、销售总监等专业人才经过处理、分析后,管理者/CIO经过对齐才能转化成初步可用数据。对于不同部门产生的数据,因为各自部门工作方式及系统的差异,彼此想要互相理解是不现实的,而因为工作方式和系统的不一致,导致大家在数据处理中,想要对齐彼此的数据也会尤为艰难。

这里除去工作方式不同、思维方式不同、系统不同等原因,还有一个更为重要的原因 - 人为因素。但凡有人参与的活动与动作,就意味着一定程度的无序。这种情况下,企业想要获取一份完整可信的经营数据大都是不现实的,最终企业决策虽然大家都在说数据驱动,但实际上数据只能作为部分参考,更多的依然是靠管理者的经验等进行判断。

AI落地难题:没有好的数据,哪来好的落地综上,虽然当下很多企业已经加快了信息化速度,也在以相当的速度完成数字化,但是其中面临的挑战是尤为多样的。其中的投入产出更是无法准确衡量。


这次,我们先讲最基础的,数据类型导致的挑战。

半/非结构化数据

据IDC预测,全球2024年内将生成159.2ZB数据,而等AI时代到来后,数据将进一步爆发式增长。由于国内对于数字经济的大力推动,预计到2025年国内数据存储将增至48.6ZB。

在产生的数据中,约有10%-15%的数据为结构化数据,剩余85%-90%为半结构化或者非结构化数据。

早先时候,大家对于搜索的认知大都集中在C端,如谷歌、百度、必应、360搜索等,这部分搜索平台对于非结构性文件检索没有明确需求,而C端的需求也大都集中在通过搜索平台,导航至特定网站或者完成特定任务。

但是B端的需求却不完全相同,虽然同为搜索,但企业内的很多材料都是以非结构化的形式存在,如果检索过程只能找到识别到结构化数据中的关键词或者部分系统中应用的关键词,而无法检测到非结构化数据中的内容,那大部分事后将无法完整的支持企业内各类员工使用。

对于非结构化数据的检索,直到向量搜索逐渐成熟才开始被逐步解决。随着向量数据库及向量搜索的逐步成熟,企业内的检索可以不局限于简单的检索结构化数据,也可以定位到非结构化数据中的对应部分,这就为企业员工提供了更加丰富的企业知识,可以更好的帮助员工完成自己的工作。

考虑到AI技术的突飞猛进,如果仅支持结构化数据的检索和分析,那么结合大语言模型及检索增强等AI能力,产出的【回复】将不可避免的出现极大偏差,无法被使用。

再者是软件服务商/SaaS厂商等自身原因给甲方带来的挑战。

SaaS或软件服务提供商自身

大部分人对于企业内数据的存储也存在相当的误区。当下企业内数据的采集和存储还面临多项挑战,其中非企业自身原因的原因有:

  • 系统数据存储无序,各类系统自身也无法说明自身软件存储逻辑;

  • 企业服务SaaS或本地版本软件极少支持全量检索功能,即使类似知识库软件,也无法提供准确性较高的搜索功能;

  • 软件的长期运维会因为软件公司或企业内运维人员的流失而无法使用和回溯;

  • 其它

其实不难理解,对于SaaS厂商或者软件服务提供商,他们的核心能力不在数据,而对于数据的处理分析能力最多做到刚刚够用或者说可以展示的漂亮就可以,没有也不会影响销售,他们的核心能力还是各自特定领域的knowhow,数据的流转和定义好关键节点的权责利上。

当下很多企业对于信息化数字化存在误区,不管是甲方还是乙方,都在不停强调通过系统/工具实现降本增效。企业对于降本增效的追求无可厚非,但当下企业服务软件能够确保实现降本增效的,却着实不多。

不仅不多,大多数企业服务软件常挂在嘴边的点通常是:留痕、回溯、记录、管理、展示等词语,而对于软件带来的额外学习成本、使用成本、维护成本等,软件厂商大都闭口不谈。

对于常挂在嘴边的几个词语,当甲方切实需要时,乙方也无法快速的响应,需要配合甲方人员以及自身开发人员,做一定代码支持的情况下,才能满足甲方诉求。

从商业化角度来说,很多软件服务商也在面临项目制还是产品化的问题。不管上云与否,订阅模式还是OP模式,在全球市场中,都存在不同程度的个性化需求,如何找到符合自身产品的客户,如何保证自己的核心竞争力,如何保证自己的毛利等,都是大家正在思考的问题。而市场的变幻莫测,客户的多样性以及软件行业鱼龙混杂的现状,都让很多厂商反复横跳,既看不清市场,又没有战略定力,导致产品要么同质化严重,要么四不像。


对于企业内工具多,系统多的问题也开始令人头疼。

企业内软件工具多

企业内和数据有关联的软件工具很多,目前需求旺盛且高频被使用的大致有以下几类:

基础设施:

服务器,如:aws、阿里云、腾讯云、华为云、Ucloud等;

数据库,如:Oracle、MySQL、mongoDB等;

通用办公软件:

IM平台,如:钉钉、飞书、企业微信等;

企业邮箱,如:网易企业邮箱;部分与IM平台高度绑定,如:腾讯企业邮箱等;

知识库/项目管理,如:Pingcode、oneswiki、语雀等;部分与IM平台高度绑定,如:腾讯云文档、飞书云文档等;

业务/管理系统

ERP,如:SAP、用友ERP、鼎捷ERP等;

CRM,如:salesforce、纷享销客、销售易等

OA,如:泛微、蓝羚等

财务,如:金蝶等;

人力资源,如:北森、moka、二号人事部等;

数据埋点/治理/分析,如:泛微、润乾、神策等;

其它

PaaS产品:

低代码工具,如:Mendix、活字格、得帆等;

无代码工具,如:Airtable、kiss flow、简道云、明道云等;

其它产品

国内企业在对软件产品的认知上也都有一定的共识。

比如基础设施类对技术要求高,投入大,国内竞争格局也已经相对固定,各家虽有自己特色,但满足日常使用上,已经没有明显差异。

对于通用产品,目前也是几家大厂在激烈角逐,IM已经成为企业重要的工具,基于IM做大量的集成,功能拓展等也成了大家的共识,各家也在你追我赶,尽可能做出IM功能外的差异化,但在日常使用上已经趋同。

对于业务/管理系统,目前是百花齐放,各自为战。除去以上列举的部分产品,国内CRM、OA、ERP等均有大量厂商提供各类服务。而各类厂商也在发展过程中,从定制化服务,到上云,再到拓展业务线等,也都各有不同,各有交集。

PaaS产品在国内仍处于培育阶段,国内PaaS仍未从市场端找到自己的身位,在销售过程中逐步与各类业务/管理系统发生交集,产品本身也因为各种原因,没办法发挥自身价值,仍然有较长的道路要走。

从企业经营的角度,若将以上产品在企业内部的重要性和价值进行高低排序,相信大部分企业的排序是:业务/管理系统——通用办公软件——PaaS产品——基础设施。


由于企业端软件工具多,随之而来的问题自然也逐渐增加。包括但不限于:

管理难

管理难是多维度的难,其中尤其以运维、业务理解、服务响应等尤为突出。

除去基础设施类产品,任何一套工具的使用不仅仅是在维护工具本身,其背后的服务器、数据库等都将是维护的对象,而往往企业不止购买一套工具,这就意味着所有的维护成本都是指数级上升。

不仅如此,维护仅仅只是保护系统不出问题,但是实际使用中,面临各方的问题,我们还需要理解工具本身的逻辑,使用方式,甚至还需要有一定的编程能力等。

而这样就意味着,管理这些工具需要的绝对不是一件轻松的事。

系统墙

系统墙是目前数字化进程中,摆在所有企业及供应商面前的一个难题,但是也是亟待解决的。

我们通过定制开发,API等方式可以解决系统墙中的部分问题,但是无法解决系统墙的本质问题,而就API而言,据统计,全球企业服务软件中,仅有不超过30%的企业对于API持乐观态度,并且会积极且规范的提供服务。

对于系统墙,甲乙方的看法是无法达成一致的,或者说即使能彼此理解,但在执行过程中也是无法很好落地的。系统墙本身不只是权限、接口等问题,更重要的乙方商业模式、甲方工作方式、双方业务理解等方面的问题。

权限配置

企业软件对于权限的要求是极高的,权限对于企业意味着确保分工协作体系的顺畅运作和维护企业信息安全。没有权限的系统将在企业内寸步难行。

但是权限配置在不同产品中的体现形式是不同的,即使有如RBAC等模型被广泛使用。对于不同工具类产品,其权限配置也会因为不同原因而出现很大偏差,比如不同产品中组织架构的设置,系统内初始数据的导入,权限配置方式等等,都会一定程度上影响权限的实际使用。

除此之外,企业内也会出现很多系统内外权限不一致,人为导致的数据泄漏等情况。当员工咨询或者讨论部分问题时,难免会出现因为线下无法知晓对方权限而给出对方权限外数据的情况。

员工满意度低

由于企业发展过程中,工作方式的逐步改变,知识工作者已经逐渐成为了工作中最多的群体。这些人的工作方式主要是通过电脑、手机等方式完成工作。

随着企业工具的增多,员工需要使用的系统也将会逐渐增多,对于无门槛或者低门槛的工具,比如IM、邮箱等,大家可能接受度尚可,但是对于有一定使用门槛,或者说改变了自己工作习惯的工具,那将不可避的出现抵抗情绪,而系统增多带来的多平台切换,信息重复录入,难以检索等等问题将进一步暴露。

其它


企业在数据问题上的需求是一直存在的,不管大小企业,在当下都需要相当程度的数据支持。沉重的历史包袱和混乱的竞争环境让企业数据变得难以发挥价值。而维护及处理数据的高昂成本让众多企业望而却步,最终不得不让数据越来越混乱。

AI的到来并没有改变底层数据问题,不过AI的能力确实能解决部分原本无法解决的数据问题。但对于AI而言,更重要的是企业数据的实际应用,AI能力让企业内数据价值有可能被极大程度的发挥,这是以往任何时候都没有过的,AI结合企业内高质量数据将极有可能带来巨大的想象力,或许对于很多企业而言,是时候开始考虑怎么解决企业数据问题了。