2025 年,DeepSeek 帶火 “大模型 + RAG” 模式后,很多領先的企業(yè)發(fā)現(xiàn),雖然已經(jīng)做了數(shù)據(jù)治理,但是大部分企業(yè)的數(shù)據(jù)基礎還并不能達到 AI運用所提出的新要求,無法有效支撐AI的高價值場景落地。因此,面對AI應用落地的需求,企業(yè)做數(shù)據(jù)治理時,需要疊加知識治理,為企業(yè)決策提供充足有效的數(shù)據(jù)與知識來展開,為AI提供“高營養(yǎng)含量的糧食”。
找出3 個 “攔路虎”
別讓知識變 “廢柴”
AI 建設方式的轉變后對企業(yè)私域數(shù)據(jù)的治理要求也變了。去年的核心是 “為模型訓練準備數(shù)據(jù)”:垂類模型依賴高質量的專屬數(shù)據(jù)集,數(shù)據(jù)治理聚焦結構化數(shù)據(jù)的準確性、完整性、多樣性。而今年轉向了“為檢索準備多樣化的知識”。很多企業(yè)卡在三個痛點 :
痛點 1:非結構化知識 “躺平”,大量隱性知識沒被激活
企業(yè)里大部分數(shù)據(jù)是文檔、視頻、IoT 日志這類非結構化數(shù)據(jù),但很多企業(yè)還在用 “文件夾分類” 的老辦法管理。比如一家制造企業(yè),大量設備維修手冊散在不同系統(tǒng),有的是 PDF 掃描件,有的是 Word 草稿,AI 檢索時要么 “讀不懂” 掃描件的手寫批注,要么分不清不同版本的差異。
更頭疼的是,這些知識還在不斷增加:每月新增合同、客服聊天記錄等,卻沒人 管 “哪些該歸檔”“哪些要標注關鍵信息”。這些 “躺平” 的知識,其實是企業(yè)的 “隱形資產”,卻因為沒治理,變成了 AI 檢索的 “負擔”。
痛點 2:知識切片 “亂切”,RAG 變成 大海撈針
就算非結構化數(shù)據(jù)整理了,AI 檢索還是不準,問題可能出在 “切片” 和 “召回” 上。比如某金融企業(yè),把一份信貸政策文檔 “一刀切” 分成多段,結果 AI 要找特定條款時,相關內容被拆在多個切片里,召回時只抓到部分,自然給不出準確建議。
這就是“缺乏標準化的切片與召回機制”:有的切片太粗,把不同主題混在一起;有的切片太細,破壞了知識的邏輯關聯(lián);召回算法只認 “關鍵詞匹配”,不會理解 “同義詞”—— 比如 “逾期客戶” 和 “不良信用客戶” 明明是一回事,AI 卻當成兩個概念。明明有知識,AI 卻 “不會用”,比沒知識更讓人著急。
痛點 3:知識治理 “沒規(guī)矩”,AI 輸出不可信
知識的質量把關沒跟上,導致知識的時效性、準確性、權威性無法校驗。
很多企業(yè)沒有明確的規(guī)則:誰來負責知識的 “更新時間標注”?如何驗證知識的 “準確性”?過時的知識怎么及時下架?結果就是 AI 基于 “帶病知識” 輸出建議,管理層如果用錯了,損失將不可估量 。
AI應用下的數(shù)據(jù)治理
三個 “轉向” 很關鍵
在面向企業(yè)AI應用落地需求下的數(shù)據(jù)治理,并不是簡單的 “換工具”那么簡單,而是要 “換邏輯”。數(shù)據(jù)治理有三個核心轉向 :
轉向 1:治理目標,從 “喂飽模型” 到 “幫人決策”
去年很多企業(yè)做數(shù)據(jù)治理,是為了訓練垂類模型,重點是 “數(shù)據(jù)準不準”。但如今,治理目標變成了 “讓 AI 能給出可靠的決策建議”。 比如銷售經(jīng)理問 “這個客戶該不該推高客單價產品”,AI 要能快速檢索到 “客戶歷史消費、信用評級、服務反饋” 等知識,給出有依據(jù)的建議。簡單說,過去是 “為模型準備數(shù)據(jù)”,現(xiàn)在是 “為決策準備知識”。
轉向 2:治理對象,從 “結構化數(shù)據(jù)” 到 “多模態(tài)知識”
過去數(shù)據(jù)治理的重點是 ERP、CRM 里的結構化數(shù)據(jù)(比如客戶姓名、訂單金額),但今年必須覆蓋 “全類型知識”:合同、規(guī)范等 文檔;設備運行、系統(tǒng)操作等日志 ;施工照片、產品圖紙等影像。治理的核心也從 “標準化數(shù)據(jù)” 變成 “激活知識”:把掃描件里的文字 “讀出來”,把視頻里的關鍵步驟 “標出來”,把分散在不同系統(tǒng)的知識 “連起來”,就像把散落的珍珠串成項鏈,AI 才能 “拎得動”。
轉向 3:治理模式,從 “項目式突擊” 到 “常態(tài)化運營”
過去很多企業(yè)做數(shù)據(jù)治理,是 “搞項目”:找個團隊集中一段時間整理數(shù)據(jù),項目結束就停了。但如今,知識每天都在新增、變化,比如新的行業(yè)規(guī)范出臺、客戶需求更新,治理必須 “跟著業(yè)務走”。
這就需要 “自動化工具 + 長期組織”。用友建議可以用 DataOps 工具自動同步新數(shù)據(jù),用智能體定期檢查知識質量,再成立專門的 “知識治理小組” 負責規(guī)則制定、問題整改。
用友BIP企業(yè)AI
為AI應用搭起 “高速路”
數(shù)據(jù)與知識是數(shù)智化的核心生產要素,企業(yè)需要構建統(tǒng)一的數(shù)據(jù)平臺,整合分散在企業(yè)各處的數(shù)據(jù)與知識,通過清洗、標注、建?;蛘邎D譜化、向量化等過程,形成標準化、高質量的數(shù)據(jù)資產與知識,為精準決策、智能運營提供支持,面向AI提供高質量的數(shù)據(jù)與知識的供給。這些都需要企業(yè)加強與更好地開展數(shù)據(jù)治理與知識治理。
1、破 “非結構化空白”:用平臺激活隱性知識
針對非結構化知識 “躺平”,用友的核心是 “先整合,再賦能”:
全類型知識接入:用友 BIP 的 “企業(yè)數(shù)據(jù)云”, 作為底層支撐,匯聚了企業(yè)業(yè)務大數(shù)據(jù)、企業(yè)知識資產數(shù)據(jù)以及用戶行為數(shù)據(jù),為上層模型 和應用提供豐富且關鍵的數(shù)據(jù)源。
YonGPT 模型矩陣支撐:YonGPT2.0 升級的模型矩陣里,有專門的多模態(tài)大模型,可以低成本的選擇適合企業(yè)場景的模型。友智庫基于YonGPT構建的 企業(yè)級數(shù)智化搜索平臺 ,聚焦企業(yè)知識管理與智能搜索場景,可支持非結構化數(shù)據(jù)的搜、問、推、創(chuàng)等知識庫場景。提供“沉浸式”對話交互體驗,助力企業(yè)快速獲取行業(yè)、領域及內部知識資產。
友智庫讓知識無處不在
2、破 “切片召回不匹配”:讓檢索結果準確
針對切片亂、召回難,用友的 RAG 框架做了 “專項優(yōu)化”:知識切片不是 “一刀切”,而是按 “知識邏輯” 切。 比如一份合同,會按 “合同主體、權利義務、違約責任” 分成對應切片,表格數(shù)據(jù)單獨做 “結構化處理”,避免關鍵信息被拆;基于企業(yè)私域的知識庫、知識圖譜,將知識嵌入業(yè)務。企業(yè)級數(shù)據(jù)與知識庫的深度整合,將企業(yè)內部的業(yè)務數(shù)據(jù)和專家經(jīng)驗轉化為知識形式,通過實體、關系和屬 性的定義,通過知識圖譜構建一個結構化的知識網(wǎng)絡。在這個網(wǎng)絡中,企業(yè)的產品信息、客戶數(shù)據(jù)、業(yè)務流程等 元素相互關聯(lián),為 AI 模型提供了一個全面且語義豐富的知識基礎。
3、破 “治理沒規(guī)矩”:需要專業(yè)組織來保障
針對知識質量沒保障,用友、認為必須有相應的組織來長期負責數(shù)據(jù)與知識的運營,從制度、 流程以及內部溝通的流暢性方面保障數(shù)據(jù)與知識治理工作。這一組織體系應明確職責劃分、促進跨部門協(xié)作、具備專業(yè)實力,并持續(xù)尋求改進,以支撐企業(yè)的數(shù)據(jù)與知識管理活動。
為了保證知識問答的準確性,用友RAG框架在文檔解析、文檔AI檢索召回策略上做了深度優(yōu)化,支持針對不同非結構化文檔進行快速索引,根據(jù)業(yè)務知識庫規(guī)范構建業(yè)務標簽,利用知識圖譜實現(xiàn)知識的關聯(lián)化和體系化,最大限度的提升知識問答的準確性,以確保能在項目商用過程中切實為客戶賦能。
企業(yè)AI 應用,如果知識還是亂的、檢索還是難的,再先進的大模型也無法發(fā)揮價值。用友BIP企業(yè)AI讓 AI 能快速調用知識,給出靠譜的決策建議,讓AI真正發(fā)揮價值。
企業(yè)AI落地路徑
電子書下載