破解AI「胡說八道」，這家公司要給大模型投喂好原料｜產品觀察

2024-07-29 09:30

海量數據(603138.SH) 0
指南針(300803.SZ) 0

作者｜黃楠

編輯｜袁斯來

大模型今天所展示出的強大能力，源於背后海量數據，為其注入了豐富的人類知識。如果將大模型視為正在疾馳的科技列車，數據語料便是珍貴的「燃料」。其中，語料質量的提升對模型性能取得階段性突破至關重要。

然而一個現實情況是，高質量語料正在被急速消耗。國內大模型廠商所面臨的語料短缺問題十分嚴峻。

以中文語料為例。中國工程院院士高文指出，當前全球通用的50億大模型數據訓練集中，中文語料佔比僅為1.3%，其數量和質量上同英文等其他語言相比存在明顯不足。「沉睡」在報告、論文、報紙等文檔內的大批高價值語料數據，由於其複雜的版面結構，制約了大模型的訓練語料處理能力，無法被輕易解析並提取。

解決中文數據不足和質量問題，處理多樣化數據，仍是各廠商面臨的一大挑戰。

爲了幫助企業應對數據侷限問題，日前，合合信息在WAIC 2024上發佈了用於大模型語料訓練的「加速器」產品——TextIn智能文檔處理平臺。

在訓練前期階段，使用「加速器」文檔解析引擎，破解書籍、論文、研報等文檔中的版面解析障礙，為模型訓練與應用輸送純淨的「燃料」；同時，「加速器」搭載了文本向量化模型，以解決大模型「已讀亂回」的幻覺問題。

合合信息的思路是，從「煉丹」源頭的燃料出發，通過標準化平臺進行語料結構化，提高數據預訓練效率，幫助大模型廠商達成有效的模型性能提升和迭代。

處理複雜語料

合合信息此次發佈的大模型「加速器」TextIn智能文檔處理平臺，由TextIn文檔解析、TextIn Embedding（文本向量數據模型）以及OpenKIE三大工具組成。

目前，無線表、跨頁表格、公式等複雜元素的處理，仍是大模型語料清晰的「攔路虎」。

以銀行常見的基金對賬單託管業務為例，市面上基金公司眾多，各家企業的賬單樣式都不相同，加上覆雜的表格呈現形式，要將數據從非結構化圖文信息中抽取，並整理成模型訓練需要的形式，往往十分耗費人力和時間。

失之毫釐、差之千里，一個單元格的理解問題，可能導致表格整體識別的結果發生巨大誤差；同時，表格的還原準確率，也直接影響了模型問答的效果。

TextIn文檔解析在文本、表格、圖像等非結構化數據的表現上，最快1.5秒就能完成百頁長文檔的解析；不僅速度快，同時還具備理解能力，可以智能還原文檔的閲讀順序。

大模型使用文檔解析引擎之前（左）和之后（右）的效果對比。結果表明，使用后大模型具備了更快速、優秀的文檔要素分析、表格內容識別能力。

面對多類型樣本問題，合合信息在TextIn文檔解析的算法階段，就很注重圖表數據訓練。當前，TextIn文檔解析工具可以將柱狀圖、折線圖、餅圖、雷達圖等十余種常見圖表，以及任意格式文件「還原」，並其拆解為Json（輕量級的數據交換格式）或Markdown（輕量級標註語言）格式。

經拆解后的數據語料清晰易懂，可以讓大模型更好地理解圖表數據，進而學習商業研報和學術論文等專業文檔中的論證邏輯。同時，在圖表不顯示具體數值的情況下，TextIn文檔解析也可以僅依據座標軸區間，估算出具體數值。

文檔解析引擎基於座標軸區間，對不顯示具體數據的圖表進行數值估算。

另一方面，大模型或許在通用問答中生成表現很好，但就現階段來看，面對專業領域問題，大模型仍存在侷限性，容易出現「一本正經地胡說八道」的幻覺，稍不注意，便可能帶來嚴重的影響。

經測試，使用合合信息的TextIn Embedding模型（文本向量數據模型）后，能提高大模型信息搜索和問答的質量、效率和準確性。

TextIn Embedding模型是一個acge_text_embedding模型（以下簡稱：acge模型）。就像「指南針」一樣，通過大量中文語料的深入學習，acge模型可以迅速對全文進行查找，找到目標信息定位，並將有效的文本特徵提取出來，準確完成分類和聚類任務。

與其他開源模型相比，acge模型體量較小，佔用資源少，1024輸入文本長度能滿足絕大部分場景的需求。

雖然大模型支持的token數量在持續增加，令其具備了「短暫記憶」的能力，但仍會出現災難性遺忘的問題。針對這一問題，acge模型引入了持續學習訓練方式。

相較之下，acge模型支持可變輸出維度，讓企業能夠根據具體場景去合理分配資源，從而提升了模型系統的性能和體驗。

以大模型廠商實際引用場景為例，在未引入向量數據庫時，如果廠商採用的是分佈式系統的開源方案，其缺點在於，隨着語料增長到一定規模時，分佈式存儲很快就會遇到瓶頸；同時，每天上億的數據處理量，按照傳統單線程序處理方式速度有限。引入acge模型后，其文檔的整體處理速率可得到顯著提升，同時在數據齊備的情況下，還能消除部分幻覺、多文檔元素識別、版面分析等問題。

OpenKIE是一個可用於圖像文檔的信息抽取工具，其中包括了字段抽取、列表抽取和元素抽取三種模式。

客户只需創建好文檔類型，設置需要提取的字段並上傳文件，OpenKIE就能自動抽取文檔中所需信息，並直接應用、或導入到其他系統中使用。

合合信息文檔解析引擎與常規OCR引擎適用對比

比如在大模型文檔處理場景中，合合信息與百川智能合作，共同破解困擾大模型產業已久的多文檔元素識別、版面分析難題，將對百頁文檔的整體處理速率提升超過10倍。

合合信息智能創新事業部總經理唐琪告訴硬氪，目前，TextIn智能文檔處理平臺可覆蓋金融、醫學、財經、媒體等47個場景，共3200余類文檔；已被用於百川智能等多家頭部大模型廠商的預訓練流程，同時也積累了小批量開發者用户。

泛場景、通用的工程化能力

就目前來看，幾乎大模型每一次能力提升，其預訓練數據的數量、語料質量、領域類型等多維度都起到了關鍵性作用。

在數據處理方面，國內大部分廠商選擇的方案主要有兩類：一類是交給提供基礎設施服務的第三方公司，例如合合信息的TextIn智能文檔處理平臺、Amazon Textract文本提取服務；另一類是以銀行、券商等垂直賽道企業為代表，在傳統OCR算法基礎上疊加訓練內部模型。

唐琪告訴硬氪，「從調研來看，企業選擇供應商的標準無非就三個維度——快、穩、準。」

快，即文檔解析引擎的速度要快；根據合合信息測算， TextIn智能文檔處理平臺保持在1.5秒內的解析時長，而當前市場上部分同類型工具的速度在其3-5倍。穩，指面向大批量、複雜格式的語料，例如PDF文件、表單等，是否都能兼容並進行高準確度的解析工作。準，即能否將文檔信息精準還原為表格。

當前，高質量、經梳理過的語料短缺是一大問題，「特別是中文數據更是稀缺，」唐琪説到。

國內外大模型數據集主要為英文，均源於許多開源數據集進行訓練，如Common Crawl、RedPajama、BooksCorpus、The Pile、ROOT等。這部分數據雖然量多，但質量上卻良莠不齊。一大優質的中文語料數據，沉睡在報告、論文、報紙等文檔里。

從獲得海量數據到高價值數據，預訓練階段的語料處理十分關鍵。這意味着，作為一個平臺型產品，向大模型廠商和開發者「遞鏟子」，其基礎的工具能力是否足夠紮實，關係到種子用户的購買意願。

唐琪經歷過這樣一件事。有位從事二手奢侈品貿易的商家手上積攢了大量小票，爲了計算利潤，他每次需要人工將售價減去原始價格后，將最終結果錄入后臺，整個過程涉及的公式計算很複雜，包括數額差價、各款式的庫存等問題，傳統OCR模型無法應用。對方找到唐琪后，通過在加速器平臺上調節了小參數，很快需求得以解決了。

這只是一個細分場景中極為精細的小問題。在大模型時代，平臺工具的本質形態，不同於單層的私有化部署邏輯，更強調面向泛場景、通用的工程化能力。

基於這一思路，合合信息在產品設計階段提前做了幾件事。首先是場景前置，在未個性化階段提前給模型補充大量優質的垂直領域Know-how，比如金融、法律、教育等，關注特定行業中的普遍痛點，基於用户訴求在產品設計時提供解決方案，進而提高大模型加速器在覈心應用場景中表現能力。

二是專注產品化，不只對客户提供通用場景的API，而是提供更多工具型產品，降低應用門檻，做到開箱即用，這對技術資源較為薄弱的傳統企業、中小創業公司或個人開發者來説非常友好。

大模型變革的浪潮里，以數據為中心，成為行業人士從事大模型研發和應用的共識。具體到實踐層面，大模型上游階段在文本解析、邏輯版面、文檔問答等方面，仍有很多的提升工作可以做。

未來，合合信息將重點瞄準金融、醫療等行業推出垂直領域產品，同時面向開發者推進內測計劃，吸納更多用户參與到產品共創和優化中去。

破解AI「胡說八道」，這家公司要給大模型投喂好原料｜產品觀察

處理複雜語料

泛場景、通用的工程化能力

推薦文章

提價83%需求卻暴增400%！智譜、MiniMax鎖定大模型定價權，AI Agent元年即將開啟？

港股見底了嗎？北水大舉加倉逾600億港元！大行看好4月做多窗口來臨，十大金股一圖睇全

華盛早報 | 伊朗與阿曼擬共管霍爾木茲！美股V型反轉；伊朗襲擊甲骨文、亞馬遜數據中心；港美股今日因假期休市一天

諾和諾德稱：口服版Wegovy減肥效果優於禮來GLP‑1口服藥

美股機會日報 | 特朗普粉碎停戰幻想！恐慌指數飆升12%，納指期貨跌約2%；美油期貨暴漲超9%！油氣股飆升，美國原油基金ETF漲超9%

清明休市提醒 | 港股本周五休市，下周三恢復交易；美股周五休市一天

油價上漲 此前特朗普表示伊朗衝突可能在未來幾周升級

野村：特朗普講話未能發出局勢降温的明確信號

油價上漲此前特朗普表示伊朗衝突可能在未來幾周升級