自CHATGPT問世以來,國內大模型市場進入高速發展期,截至2024年7月30日,全國范圍內已有197個生成式人工智能服務通過網信辦備案。大模型產業發展如火如荼的同時,其訓練數據規模的增長速度跟不上、語料質量參差不齊,尤其是高質量中文語料短缺的問題日益凸顯,成為各方關注焦點。
阿里研究院5月發布的《大模型訓練數據白皮書》(以下簡稱《白皮書》)顯示,互聯網上中文語料和英文語料占比存在顯著差異:在全球網站中,英文占比高達59.8%,而中文僅占 1.3%。同樣,語料的質量會顯著影響大模型的性能。在大模型領域,輸入低質量數據,必然會輸出低質量結果。
以中文語料為例。中國工程院院士高文指出,當前全球通用的50億大模型數據訓練集中,中文語料占比僅為1.3%,其數量和質量上同英文等其他語言相比存在明顯不足。“沉睡”在報告、論文、報紙等文檔內的大批高價值語料數據,由于其復雜的版面結構,制約了大模型的訓練語料處理能力,無法被輕易解析并提取。
解決中文數據不足和質量問題,處理多樣化數據,仍是各廠商面臨的一大挑戰。為了幫助企業應對數據局限問題,近日,合合信息在WAIC 2024上發布了用于大模型語料訓練的“加速器”產品——TextIn智能文檔處理平臺。
在訓練前期階段,使用“加速器”文檔解析引擎,破解書籍、論文、研報等文檔中的版面解析障礙,為模型訓練與應用輸送純凈的“燃料”;同時,“加速器”搭載了文本向量化模型,以解決大模型“已讀亂回”的幻覺問題。
合合信息的思路是,從“煉丹”源頭的燃料出發,通過標準化平臺進行語料結構化,提高數據預訓練效率,幫助大模型廠商達成有效的模型性能提升和迭代。合合信息此次發布的大模型“加速器TextIn智能文檔處理平臺,由TextIn文檔解析、TextIn Embedding(文本向量數據模型)以及OpenKIE三大工具組成。
目前,無線表、跨頁表格、公式等復雜元素的處理,仍是大模型語料清晰的“攔路虎”。以銀行常見的基金對賬單托管業務為例,市面上基金公司眾多,各家企業的賬單樣式都不相同,加上復雜的表格呈現形式,要將數據從非結構化圖文信息中抽取,并整理成模型訓練需要的形式,往往十分耗費人力和時間。
TextIn文檔解析在文本、表格、圖像等非結構化數據的表現上,最快1.5秒就能完成百頁長文檔的解析;不僅速度快,同時還具備理解能力,可以智能還原文檔的閱讀順序。
另一方面,大模型或許在通用問答中生成表現很好,但就現階段來看,面對專業領域問題,大模型仍存在局限性,容易出現“一本正經地胡說八道”的幻覺,稍不注意,便可能帶來嚴重的影響。經測試,使用合合信息的TextIn Embedding模型(文本向量數據模型)后,能提高大模型信息搜索和問答的質量、效率和準確性。
未來,合合信息將重點瞄準金融、醫療等行業推出垂直領域產品,同時面向開發者推進內測計劃,吸納更多用戶參與到產品共創和優化中去。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。