一家名為 Patronus AI 的初創(chuàng)公司的研究人員發(fā)現(xiàn),大型語言模型在分析美國證券交易委員會(SEC)備案文件時(shí)經(jīng)常無法正確回答問題。即使是表現(xiàn)最佳的人工智能模型配置 OpenAI 的GPT-4-Turbo,當(dāng)給予幾乎整個(gè)備案文件的閱讀能力和相關(guān)問題時(shí),僅有79% 的問題回答正確。Patronus AI 的創(chuàng)始人告訴 CNBC,這些所謂的大型語言模型有時(shí)會拒絕回答問題,或者會 “產(chǎn)生幻覺”,出現(xiàn)備案文件中不存在的數(shù)字和事實(shí)。
Patronus AI 的聯(lián)合創(chuàng)始人 Anand Kannappan 表示:“這種性能水平完全不能接受。要想實(shí)現(xiàn)自動化和投入生產(chǎn)使用,性能必須更高。” 這些發(fā)現(xiàn)凸顯了 AI 模型在大公司中應(yīng)用的一些挑戰(zhàn),尤其是在金融等受監(jiān)管行業(yè)。這些公司希望將先進(jìn)技術(shù)應(yīng)用于客戶服務(wù)或研究,但 AI 模型面臨一些困難。
快速提取重要數(shù)字并對財(cái)務(wù)陳述進(jìn)行分析被認(rèn)為是聊天機(jī)器人最有前景的應(yīng)用之一,自去年底發(fā)布 ChatGPT 以來一直備受關(guān)注。SEC 備案文件中充滿著重要的數(shù)據(jù),如果一個(gè)機(jī)器人能夠準(zhǔn)確地概括這些文件或快速回答相關(guān)問題,它可以使用戶在競爭激烈的金融行業(yè)中占據(jù)優(yōu)勢。
在過去的一年里,彭博社開發(fā)了自己的金融數(shù)據(jù) AI 模型,商學(xué)院教授研究了 ChatGPT 是否可以解析財(cái)經(jīng)頭條新聞,摩根大通正在開發(fā)一個(gè)基于 AI 的自動投資工具。根據(jù) CNBC 之前的報(bào)道,生成式 AI 預(yù)計(jì)每年可以為銀行業(yè)帶來數(shù)萬億美元的收益。
然而,GPT 進(jìn)入該行業(yè)并不順利。微軟首次推出使用 OpenAI 的 GPT 的必應(yīng)聊天時(shí),其主要示例之一是使用聊天機(jī)器人快速概述盈利新聞稿。觀察人員很快就意識到微軟示例中的數(shù)字是錯誤的,一些數(shù)字完全是虛構(gòu)的。
Patronus AI 的聯(lián)合創(chuàng)始人表示,將大型語言模型應(yīng)用于實(shí)際產(chǎn)品的挑戰(zhàn)之一是,它們是非確定性的,不能保證每次給出相同的輸出。這意味著公司需要進(jìn)行更嚴(yán)格的測試,以確保它們的模型運(yùn)行正確,不會偏離主題,并提供可靠的結(jié)果。
該公司的創(chuàng)始人在 Facebook 的母公司 Meta 公司相識,他們在該公司從事與理解模型生成答案的問題以及使其更加 “負(fù)責(zé)任” 方面的 AI 問題。他們成立了 Patronus AI,該公司已從 Lightspeed Venture Partners 獲得種子資金,旨在通過軟件實(shí)現(xiàn)對大型語言模型的自動化測試,以便公司可以確保其 AI 機(jī)器人不會以離題或錯誤的答案令客戶或員工感到驚訝。
Patronus AI 致力于編寫一套由主要上市公司的 SEC 備案文件中提取的10,000多個(gè)問題和答案,該數(shù)據(jù)集被稱為 FinanceBench。數(shù)據(jù)集包括正確答案,以及在任何給定備案文件中準(zhǔn)確查找答案的位置。并非所有答案都可以直接從文本中提取,有些問題需要輕微的數(shù)學(xué)或推理。
Patronus AI 測試了四個(gè)語言模型:OpenAI 的 GPT-4和 GPT-4-Turbo,Anthropic 的 Claude2和 Meta 的 Llama2,使用該公司生成的150個(gè)問題的子集進(jìn)行測試。他們還測試了不同的配置和提示方式,例如將 OpenAI 模型在問題中給出與答案相關(guān)的確切源文本的 “Oracle” 模式。在其他測試中,模型被告知底層 SEC 文件存儲的位置,或者在提示中包含 “長上下文”,即幾乎完整的 SEC 備案文件與問題一起提供。
GPT-4-Turbo 在該公司的 “閉卷” 測試中失敗,該測試不允許其訪問任何 SEC 源文件。它在被問到的150個(gè)問題中,未能回答88% 的問題,只有14次給出了正確答案。當(dāng)獲得對底層備案文件的訪問權(quán)限時(shí),其性能有了顯著改善。在 “Oracle” 模式下,GPT-4-Turbo 在85% 的情況下正確回答問題,但仍然在15% 的情況下給出了錯誤答案。然而,這種測試方式并不現(xiàn)實(shí),因?yàn)樗枰斯ぽ斎胍哉业絺浒肝募写_切的相關(guān)位置,而這正是許多人希望語言模型能夠解決的問題。
Meta 開發(fā)的開源 AI 模型 Llama2在獲得各種底層文件的訪問權(quán)限時(shí),產(chǎn)生了一些最糟糕的 “幻覺”,錯誤回答的比例高達(dá)70%,僅有19% 的回答正確。Anthropic 的 Claude2在提供 “長上下文” 的情況下表現(xiàn)良好,可以回答75% 的問題,21% 的回答錯誤,僅有3% 的問題未能回答。GPT-4-Turbo 在長上下文測試中表現(xiàn)也不錯,79% 的問題回答正確,17% 的回答錯誤。
在進(jìn)行測試后,Patronus AI 的創(chuàng)始人對模型的表現(xiàn)感到驚訝,即使在指導(dǎo)答案所在位置的情況下,它們的表現(xiàn)仍然很差。“即使答案在上下文中,模型拒絕回答的頻率也非常高,而人類是可以回答的。”Qian 說道。然而,即使模型表現(xiàn)良好,仍然不夠好,Patronus AI 發(fā)現(xiàn)。“即使模型在20次中回答錯誤1次,這個(gè)錯誤率對于受監(jiān)管的行業(yè)來說仍然不可接受。”Qian 說道。
然而,Patronus AI 的創(chuàng)始人認(rèn)為,像 GPT 這樣的語言模型在金融行業(yè)中有巨大的潛力,無論是分析師還是投資者,如果 AI 技術(shù)繼續(xù)改進(jìn)。“我們確實(shí)認(rèn)為結(jié)果可能非常有希望。”Kannappan 表示,“隨著時(shí)間的推移,模型將會變得更好。我們非常有希望在長期內(nèi),很多工作可以實(shí)現(xiàn)自動化。但是現(xiàn)在,你肯定需要至少一個(gè)人參與來支持和引導(dǎo)你的工作流程。”
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。