研究發(fā)現(xiàn)，GPT 和其他AI模型無法分析SEC備案文件

2023年12月20日 20:17:09 來源：站長之家

　　一家名為 Patronus AI 的初創(chuàng)公司的研究人員發(fā)現(xiàn)，大型語言模型在分析美國證券交易委員會(SEC)備案文件時(shí)經(jīng)常無法正確回答問題。即使是表現(xiàn)最佳的人工智能模型配置 OpenAI 的GPT-4-Turbo，當(dāng)給予幾乎整個(gè)備案文件的閱讀能力和相關(guān)問題時(shí)，僅有79% 的問題回答正確。Patronus AI 的創(chuàng)始人告訴 CNBC，這些所謂的大型語言模型有時(shí)會拒絕回答問題，或者會 “產(chǎn)生幻覺”，出現(xiàn)備案文件中不存在的數(shù)字和事實(shí)。

　　Patronus AI 的聯(lián)合創(chuàng)始人 Anand Kannappan 表示:“這種性能水平完全不能接受。要想實(shí)現(xiàn)自動化和投入生產(chǎn)使用，性能必須更高。” 這些發(fā)現(xiàn)凸顯了 AI 模型在大公司中應(yīng)用的一些挑戰(zhàn)，尤其是在金融等受監(jiān)管行業(yè)。這些公司希望將先進(jìn)技術(shù)應(yīng)用于客戶服務(wù)或研究，但 AI 模型面臨一些困難。

　　快速提取重要數(shù)字并對財(cái)務(wù)陳述進(jìn)行分析被認(rèn)為是聊天機(jī)器人最有前景的應(yīng)用之一，自去年底發(fā)布 ChatGPT 以來一直備受關(guān)注。SEC 備案文件中充滿著重要的數(shù)據(jù)，如果一個(gè)機(jī)器人能夠準(zhǔn)確地概括這些文件或快速回答相關(guān)問題，它可以使用戶在競爭激烈的金融行業(yè)中占據(jù)優(yōu)勢。

　　在過去的一年里，彭博社開發(fā)了自己的金融數(shù)據(jù) AI 模型，商學(xué)院教授研究了 ChatGPT 是否可以解析財(cái)經(jīng)頭條新聞，摩根大通正在開發(fā)一個(gè)基于 AI 的自動投資工具。根據(jù) CNBC 之前的報(bào)道，生成式 AI 預(yù)計(jì)每年可以為銀行業(yè)帶來數(shù)萬億美元的收益。

　　然而，GPT 進(jìn)入該行業(yè)并不順利。微軟首次推出使用 OpenAI 的 GPT 的必應(yīng)聊天時(shí)，其主要示例之一是使用聊天機(jī)器人快速概述盈利新聞稿。觀察人員很快就意識到微軟示例中的數(shù)字是錯誤的，一些數(shù)字完全是虛構(gòu)的。

　　Patronus AI 的聯(lián)合創(chuàng)始人表示，將大型語言模型應(yīng)用于實(shí)際產(chǎn)品的挑戰(zhàn)之一是，它們是非確定性的，不能保證每次給出相同的輸出。這意味著公司需要進(jìn)行更嚴(yán)格的測試，以確保它們的模型運(yùn)行正確，不會偏離主題，并提供可靠的結(jié)果。

　　該公司的創(chuàng)始人在 Facebook 的母公司 Meta 公司相識，他們在該公司從事與理解模型生成答案的問題以及使其更加 “負(fù)責(zé)任” 方面的 AI 問題。他們成立了 Patronus AI，該公司已從 Lightspeed Venture Partners 獲得種子資金，旨在通過軟件實(shí)現(xiàn)對大型語言模型的自動化測試，以便公司可以確保其 AI 機(jī)器人不會以離題或錯誤的答案令客戶或員工感到驚訝。

　　Patronus AI 致力于編寫一套由主要上市公司的 SEC 備案文件中提取的10，000多個(gè)問題和答案，該數(shù)據(jù)集被稱為 FinanceBench。數(shù)據(jù)集包括正確答案，以及在任何給定備案文件中準(zhǔn)確查找答案的位置。并非所有答案都可以直接從文本中提取，有些問題需要輕微的數(shù)學(xué)或推理。

　　Patronus AI 測試了四個(gè)語言模型:OpenAI 的 GPT-4和 GPT-4-Turbo，Anthropic 的 Claude2和 Meta 的 Llama2，使用該公司生成的150個(gè)問題的子集進(jìn)行測試。他們還測試了不同的配置和提示方式，例如將 OpenAI 模型在問題中給出與答案相關(guān)的確切源文本的 “Oracle” 模式。在其他測試中，模型被告知底層 SEC 文件存儲的位置，或者在提示中包含 “長上下文”，即幾乎完整的 SEC 備案文件與問題一起提供。

　　GPT-4-Turbo 在該公司的 “閉卷” 測試中失敗，該測試不允許其訪問任何 SEC 源文件。它在被問到的150個(gè)問題中，未能回答88% 的問題，只有14次給出了正確答案。當(dāng)獲得對底層備案文件的訪問權(quán)限時(shí)，其性能有了顯著改善。在 “Oracle” 模式下，GPT-4-Turbo 在85% 的情況下正確回答問題，但仍然在15% 的情況下給出了錯誤答案。然而，這種測試方式并不現(xiàn)實(shí)，因?yàn)樗枰斯ぽ斎胍哉业絺浒肝募写_切的相關(guān)位置，而這正是許多人希望語言模型能夠解決的問題。

　　Meta 開發(fā)的開源 AI 模型 Llama2在獲得各種底層文件的訪問權(quán)限時(shí)，產(chǎn)生了一些最糟糕的 “幻覺”，錯誤回答的比例高達(dá)70%，僅有19% 的回答正確。Anthropic 的 Claude2在提供 “長上下文” 的情況下表現(xiàn)良好，可以回答75% 的問題，21% 的回答錯誤，僅有3% 的問題未能回答。GPT-4-Turbo 在長上下文測試中表現(xiàn)也不錯，79% 的問題回答正確，17% 的回答錯誤。

　　在進(jìn)行測試后，Patronus AI 的創(chuàng)始人對模型的表現(xiàn)感到驚訝，即使在指導(dǎo)答案所在位置的情況下，它們的表現(xiàn)仍然很差。“即使答案在上下文中，模型拒絕回答的頻率也非常高，而人類是可以回答的。”Qian 說道。然而，即使模型表現(xiàn)良好，仍然不夠好，Patronus AI 發(fā)現(xiàn)。“即使模型在20次中回答錯誤1次，這個(gè)錯誤率對于受監(jiān)管的行業(yè)來說仍然不可接受。”Qian 說道。

　　然而，Patronus AI 的創(chuàng)始人認(rèn)為，像 GPT 這樣的語言模型在金融行業(yè)中有巨大的潛力，無論是分析師還是投資者，如果 AI 技術(shù)繼續(xù)改進(jìn)。“我們確實(shí)認(rèn)為結(jié)果可能非常有希望。”Kannappan 表示，“隨著時(shí)間的推移，模型將會變得更好。我們非常有希望在長期內(nèi)，很多工作可以實(shí)現(xiàn)自動化。但是現(xiàn)在，你肯定需要至少一個(gè)人參與來支持和引導(dǎo)你的工作流程。”

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

海報(bào)生成中...