開源版「ChatGPT Plus」來了能做數據分析、插件調用、自動上網，落地真實世界的智能體

2023年10月25日 16:50:15 來源：微信公眾號機器之心

　　本文來自于微信公眾號機器之心(ID:almosthuman2014)，作者:機器之心。

　　OpenAI ChatGPT Plus 訂閱付費功能強大，可以實現(xiàn)高階「數據分析」(Advanced Data Analysis)、「插件調用」(Plugins)以及「自動網頁瀏覽」(Browse with Bing)，能夠作為日常生活中的重要生產力工具。可是因為商業(yè)原因而選擇了閉源，研究者和開發(fā)者也只能使用而沒有辦法在其上面做任何的研究或改進。

　　基于此，來自香港大學、XLang實驗室、Sea AI實驗室和Salesforce的研究者聯(lián)合打造了一款用于真實世界生產力工具的開源智能體框架——OpenAgents，并開源了全棧代碼(完整前后端，研究代碼)，以滿足從研究者到開發(fā)者再到用戶的所有人的需要。

　　OpenAgents 用基于「大語言模型」(LLMs)的技術和全棧工程代碼嘗試近似復刻了 ChatGPT Plus 的功能。智能體能執(zhí)行 Python/SQL 代碼，熟練調用工具，也能上網找地圖發(fā)帖子，一路從研究代碼實現(xiàn)到后端前端，讓其變成了人人都能用的落地級別應用。OpenAgents 完整披露了他們采用的技術和遇到的困難，完全開源了代碼，包含從科研到邏輯代碼到前端代碼的一切。代碼完善、易于拓展，本地直接可以一鍵部署，配套提供了含有豐富的使用案例的文檔，幫助研究者和開發(fā)者在模型上搭建自己的智能體和應用。

　　OpenAgents 總覽圖，面向用戶的網頁界面，面向開發(fā)者的本地部署，面向研究者的語言智能體。

　　與ChatGPT Plus 的 “一樣” 和 “不一樣”

　　左邊是 OpenAgents 的實現(xiàn)，右邊是 ChatGPT Plus:

　　先來看看「數據分析」功能。同一個分析股票價格的任務，OpenAgents 和 ChatGPT 都能不錯地完成用戶對股價和交易的分析要求。不過 OpenAgents 可以自動搜索 Kaggle 數據集并下載，ChatGPT 需要用戶從本地上傳。

　　再試試 OpenAI 最早推出的「插件」功能。用戶想要畫一些八面體，兩者都成功調用了 Wolfram 插件畫出多種八面體的圖片。

　　最后看看「網頁瀏覽」。用戶想要查詢10月20日從中國香港到紐約的機票，OpenAgents 識別用戶意圖后直接跳轉到 Skycanner，像 “真人” 一樣一邊思考一邊在網站中填入信息，最后回到聊天頁面總結信息;而 ChatGPT 處于安全考慮保證可控性，和調用插件類似，在云端做網頁瀏覽，將最后搜尋到的信息返回。

　　由于 OpenAgents 提供了開源的代碼，開發(fā)者和研究者可以定制，若干行代碼適配自己想要的模型，改進、創(chuàng)造自己想要的功能，甚至創(chuàng)造新的 Agent。這對于該方向的進一步開展開發(fā)和研究至關重要。

　　看似簡單，「生產力能用」的智能體為什么踩坑這么多?

　　智能體的開源框架不少，基于大模型的中間件更是層出不窮，為什么搭建一個真正方便可用的智能體并不容易，OpenAgents 在他們論文中與其他智能體框架進行了對比:

　　對比 OpenAgents 和其他的框架。

　　從表格中可以看出，「界面」(Interface) 和「配套環(huán)境」(Environment) 是 OpenAgents 與眾不同的兩個因素。現(xiàn)有的開源框架比如 LangChain，AutoGPT 和 BabyAGI 等旨在為開發(fā)者提供早期概念驗證實現(xiàn)和控制臺界面，但在真實世界中卻不夠魯棒，這限制了更廣泛受眾的接入，特別是那些不熟悉編程或控制臺的普通用戶。而在閉源體系中，OpenAI 在 ChatGPT Plus 中部署了精心設計的產品，尤其是高級數據分析(之前稱為代碼解釋器)、插件和 Bing 瀏覽等功能，利用進一步訓練的模型、業(yè)務邏輯代碼和培育的軟件社區(qū)(例如，插件商店)。但是閉源導致它們難以作為開發(fā)和研究平臺使用，社區(qū)無法站在巨人肩膀上探索、評估和改進。在側重考量這些維度之后，OpenAgents 作為面向真實場景的開源 Agent 框架，為社區(qū)提供了一個可與 ChatGPT Plus 一較高下的平臺。

　　在「界面」上，OpenAgents 提供線上的網頁 demo (以及配套的開源代碼)，非程序員背景的普通用戶也可輕松與智能體進行交互，而之前的工作通常不提供或者以「控制臺指令界面」(CLI) 形式提供交互，極大地提高了智能體的使用門檻。在「配套環(huán)境」上，OpenAgents 支持真實世界環(huán)境和可控環(huán)境，支持超過200+ 的日常工具調用，支持網頁自動瀏覽。

　　這些功能側重和配備使得 OpenAgents 成為對于普通用戶最沒有門檻的選擇;也為研究、開發(fā)人員等提供可能是最好的直接面向用戶的機會。

　　作為生產力的 Agent 未來的第一步:「用戶」，「開發(fā)人員」，「研究人員」都能用的 Agent 平臺

　　為了解決上述問題，OpenAgents 的動機是作為一個開源平臺，為使用和部署智能體提供，目前包括三個關鍵智能體:

　　用于 Python 和 SQL 的數據智能體;

　　200多個工具使用的插件智能體;

　　自動網絡瀏覽的 Web 智能體。

　　OpenAgents 相信，為了讓大語言模型發(fā)揮其全部潛力，它們必須從純粹的理論或面向開發(fā)者的工具轉變?yōu)闉閺V泛用戶群提供的動態(tài)、交互式系統(tǒng)。「普通用戶」可以通過在線 Web UI 輕松探索智能體功能，無需編碼專業(yè)知識。此外，OpenAgents 為「開發(fā)者」提供完整的業(yè)務邏輯和研究代碼，以便在本地輕松部署，「研究人員」可以進一步構建語言智能體。最后，OpenAgents 旨在成為一個真實而全面的人類可交互的智能體評估平臺:根據真實需求，真實用戶與智能體互動以完成其任務，并記錄整個用戶 - 智能體互動過程和用戶反饋以供進一步評估。與現(xiàn)有的基準測試和平臺相比，OpenAgents 提供了一個真實環(huán)境，智能體可以滿足各種真實的用戶需求。

　　面臨和克服的挑戰(zhàn)

　　挑戰(zhàn)1: 基于提示來構建真實世界語言模型的弊端

　　在為真實用戶構建基于提示的應用程序時，使用提示中的指令來設定特定要求。這些指令有不同目的，有一些是為了確保大語言模型的輸出符合后端邏輯處理的特定格式(以特定鍵的字典形式輸出);有一些是提升輸出的美觀度(盡可能一條條單獨列出項目);有一些是用于防止?jié)撛诘墓?拒絕用戶惡意構造的無限循環(huán)程序并且執(zhí)行)。

　　這些帶著約束目的提示來約束語言模型需要開發(fā)者研究者反復調試出來一些可以使用的指令，這些指令加在一起通常會是幾百個「詞元」(token)甚至上千個詞元，這些指令作為前綴會被反復輸入到模型造成顯卡資源的大量消耗;另外一方面，詞元越多越依賴 LLM 有很好的性能，所以說這一條技術路線對大語言模型的指令跟蹤能力和支持的上下文長度提出了一定的要求。

　　當前的開源模型在這些方面已經取得了顯著的改進，但是在實驗中仍然是不足以用來實際使用的，這方向的研究還可以繼續(xù)。此外，需要更加重視智能體模型的基礎開發(fā)和研究，以及針對特定領域和要求訓練專用的智能體模型。這種方法可能比僅依賴于提示一個通用強大但固定模型更高效，也更可控。

　　挑戰(zhàn)2: 無法控制的現(xiàn)實因素

　　實現(xiàn)真實世界的語言智需要面對很多無法控制的現(xiàn)實因素，這些因素包括用戶行為、互聯(lián)網的基礎設施和業(yè)務邏輯等，它們在過去的研究中并未得到充分建模。這就需要重新評估，甚至推翻許多過去研究中的假設和方法。必須考慮到的事是，調用的 API 所在的服務器可能會崩潰。這種情況需要監(jiān)控并穩(wěn)定地完成用戶命令，而不是像過去的工具使用研究中所假設的那樣。在生成回復的過程中，用戶可能會感到不滿意，這可能導致語言模型在生成過程中被中斷。

　　此外，像 CAPTCHA 彈出或廣告改變網頁這樣的不可預測事件，可能會在相對穩(wěn)定的網頁結構中引入一定程度的隨機性，這在以前的自動瀏覽網頁的工作中未曾考慮過。諸如此類的問題還有很多，比如說在智能體反應和思考的時間內(現(xiàn)在往往需要數秒)就改變的環(huán)境，等等。

　　挑戰(zhàn)3: 來自真實場景的額外指標

　　具體的研究通常過于強調性能指標，而忽視了現(xiàn)實場景中的基本需求。例如，使用流式(即每生成一個詞元都盡快顯示給用戶)可以讓用戶能夠快速感知系統(tǒng)的反饋，而無需等待長篇大論的文本生成完畢再一起看到。特意設計的提示可以讓智能體的回復格式更加美觀，這對用戶體驗有著顯著影響。然而，現(xiàn)有的方法并未充分考慮這些影響。導致了盡管在準確性上的性能指標優(yōu)秀，但在實際應用中，它們可能導致響應時間過長、文本可讀性差等等導致用戶體驗不佳的問題，接下來的研究需要進一步考慮性能和用戶體驗之間的權衡問題。

　　挑戰(zhàn)4: 由系統(tǒng)問題引發(fā)的評估復雜性

　　構建直接針對應用程序的智能體可以滿足更多用戶需求，同時也能揭示更多評估挑戰(zhàn)。但基于 LLM 的應用程序構建會帶來額外的復雜性，使得難以判斷失敗案例是來源于 LLM 應用的限制還是邏輯代碼的不足。舉例說明，如果說一個用戶因為沒法從界面中直接拖拽上傳文件而造成沒有完成用戶想要的操作而判斷智能體能力不行是不合理的。因此，對智能體設計和操作邏輯的系統(tǒng)進行改進，簡化智能體流程以及用戶使用邏輯，或者構建一個更加完善的設計和實現(xiàn)邏輯，是有前景且必要的。

　　未來展望

　　OpenAgents 可以怎么樣幫助社區(qū)做下一步的研究和開發(fā)?在他們的構想中至少有如下幾點:

　　未來工作1: 搭建更多智能體應用

　　OpenAgents 打通了一套完整的應用級語言智能體開發(fā)流程以及所需要的技術，并且開放了代碼。這為其他創(chuàng)新應用與終端用戶提供了可能。開發(fā)者們可以基于此開發(fā)任何自己想要的新應用，比如說多模態(tài)對話、語音對話、庫級別代碼助手等。

　　未來工作2: 工具和組件集成

　　OpenAgents 致力于探索和解決構建實用級智能體應用的基本需求，為社區(qū)提供了一個強大的基礎，使得社區(qū)可以輕松地通過集成其他組件進行水平擴展。同時，還可以擴展更多的基礎模型，比如最近的大型多模態(tài)模型，以及適應新的 UI 設計等。

　　未來工作3: 人機交互領域研究

　　開發(fā)者和研究者基于 OpenAgents 平臺能輕松構建基于大語言模型的新智能體應用程序。OpenAgents 因此能幫助構建應用程序演示，供人機交互(HCI)研究人員深入研究更直觀、更用戶友好的界面設計。這將提升用戶的參與度和滿意度。

　　未來工作4: 自適應用戶界面生成

　　自動創(chuàng)建用戶界面是一個有趣且具有挑戰(zhàn)性的領域。這些界面能根據特定標準，如用戶的設備、偏好或上下文，進行自我調整或定制。研究人員可以深入研究在基于 OpenAgents 的自適應 UI 中，如何應用大語言模型，以及它們對用戶體驗的影響。

　　未來工作5: 大語言模型在實際應用場景下的評估

　　為大語言模型建立公正且穩(wěn)健的評估方法，對于公平評價其能力和性能至關重要。目前，通過使用預先收集的數據和受控環(huán)境，對智能體進行基準測試。雖然這些評估非常關鍵，但它們往往無法全面反映真實世界中的動態(tài)挑戰(zhàn)。鼓勵社區(qū)對這些評估指標和平臺進行擴展或完善，這將顯著推動該領域的發(fā)展，并為大語言模型的實際性能和能力提供更準確的評估和洞察。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...