智譜開源GLM-PC基座模型CogAgent-9B，讓AI智能體“看懂”屏幕

2024年12月27日 10:48:33 來源：IT之家

　　智譜技術(shù)團(tuán)隊(duì)公眾號(hào)昨日(12 月 26 日)發(fā)布博文，宣布開源 GLM-PC 的基座模型 CogAgent-9B-20241220，基于 GLM-4V-9B 訓(xùn)練，專用于智能體(Agent)任務(wù)。

　　注：該模型僅需屏幕截圖作為輸入(無需 HTML 等文本表征)，便能根據(jù)用戶指定的任意任務(wù)，結(jié)合歷史操作，預(yù)測(cè)下一步的 GUI 操作。

　　得益于屏幕截圖和 GUI 操作的普適性，CogAgent 可廣泛應(yīng)用于各類基于 GUI 交互的場(chǎng)景，如個(gè)人電腦、手機(jī)、車機(jī)設(shè)備等。

　　相較于 2023 年 12 月開源的第一版 CogAgent 模型，CogAgent-9B-20241220 在 GUI 感知、推理預(yù)測(cè)準(zhǔn)確性、動(dòng)作空間完善性、任務(wù)普適性和泛化性等方面均實(shí)現(xiàn)了顯著提升，并支持中英文雙語的屏幕截圖和語言交互。

　　CogAgent 的輸入僅包含三部分：用戶的自然語言指令、已執(zhí)行歷史動(dòng)作記錄和 GUI 截圖，無需任何文本形式表征的布局信息或附加元素標(biāo)簽(set of marks)信息。

　　其輸出涵蓋以下四個(gè)方面：

　　思考過程（Status &Plan）： CogAgent 顯式輸出理解 GUI 截圖和決定下一步操作的思考過程，包括狀態(tài)(Status)和計(jì)劃(Plan)兩部分，輸出內(nèi)容可通過參數(shù)控制。

　　下一步動(dòng)作的自然語言描述（Action）：自然語言形式的動(dòng)作描述將被加入歷史操作記錄，便于模型理解已執(zhí)行的動(dòng)作步驟。

　　下一步動(dòng)作的結(jié)構(gòu)化描述（Grounded Operation）： CogAgent 以類似函數(shù)調(diào)用的形式，結(jié)構(gòu)化地描述下一步操作及其參數(shù)，便于端側(cè)應(yīng)用解析并執(zhí)行模型輸出。其動(dòng)作空間包含 GUI 操作(基礎(chǔ)動(dòng)作，如左鍵單擊、文本輸入等)和擬人行為(高級(jí)動(dòng)作，如應(yīng)用啟動(dòng)、調(diào)用語言模型等)兩類。

　　下一步動(dòng)作的敏感性判斷：動(dòng)作分為“一般操作”和“敏感操作”兩類，后者指可能帶來難以挽回后果的動(dòng)作，例如在“發(fā)送郵件”任務(wù)中點(diǎn)擊“發(fā)送”按鈕。

　　CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等數(shù)據(jù)集上進(jìn)行了測(cè)試，并與 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型進(jìn)行了比較。

　　結(jié)果顯示，CogAgent 在多個(gè)數(shù)據(jù)集上取得了領(lǐng)先的結(jié)果，證明了其在 GUI Agent 領(lǐng)域強(qiáng)大的性能。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

海報(bào)生成中...

即時(shí)

全球頂級(jí)AI創(chuàng)作社區(qū)回歸！海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

海藝AI的模型系統(tǒng)在國際市場(chǎng)上廣受好評(píng)，目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè)，涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場(chǎng)景，基本覆蓋所有主流創(chuàng)作風(fēng)格。

一加Ace 6T官宣：全球首發(fā)驍龍8 Gen5

真我GT8 Pro阿斯頓馬丁F1限量版開售，16GB+1TB售價(jià)5499元

新聞

市場(chǎng)占比高達(dá)35.8%，阿里云引領(lǐng)中國AI云增長(zhǎng)

9月9日，國際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場(chǎng)，1H25》報(bào)告。中國AI云市場(chǎng)阿里云占比8%位列第一。

企業(yè)IT

華為坤靈發(fā)布IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃，助力中小企

9月24日，華為坤靈召開“智能體驗(yàn)，一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。

3C消費(fèi)

雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機(jī)，分別是平板振膜的YH-4000和動(dòng)圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告，2025年第二季度》顯示，上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬臺(tái)，同比增長(zhǎng)33%，顯示出品類強(qiáng)勁的市場(chǎng)需求。