国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 云計算頻道 > 大模型

    谷歌版賈維斯即將問世,最強Gemini 2.0加持!AI自主操控電腦時代來臨

    2024年10月28日 10:20:39 來源:​新智元公眾號

      【新智元導讀】科幻中的賈維斯,已經離我們不遠了。Claude3.5接管人類電腦掀起了人機交互全新范式,爆料稱谷歌同類Project Jarvis預計年底亮相。AI操控電腦已成為微軟、蘋果等巨頭,下一個發力的戰場。

      AI接管人類電腦,就是下一個未來!

      幾天前,Anthropic向所有人展示了,Claude3.5自主看屏幕操作光標完成復雜任務,足以驚掉下巴。

      剛剛,Information獨家爆料稱,谷歌正開發同類新項目「Project Jarvis」,能將Chrome網頁任務自動化。

      谷歌「賈維斯」將由未來版Gemini2.0驅動,預計在12月亮相。

      起這個名字,是為了向鋼鐵俠中的J.A.R.V.I.S致敬。

      無獨有偶,微軟團隊悄悄放出的OmniParser,也在篤定AI智能體操控屏幕的未來。

      OmniParser主要是一個屏幕解析的工具,可以將截圖轉化為結構化數據,幫助AI精準理解用戶意圖。

      不僅如此,OpenAI內部已有了AI智能體雛形,可以操控計算機完成在線訂餐、自動查詢解決編程難題等任務。

      包括蘋果在內,預計在明年發布跨多個APP屏幕識別能力。最新迭代的Ferret-UI2,就是通用UI模型。

      可見,「Computer use」已經成為科技大廠們,重點發力的下一個戰場。

      谷歌「賈維斯」年底出世,最強Gemini2加持

      代號為Jarvis Project項目,本質上是一個大動作模型(LAM),也是谷歌一直以來在做的大模型方向。

      它專門針對谷歌Chrome瀏覽器,進行了優化。

      具體操作原理,與Claude3.5類似,通過截屏、解析屏幕內容,然后自動點擊按鈕,或輸入文本,最終幫助人們完成基于網頁的日常任務。

      不論是收集研究信息、購物,或是預定航班等任務,谷歌「賈維斯」均可實現。

      不過,它在執行不同操作時,中間會有幾秒鐘的思考時間。

      因此,在終端設備中運行還不太現實,仍然需要云上操作。

      5月的谷歌I/O大會上,谷歌CEO劈柴曾展示了,Gemini和Chrome如何協同工作的樣貌。

      如前所述,谷歌「賈維斯」將由Gemini2.0加持,也就意味著年底我們可以看到進步版Gemini模型。

      盡管Sam Altman否認了Orion模型的發布,但外媒猜測,預計年底OpenAI也將放出新核彈

      微軟OmniParser也下場了

      緊接著Claude「計算機使用」發布之后,微軟就開源了AI框架OmniParser。

      假設你想要去布賴斯峽谷國家公園,不知是否需要訂票入園,這時OmniParser可以帶你查詢。

      它會解析屏幕后,自動點擊「permits」按鈕,然后再截屏找到「布賴斯峽谷國家公園」,最后就可以完成用戶任務。

      可見,想要把類似GPT-4V的多模態大模型應用于操作系統上,模型還需要具備強大的屏幕解析能力,主要包括兩方面:

      1、準確地識別用戶界面中的可交互圖標;

      2、理解屏幕截圖中各種元素的語義,并準確將預期動作與屏幕上的相應區域關聯起來。

      基于上述思路,微軟最新提出的OmniParser模型,可以將用戶界面截圖解析為結構化元素,顯著增強了GPT-4V在對應界面區域預測行動的能力。

      方法

      一個復雜的操作任務通常可以分解成多個子行動步驟,在執行過程中,模型需要具備以下能力:

      1、理解當前步驟的用戶界面,即分析屏幕內容中大體上在展示什么、檢測到的圖標功能是什么等;

      2、預測當前屏幕上的下一個動作,來幫助完成整個任務。

      研究人員發現,將這兩個目標分解開,比如在屏幕解析階段只提取語義信息等,可以減輕GPT-4V的負擔;模型也能夠從解析后的屏幕中利用更多信息,動作預測準確率更高。

      因此,OmniParser結合了微調后的可交互圖標檢測模型、微調后的圖標描述模型以及光學字符識別(OCR)模塊的輸出,可以生成用戶界面的結構化表示,類似于文檔對象模型(DOM),以及一個疊加潛在可交互元素邊界框的屏幕截圖。

      可交互區域檢測(Interactable Region Detection)

      從用戶界面屏幕中識別出「可交互區域」非常關鍵,也是預測下一步行動來完成用戶任務的基礎。

      研究人員并沒有直接提示GPT-4V來預測屏幕中操作范圍的xy坐標值,而是遵循先前的工作,使用標記集合方法在用戶界面截圖上疊加可交互圖標的邊界框,并要求GPT-4V生成要執行動作的邊界框ID。

      為了提高準確性,研究人員構造了一個用于可交互圖標檢測的微調數據集,包含6.7萬個不重復的屏幕截圖,其中所有圖像都使用從DOM樹派生的可交互圖標的邊界框進行標記。

      為了構造數據集,研究人員首先從網絡上公開可用的網址中提取了10萬個均勻樣本,并從每個URL的DOM樹中收集網頁的可交互區域的邊界框。

      除了可交互區域檢測,還引有一個OCR模塊來提取文本的邊界框。

      然后合并OCR檢測模塊和圖標檢測模塊的邊界框,同時移除重疊度很高的框(閾值為重疊超過90%)。

      對于每個邊界框,使用一個簡單的算法在邊框旁邊標記一個ID,以最小化數字標簽和其他邊界框之間的重疊。

      整合功能的局部語義(Incorporating Local Semantics of Functionality)

      研究人員發現,在很多情況下,如果僅輸入疊加了邊界框和相關ID的用戶界面截圖可能會對GPT-4V造成誤導,這種局限性可能源于GPT-4V無法「同時」執行「識別圖標的語義信息」和「預測特定圖標框上的下一個動作」的復合任務。

      為了解決這個問題,研究人員將功能局部語義整合到提示中,即對于可交互區域檢測模型檢測到的圖標,使用一個微調過的模型為圖標生成功能描述;對于文本框,使用檢測到的文本及其標簽。

      然而,目前還沒有專門為用戶界面圖標描述而訓練的公共模型,但這類模型非常適合目標場景,即能夠為用戶界面截圖提供快速準確的局部語義。

      研究人員使用GPT-4o構造了一個包含7000對「圖標-描述」的數據集,并在數據集上微調了一個BLIP-v2模型,結果也證明了該模型在描述常見應用圖標時更加可靠。

      實驗評估

      SeeAssign任務

      為了測試GPT-4V模型正確預測邊界框描述所對應的標簽ID的能力,研究人員手工制作了一個名為SeeAssign的數據集,其中包含了來自3個不同平臺(移動設備、桌面電腦和網絡瀏覽器)的112個任務樣本,每個樣本都包括一段簡潔的任務描述和一個屏幕截圖。

      根據難度,任務被分為三類:簡單(少于10個邊界框)、中等(10-40個邊界框)和困難(超過40個邊界框)。

      GPT-4V不帶局部語義的提示:

      Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘ Box with label ID: [xx]‘‘‘\n

      帶局部語義的提示:

      Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘Box with label ID: [xx]‘‘‘\n

      從結果來看,GPT-4V經常錯誤地將數字ID分配給表格,特別是當屏幕上有很多邊界框時;通過添加包括框內文本和檢測到的圖標的簡短描述在內的局部語義,GPT-4V正確分配圖標的能力從0.705提高到0.938

      ScreenSpot評估

      ScreenSpot數據集是一個基準測試數據集,包含了來自移動設備(iOS、Android)、桌面電腦(macOS、Windows)和網絡平臺的600多個界面截圖,其中任務指令是人工創建的,以確保每個指令都對應用戶界面屏幕上的一個可操作元素。

      結果顯示,在三個不同的平臺上,OmniParser顯著提高了GPT-4V的基線性能,甚至超過了專門在圖形用戶界面(GUI)數據集上微調過的模型,包括SeeClick、CogAgent和Fuyu,并且超出的幅度很大。

      還可以注意到,加入局部語義(表中的OmniParser w. LS)可以進一步提高整體性能,即在文本格式中加入用戶界面截圖的局部語義(OCR文本和圖標邊界框的描述),可以幫助GPT-4V準確識別要操作的正確元素。

      Mind2Web評估

      測試集中有3種不同類型的任務:跨領域、跨網站和跨任務,可以測試OmniParser在網頁導航場景中的輔助能力。

      結果顯示,即使沒有使用網頁的HTML信息,OmniParser也能大幅提高智能體的性能,甚至超過了一些使用HTML信息的模型,表明通過解析屏幕截圖提供的語義信息非常有用,特別是在處理跨網站和跨領域任務時,模型的表現尤為出色。

      AITW評估

      研究人員還在移動設備導航基準測試AITW上對OmniParser進行了評估,測試包含3萬條指令和71.5萬條軌跡。

      結果顯示,用自己微調的模型替換了原有的IconNet模型,并加入了圖標功能的局部語義信息后,OmniParser在大多數子類別中的表現都有了顯著提升,整體得分也比之前最好的GPT-4V智能體提高了4.7%。

      這表明了,模型能夠很好地理解和處理移動設備上的用戶界面,即使在沒有額外訓練數據的情況下也能表現出色。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    久久精品国产第一区二区三区| 亚洲人成网站色在线观看| 久久久久久日产精品| 蜜臀av性久久久久av蜜臀妖精| 欧美高清视频不卡网| 秋霞午夜鲁丝一区二区老狼| www成人在线观看| 91老师国产黑色丝袜在线| 亚洲一区二区三区四区在线| 日韩欧美在线观看一区二区三区| 国产精品资源在线看| 亚洲精品久久久久久国产精华液| 4438x亚洲最大成人网| 成人黄动漫网站免费app| 一级女性全黄久久生活片免费| 欧美一区二区三区精品| av中文字幕不卡| 麻豆精品新av中文字幕| 激情偷乱视频一区二区三区| 国产精品乱码久久久久久| 欧美男男青年gay1069videost| 国产乱码一区二区三区| 国产ts人妖一区二区| 日韩影院精彩在线| 综合久久综合久久| 国产三级欧美三级日产三级99| 国产精品996| 99re这里只有精品6| 精品一区二区影视| 五月天亚洲精品| 国产精品久久久久aaaa| 国产日韩欧美亚洲| 亚洲精品水蜜桃| 免费在线观看成人| 东方欧美亚洲色图在线| 欧美色精品在线视频| 99久久免费视频.com| 欧美人伦禁忌dvd放荡欲情| 久久老女人爱爱| 亚洲大片精品永久免费| 亚洲制服欧美中文字幕中文字幕| 日韩成人一区二区| 亚洲一区二区3| 精品在线一区二区| 日本高清免费不卡视频| a在线欧美一区| 欧美一区二区视频网站| 最新国产成人在线观看| 免费人成网站在线观看欧美高清| 国产jizzjizz一区二区| 欧美精品自拍偷拍| 亚洲精品中文字幕在线观看| 国模套图日韩精品一区二区| 一本大道久久精品懂色aⅴ| 色婷婷av一区二区三区之一色屋| 欧美一区二区在线观看| 亚洲女人****多毛耸耸8| 国产一区二区三区在线观看免费视频 | 欧美欧美欧美欧美| 亚洲日本韩国一区| 丁香婷婷综合网| 2022国产精品视频| 日日夜夜免费精品| 欧美伊人久久大香线蕉综合69 | 国产精品传媒视频| 精品一区二区三区在线播放视频 | 国产剧情一区在线| 日韩欧美的一区| 亚洲精品一区二区三区影院| 久久夜色精品国产欧美乱极品| 亚洲成av人片| 色久优优欧美色久优优| 欧美国产成人精品| 亚洲一区免费在线观看| 成人av中文字幕| 久久久欧美精品sm网站| 久久国产综合精品| 日韩欧美一级二级| 久久国产生活片100| 欧美成人一区二区三区在线观看| 国产日韩影视精品| 国产伦精品一区二区三区免费| 日韩欧美色综合网站| 免费观看成人av| 日韩欧美一级在线播放| 强制捆绑调教一区二区| 精品国产91洋老外米糕| 国内精品写真在线观看 | 亚洲免费观看高清完整| 色网综合在线观看| 亚洲国产精品自拍| 精东粉嫩av免费一区二区三区| 精品少妇一区二区三区视频免付费 | 精品一区二区久久| 国产色产综合色产在线视频| 成人激情av网| 亚洲曰韩产成在线| 日韩亚洲国产中文字幕欧美| 韩国av一区二区三区在线观看| 国产亚洲综合色| av一区二区不卡| 亚洲福利一区二区| 欧美一级久久久| 高清视频一区二区| 一区二区三区在线视频播放| 欧美精品亚洲二区| 国产在线播放一区| 亚洲人成伊人成综合网小说| 欧美男女性生活在线直播观看| 久久se这里有精品| 日韩一区在线播放| 国产精品一二三区| 亚洲人成影院在线观看| 欧美精品一卡二卡| 国产精品综合二区| 一级做a爱片久久| 久久综合久久综合亚洲| 色欧美乱欧美15图片| 麻豆久久久久久| 亚洲免费在线视频一区 二区| 日韩欧美国产综合一区| 91老司机福利 在线| 久久国产麻豆精品| 一级中文字幕一区二区| 久久久一区二区三区捆绑**| 在线观看免费亚洲| 亚洲午夜精品网| 久久伊99综合婷婷久久伊| 欧美吞精做爰啪啪高潮| 国产一区二区三区免费观看| 亚洲六月丁香色婷婷综合久久| 日韩精品一区二区三区中文精品| 色婷婷香蕉在线一区二区| 黑人巨大精品欧美一区| 亚洲国产另类av| 国产精品久久久久久久久免费桃花 | 91老司机福利 在线| 国产麻豆欧美日韩一区| 日韩av电影免费观看高清完整版 | 亚洲一区二区在线观看视频| 久久精品视频在线看| 3751色影院一区二区三区| 日本大香伊一区二区三区| 高清av一区二区| 久久精品国产99久久6| 五月天久久比比资源色| 亚洲激情自拍偷拍| 国产精品不卡在线| 中文字幕精品在线不卡| 久久久久久一二三区| 日韩欧美一区二区三区在线| 在线电影院国产精品| 色欧美片视频在线观看在线视频| 国产91露脸合集magnet | 欧美体内she精视频| 色激情天天射综合网| 91色porny在线视频| 不卡的电视剧免费网站有什么| 国产成人av电影在线播放| 国内精品不卡在线| 国产精品一色哟哟哟| 久久国产人妖系列| 久久99精品久久久久久| 国内外成人在线| 国产一区二区伦理| 国产精品自拍在线| 国产成人av一区二区| 一区二区三区四区亚洲| 1区2区3区国产精品| 亚洲欧美日韩小说| 一区二区欧美在线观看| 亚洲一区二区三区美女| 亚洲国产成人va在线观看天堂| 亚洲一区在线视频观看| 日韩精品三区四区| 久久精品国产亚洲一区二区三区| 精品一区二区在线视频| 国产高清在线观看免费不卡| 成人黄色小视频| 在线免费一区三区| 欧美一区二区三区系列电影| 26uuu色噜噜精品一区| 日本一区二区动态图| 亚洲视频免费观看| 天堂影院一区二区| 激情另类小说区图片区视频区| 国产一二精品视频| 99久久99久久精品免费看蜜桃| 91久久国产最好的精华液| 91精品国产91久久久久久一区二区| 日韩欧美中文一区| 国产精品午夜免费| 一区二区三区四区乱视频| 欧美aaaaa成人免费观看视频| 国产一区二区三区久久久 | 久久久国产一区二区三区四区小说| 国产精品三级久久久久三级| 亚洲一区二区在线免费观看视频 | 91天堂素人约啪| 欧美日韩不卡在线|