2018年05月10日,大部分應用都需要實時將用戶及其運動映射至3D空間。在以前,我們只能通過昂貴的所相機系統,或者令用戶穿上特殊的傳感器套裝才能實現。昨天映維網報道了RADiCAL的技術,現在據映維網了解(消息源:李今),馬克斯普朗克計算機科學研究所的計算機科學家開發出了一種只需要單個攝像頭的系統,而且它甚至可以預測用戶在預錄制視頻中的三維姿勢,比如說YouTube視頻。
博士后學生Dushyant Mehta表示:“這允許通過手機來捕捉視頻,同時實現身體追蹤。能夠實時在3D中實現這一點,而且只是借助移動設備上的攝像頭,這是一個巨大的進步。”
Mehta與同事研發了只需一個傳統攝像頭就可以實時捕捉用戶及其運動的軟件系統。研究人員Srinath Sridhar解釋說:“到目前為止,多攝像頭系統,或者像Kinect這樣深度攝像頭對這項任務來說都是必不可少的工具。”
新系統基于神經網絡,而研究人員將其稱之為“卷積神經網絡”(簡稱CNN),而這通常是與“深度學習”聯系在一起。馬克斯普朗克計算機科學研究所的研究人員開發了一種新方法,其能夠借助神經網絡從視頻流的二維信息中計算用戶的三維姿態。
他們在官網上公布了一個演示視頻。一位研究人員在后面玩雜耍,而前方的顯示器則播放相應的視頻錄像。我們看到右邊的畫面疊加了一個簡單的火柴人。另一個三維視圖則顯示了相應的運動,其用于說明研究人員能夠實時捕捉完整的三維姿態。無論研究人員移動肢體的速度有多快,或者移動幅度有多大,火柴人都會進行相應的三維運動,而另一個顯示器中的虛擬角色同樣如此。
研究人員將他們的系統稱為“VNect”。VNect既可以預測人物的三維姿態,也可以定位圖人物的位置。這允許系統避免在不包含人類的圖像區域上浪費計算。在機器學習過程中,系統的神經網絡通過數萬個注釋圖像進行訓練。系統根據關節角度提供三維姿態信息,而這可以輕松用于控制虛擬角色。
Mehta補充說:“NVect令更廣泛的人群可以觸及虛擬現實的三維身體姿態追蹤,因為他們不需要Kinect或其他攝像頭,無需要穿戴特殊的傳感器套件,只需使用十分普遍的網絡攝像頭即可。這同時可以為第一人稱VR帶來全新的體驗。”除了這種交互式角色控制之外,VNect還是第一個可以用來預測視頻中人物3D姿勢的系統,比如說YouTube視頻。馬克斯普朗克計算機科學研究所的Christian Theobalt教授接著說道:“從人機交互到人類與機器人交互,再到工業4.0,這還有其他許多的應用。我們同時可以考慮自動駕駛,汽車在未來或許可以通過攝像頭來預測人們的完整表達運動,然后評估他們的行為。”
但VNect仍然存在局限性。姿態估計的準確度比多相機系統或基于標記的姿態估計系統更低。如果人臉被遮擋,運動速度太快,或者出現沒有訓練過的姿勢,系統將出現問題。另外,多用戶場景也是一個問題。盡管如此,Sridhar相信技術將會進一步成熟,并且能夠處理越來越復雜的場景,從而可以在日常生活中使用。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。