<bdo id="ks4iu"><del id="ks4iu"></del></bdo>
  • 
    <pre id="ks4iu"></pre>
  • <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
    <input id="ks4iu"><em id="ks4iu"></em></input>
    
    
  • <center id="ks4iu"><cite id="ks4iu"></cite></center>
  • 首頁 > 空調 >

    最新消息:Meta MCC:通過3D感知編碼器,改善2D圖像到3D模型質量

    作為現階段最成功的VR內容生態之一,Quest商店吸引了越來越多開發者發布VR內容,但這對于Meta來講似乎還不夠,其也在探索某種UGC VR生態,比如在Horizon Worlds中提供可視化開發工具,讓普通人也能創造VR應用。而近期,Meta公布的一項新研究表明,未來制作AR/VR內容可能就像拍短視頻那么簡單。

    據了解,Meta為了簡化AR/VR內容開發方式,研發了一種RGB-D圖像生成3D模型方案:MCC。MMC全稱是多視圖壓縮編碼,它是一種基于Transformer的編碼器-解碼器模型,可根據一幀RGB-D圖像合成/重建3D模型,潛在應用場景包括AR/VR、3D視覺重建、機器人導航、數字孿生/虛擬仿真等等。與普通彩色2D圖像不同,RGB-D是具有深度的彩色圖像,相當于普通RGB三通道彩色圖像加上深度圖(Depth Map),二者是配準的,像素一一對應。


    (資料圖片)

    實際上,Meta在2018年的F8大會上,就曾公布3D照片研究,可通過雙攝手機拍攝出具有3D效果的照片,其中包含一定的深度信息。其甚至還研發了將2D圖像轉3D的CNN模型,特點是支持單攝手機。這意味著,它如果結合MCC方案,或許可以將單攝手機捕捉的2D圖像合成為3D模型。

    而Transformer是一種采用自注意力機制的深度學習模型,谷歌曾使用它來增強搜索引擎,而近期比較火的ChatGPT模型也是基于Transformer。起初,Transformer更常用與自然語言處理領域,而隨著它與大規模、通用類別的學習模型結合,便也開始被用于語言處理之外的領域,比如圖像合成、圖像分析。

    利用MCC方案,3D開發/合成將有望實現規模化。隨著深度傳感器、深度捕捉AI模型在手機上普及,具有深度信息的圖像越來越容易獲得,因此MCC可使用的數據規模足夠大。

    研究背景

    Meta科研人員指出,視覺識別的一個核心目標根據單個圖像來理解物體和場景。在大規模學習和通用表示推動下,2D圖像識別技術得到大幅提升,但現階段識別3D場景/物體還存在挑戰,因為2D圖像源中存在圖形遮擋,所以很難從單張圖像合成完整的3D模型。

    為了解決這一問題,一些3D合成模型依賴于多張不同角度的源圖像。而如果用CAD模型來訓練,市面可用的數據集規模不夠多,因此限制了3D合成和理解技術的發展。

    而MCC只需要RGB-D圖像就能訓練,圖像中不可見的部分也能在3D模型中完整預測/合成。監督所使用的數據則基于含有深度信息、相機姿態的視頻幀。

    方案原理

    MCC采用簡單的解碼器-編碼器架構,將RGB-D圖像輸入到MCC中會產生輸入編碼,然后解碼器將在輸入編碼中訪問3D點數據,以預測該點的占用率和RGB色彩(將3D重建定義為二元分類問題)。簡單來講,MCC只需要處理3D點云數據,而3D點可以捕捉任何對象或場景,通用性比網格和立體像素更好,因此用大規模RGB-D圖像數據就能訓練模型。另外,RGB-D圖像可通過手機的LiDAR傳感器來捕捉,或是由深度模型來計算(比如MiDas、COLMAP)。

    科研人員利用來自不同數據集的深度圖像/視頻來訓練MCC,這些數據部分未包含3D場景、3D對象的全部角度,而這將需要AI重新構建。此外,MCC也可以將AI合成的圖像轉化為3D模型。

    因此,MCC最大的特點是可預測RGB-D圖像中看不見、被遮擋的3D幾何形狀。科研人員表示:MCC模型與基于圖像的自監督學習、掩碼自動編碼器(MAE)的最新進展有直接關系,MAE也是通過預測圖像中看不見的形狀來學習圖像表示。此外,MCC無需具有注釋的3D數據,成本更低、數據更容易收集。

    科研人員表示:研究結果表明,將基于點云的3D合成模型與通用類別的大規模訓練結合,是有效的。未來,希望將這種成果擴展為通用的3D分析視覺系統,讓3D重建/合成效果更接近人腦的想象力。

    對比其他方案

    谷歌、NVIDIA等科技公司也曾研發2D圖轉3D技術,分別依賴于NeRF、逆向渲染(3D MoMa),缺點是需要多張圖像,而且NeRF很那從單個圖像生成新的場景。其他一些方案需要使用3D CAD模型等規模有限的數據來訓練,而MCC只需要通過RGB-D圖像就能訓練3D重建。

    此外,MCC普適性好,對于未曾見過的新對象類別,也能實現“開箱即用”(支持零樣本學習),直接處理成3D模型。

    為了展示MCC與不同數據來源的兼容性,科研人員將其與多個圖像源結合,比如:

    iPhone 14 Pro(LiDAR傳感器) 圖像生成AI DALL-E 2 Facebook的開源3D重建數據集CO3D(Common Objects in 3D) 大型視覺數據庫ImageNet 3D仿真數據集Hypersim 室內場景數據集Taskonomy

    這些數據集包含了50多種常見對象類型,以及大規模場景,比如倉庫、禮堂、閣樓、餐廳等等,利用它們重建的3D模型還不能一比一還原,而是看起來比原來更圓潤、更卡通化,但應用在3D開發中質量足夠好。未來,隨著用更多數據、更多樣化對象進行訓練,MCC的性能還可以顯著提升。

    參考:Meta

    責任編輯:Rex_06

    關鍵詞: 圖像合成 彩色圖像
    推薦閱讀

    殺不死的“去中心化”

    · 2023-02-06 17:50:42

    孔孟家譜 孔家家譜

    · 2023-02-06 16:06:07
    欧美国产在线一区,免费看成年视频网页,国产亚洲福利精品一区,亚洲一区二区约美女探花
    <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
  • 
    <pre id="ks4iu"></pre>
  • <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
    <input id="ks4iu"><em id="ks4iu"></em></input>
    
    
  • <center id="ks4iu"><cite id="ks4iu"></cite></center>
  • 主站蜘蛛池模板: 亚洲国产婷婷综合在线精品| 日韩免费无码一区二区视频| 好吊妞在线观看| 国产精品久久久久久久久久久搜索| 啊快捣烂了啦h男男开荤粗漫画 | 免费毛片a线观看| 亚洲gv白嫩小受在线观看| 一区五十路在线中出| 很黄很污的视频网站| 特级毛片在线大全免费播放| 日本簧片在线观看| 国产伦精品一区二区三区视频小说 | 在人间电影在线观看完整版免费 | 日韩精品中文字幕视频一区| 国内精品视频一区二区三区| 动漫美女被免费网站在线视频| 久久青草亚洲AV无码麻豆| 91久久偷偷做嫩草影院免| 美女在线免费观看| 日韩有码在线观看| 国产亚洲精久久久久久无码| 中文字幕永久免费视频| 国产曰批免费视频播放免费s| 日韩精品免费一级视频| 国产亚洲欧美日韩亚洲中文色 | 豆奶视频最新官网| 欧美激情一区二区久久久| 女子初尝黑人巨嗷嗷叫| 亚洲精品在线不卡| 一本无码人妻在中文字幕免费| 色综合欧美在线视频区| 日韩欧美成人免费中文字幕| 国产gay小鲜肉| 久久久精品2019中文字幕2020| 翁虹三级在线伦理电影| 日本动漫黄观看免费网站| 国产小呦泬泬99精品| 丰满熟女高潮毛茸茸欧洲| 荫蒂添的好舒服视频囗交| 思思99re66在线精品免费观看| 国产一级一国产一级毛片|