Meta公司宣布了一個新的開源人工智能模型,將多個數(shù)據(jù)流聯(lián)系在一起,包括文本、音頻、視覺數(shù)據(jù)、溫度和運動讀數(shù)。該模型目前只是一個研究項目,沒有直接的消費者或實際應用,但它指出了生成性人工智能系統(tǒng)的未來,可以創(chuàng)造沉浸式的多感官體驗,并表明在OpenAI和Google等競爭對手變得越來越神秘的時候,Meta繼續(xù)分享人工智能研究。
(相關資料圖)
該研究的核心概念是將多種類型的數(shù)據(jù)連接起來,形成一個單一的多維指數(shù)(或"嵌入空間",用人工智能的說法)。這個想法可能看起來有點抽象,但正是這個概念支撐著最近生成性人工智能的蓬勃發(fā)展。
例如,像DALL-E、Stable Diffusion和Midjourney這樣的人工智能圖像生成器都依賴于在訓練階段將文本和圖像聯(lián)系起來的系統(tǒng)。他們在視覺數(shù)據(jù)中尋找模式,同時將這些信息與圖像的描述聯(lián)系起來。這就是使這些系統(tǒng)能夠按照用戶的文字輸入生成圖片的原因。許多以同樣方式生成視頻或音頻的人工智能工具也是如此。
Meta公司說,其模型ImageBind是第一個將六種類型的數(shù)據(jù)結合到一個單一的嵌入空間的模型。該模型包括的六種數(shù)據(jù)是:視覺(圖像和視頻形式);熱能(紅外圖像);文本;音頻;深度信息;以及最有趣的--由慣性測量單元或IMU產(chǎn)生的運動讀數(shù)。(IMU存在于手機和智能手表中,它們被用于一系列任務,從將手機從橫向切換到縱向到區(qū)分不同類型的身體活動)。
Meta博客文章中的一張截圖,顯示了不同類型的鏈接數(shù)據(jù),例如,火車的圖片、火車鳴笛的音頻,以及關于火車三維形狀的深度信息。
Meta的ImageBind模型結合了六種類型的數(shù)據(jù):音頻、視覺、文本、深度、溫度和運動。
我們的想法是,未來的人工智能系統(tǒng)將能夠交叉引用這些數(shù)據(jù),就像目前的人工智能系統(tǒng)處理文本輸入一樣。例如,想象一下,一個未來的虛擬現(xiàn)實設備不僅能產(chǎn)生音頻和視覺輸入,還能產(chǎn)生你在物理舞臺上的環(huán)境和運動。你可能會要求它模擬一次漫長的海上航行,它不僅會把你放在一艘船上,背景是海浪的噪音,而且還有甲板在你腳下的搖晃和海洋空氣的涼風。
在一篇博文中,Meta公司指出,其他的感官輸入流可以被添加到未來的模型中,包括"觸摸、語言、氣味和大腦fMRI信號"。它還聲稱這項研究"使機器離人類同時、全面和直接從許多不同形式的信息中學習的能力更近了一步"。
當然,這都是非常推測性的,而且像這樣的研究的直接應用很可能會更有限。例如,去年,Meta公司展示了一個人工智能模型,可以從文本描述中生成短小而模糊的視頻。像ImageBind這樣的工作顯示了該系統(tǒng)的未來版本如何納入其他數(shù)據(jù)流,例如,生成音頻以匹配視頻輸出。
不過,對于行業(yè)觀察者來說,這項研究也很有趣,因為Meta公司正在開放底層模型--這是人工智能世界中越來越受到關注的做法。
那些反對開源的人,比如OpenAI說這種做法對創(chuàng)作者有害,因為對手可以復制他們的作品,而且這可能有潛在的危險,讓惡意的行為者利用最先進的人工智能模型。倡導者回應說,開放源代碼允許第三方仔細檢查系統(tǒng)的缺陷,并改善它們的一些缺陷。他們指出,這甚至可以提供商業(yè)利益,因為它基本上允許公司招募第三方開發(fā)人員作為無償工人來改進他們的工作。
到目前為止,Meta一直堅定地站在開源陣營中,盡管并非沒有困難。(例如,其最新的語言模型LLaMA今年早些時候在網(wǎng)上泄露了。) 在許多方面,它在人工智能方面缺乏商業(yè)成就(該公司沒有可以與Bing、Bard或ChatGPT匹敵的聊天機器人),這使得這種做法成為可能。同時,通過ImageBind,它正在繼續(xù)實施這一戰(zhàn)略。
責任編輯:Rex_10