大模型生態需要百花齊放。
4月25日,由中國科技產業智庫「甲子光年」主辦、上海市信息服務業行業協會支持的「共赴山海·2023甲子引力X智能新世代」峰會在上海召開。現場30余位嘉賓與數百位科技從業者共同全方位聚焦新一代人工智能,為科技與產業的結合尋找新機會。
在當天下午的《行穩致遠:大模型、大算力與可持續發展——新智能時代的基礎設施》主題圓桌中,達觀數據董事長兼CEO陳運文、亞馬遜云科技初創生態架構師團隊技術負責人孔雷、上海交通大學計算機科學與工程系教授&開源GPGPU平臺“青花瓷”發起人梁曉峣、PPIO聯合創始人姚欣、華映資本管理合伙人章高男、億鑄科技高級副總裁徐芳6位嘉賓共同探討了 大模型實現路徑的多種可能性。
(相關資料圖)
以下是本場圓桌的交流實錄,「甲子光年」整理刪改:
1.大模型是否真的“越大越好”?
徐芳(主持人):這次圓桌的主題是《行穩致遠:大模型、大算力與可持續發展:新智能時代的基礎設施》。2023年,人工智能領域有一個現象是所有人都無法忽視的——OpenAI帶來的ChatGPT,以及隨之而來的通用智能的沖擊。我們看一下國內,大模型如雨后春筍般出現,互聯網大廠紛紛推出了自己的大模型平臺。但是我們都知道,做大模型背后有巨量的成本投入,包括訓練模型、數據中心的租賃等。但是為什么成本這么高,各廠商還是會出現大模型的規模之爭?
陳運文:大型模型在自然語言處理領域中是一項非常有價值的新技術,能夠解決以往傳統技術難以解決的問題。由于大型模型具有更大的存儲容量,能夠包含更多的知識,因此在許多應用場景特別是面向普通用戶的 C 端應用場景下,大型模型能夠應對來自各個方向的用戶需求,因此模型參數越大,它可以解決的問題就越廣泛。這也是為什么當今互聯網巨頭選擇超大規模的參數模型來承載各行各業的應用的原因。隨著大型模型和 C 端應用場景的不斷結合,特別是搜索引擎和商業應用的結合,C端大型模型的參數規模一定會越來越大,其中包含的知識也會越來越豐富,它能夠解決的問題也會越來越深入,這是未來的發展方向。
孔雷:剛才也聽到很多嘉賓在講AI暴力美學——模型足夠大,足夠強,參數足夠多,確實能帶來很強的效應,但只是表面現象。參照歷史,5年前或者10年前有大數據時代,現在大模型時代,大家都在談規模,但是我認為模型之爭更多是一個營銷口徑。在整個模型的學習曲線里面,模型大和小,參數多和少只是其中一個方面,還有很多包括算法優化、工程化,對接應用等維度。這是一個需要多維應對的態勢,我并不認為模型越大,效果越好。反而現在我們國內的初創公司呈現出了百花齊放的態勢。
對于現在的玩家我們分三個維度看——第一類玩家要做特別大的模型,比如OpenAI的GPT系列為領導的100B以上的模型。這個真的是超大規模。它的模式是要去構建一個足夠高的壁壘,讓別人都望塵莫及,他們在資金和人力上的投入是別人很難在短時間趕上的。第二類和第三類玩家更多在契合大家的應用場景,20B~65B是一類,10B以下是一類,這反而是更多國內初創公司的契機,也是值得各位計算機領域的專家挖掘、精細研究的地方。
姚欣:我也同意類似的觀點,沒必要一味追求大規模,號稱萬億級的模型并不見得效果好,人腦都做不到這么大的參數量。恰恰相反,我們要追求更小的數據量。AI發展過程中,大家的追求是用更小的數據量訓練。上一個時代的AI其實是要大數據,小模型;今天這個時代,模型大了之后我們反而可以讓數據相對較小,我們可以得出一個更有效的基礎。所以今天真正要讓模型走到應用側,我們往往要把模型蒸餾、裁減再使用,并不使用大的模型,可能的確是平臺層需要追求模型通用性所以主打大模型方向,但是對于大多數企業來講暫時用不到。
章高男:對于大模型通常的定義是100億以上的訓練數據規模才能叫大模型,另外一般也默認是以深度學習為主要框架的模型。我們通常所說的大模型有這兩個前提。我個人很歡迎大企業參與大模型,因為這代表著技術發展潮流和趨勢。但大模型解決問題的效果首先取決于訓練數據的優質性,因為所謂通用大模型進入很多細分行業領域里數據是很稀疏的。所以通用大模型在細分領域中效果未必是最好的,也有很多垂直行業的細分大模型的機會。
AI發展變化太快了,實話講我是跟不上學習的,只是了解皮毛但是又不得不學,畢竟這是未來很重要的技術趨勢之一。有一個觀察是,這波大模型會讓深度學習取代很多過去的邏輯推理或者數學方法,這在工業中會有很多機會。譬如以前做CAE仿真,通常都是建立高維方程求解,但越來越多仿真軟件開始嘗試深度學習方法,這是一個很大的機會。
2.大模型時代需要什么樣的算力結構?
徐芳:非常感謝各位大咖的精彩分享。發展大模型離不開基礎設施的建設,請各位分享一下大模型時代需要什么樣的算力結構?請梁曉峣教授先開始。
梁曉峣:謝謝主持人。我本身專業是做GPGPU芯片的,從算力角度來講,現在這個GPGPU肯定是我們大模型算力的基礎底座,不光這波大模型熱潮是這樣。大概6-7年前開始的上一波深度學習的算力基座就已經變成GPU了。一直以來,以英特爾為代表的CPU是芯片“皇冠上的明珠”,但7-8年前皇冠已經易主了,現在GPU成為皇冠上的明珠。從英偉達的市值也可以發現,最近幾年市值已經比英特爾超了不止1倍,最高的時候可能達到英特爾市值的4倍。從真正應用落地來講,A100一卡難求,到處都買不到,我們所有大模型都部署在GPU上的。從這點來看,未來沒有這樣一個堅強的算力基座,大模型的道路就會非常艱難。因為按照摩爾定律,按照英偉達的路線表,每隔一年半芯片的算力必然是翻倍,有時候還不止翻倍,可能翻3-4倍,現在這個A100的算力基本上也就是剛剛可以支持大模型的能力,再過兩代,算力翻到5-6倍以后,可以看一下大模型的規模可以到什么樣的量級。現在我們在大算力芯片方面存在短板,目前我們沒有看到真正能取代英偉達GPU的產品,再過3-5年別人也在不斷進步,翻5-6倍以后我們的差距可能更大,這個值得大家注意。
姚欣:其實梁教授對比英偉達GPU來解讀算力只是揭示了算力的一角,因為大家買GPU最多還是用來做訓練。的確A100一卡難求,有一天我們應用走向普及的時候,我們更大的挑戰在推理側。我之前也看OpenAI講到,未來95%的算力消耗在推理側,訓練側只占到5%。好消息是我們推理側的芯片選擇會更多,不會只有英偉達GPU一款,包括國產GPU、TPU等都在發展。隨著應用的普及,算力可能是千萬倍增長,同時也會帶來整體成本下降。OpenAI單次搜索連續對話的成本比谷歌更高,有研究顯示,如果要用OpenAI顛覆谷歌或者谷歌切換到這個模式,成本可能會近百倍地上升,因為在使用時算力消耗會在短時間內爆炸式增長。最近我們用ChatGPT的時候頻頻限流,有錢的地主家都燒不起了,當各家大模型上線后真正面臨的挑戰在這里。未來整個算力大爆發會帶來整個云邊端、芯片底層到云算力平臺的爆發,比大模型廠商之爭,算力之爭更是繁榮的場景,更是值得大家進入的場景。
孔雷:我非常認同。算力在大模型時代是一個很重要的基座,但并不是全部。我們有兩個見解可以分享給大家:
首先,像亞馬遜之類的很多云巨頭廠商都在建自己的基座模型,這個思路是怎么來的?我們看過去整個IT基礎架構的發展,上個時代是大數據時代,大數據時代其實最早也是各家初創公司百花齊放搞出來的,但是后來發現它的算力、規模、數據之爭最后都會碰到資源的瓶頸,這個時候誰來解決?無論是大數據還是大模型,它們多是跟云天然綁定的,GPU、CPU,包括現在很多提到的NPU也是其中一部分,還要看周邊所有的生態玩家配套設施、網絡、存儲,是一個工程化的系統工程,云廠商有非常大的先見之明、資源優勢和規模效應。長遠看,接下來3-5年,(大模型會成為)各個云廠商兵家必爭之地。
第二,從芯片的角度,其實現在AI芯片在國內外百花齊放,有更多芯片公司涌現,做更加細化的AI芯片,他們在各個領域做優化工作,無論是降低能耗還是優化算法等領域都有公司存在。這不是為了打破寡頭壟斷,而是為了解決所有模型領域的細分場景痛點。
把這兩點結合起來,就是大家都在談的“模型即服務”(MaaS),MaaS的底層肯定是云巨頭提供的。這是我的一些見解。
徐芳:的確,國內的芯片除了GPGPU,存算一體之外,更新的架構也在持續出現,這些最終都是服務,比如達觀數據向垂直領域提供整體解決方案,請陳運文總分享一下他的觀點。
陳運文:我們自己的模型訓練使用中型的算力平臺,目前我們用的是英偉達的全套方案,用的是DGX方案,多G多卡的高性能通信,能充分喚起GPU的算力,還是非常優秀的。但更大規模卡的訓練是租賃的方式,因為我們全部自建超大規模的多G多卡集群是不合算的,所以選擇租賃相應云服務。
國內有上千張卡集群的平臺以前真的很稀缺。我們最近聯系運營商有一些資源,我們相信今年下半年,國內多G多卡的上千張卡以上的GPU集群應該會比現在多很多,到時候算力可以得到一部分緩解,這個都是在訓練側。推理側的話和幾位嘉賓一樣,推理側的算力需求非常大,各行各業不管是個人還是企業,未來都會有自己的推理策略需求,但現在中國大量企業沒有自己的推理側算力。我們的大模型未來賦能垂直行業的機會很多,而且現在一片空白,推理側建設運營都有很大的機會。我們模型的特點是一次訓練完成以后,能夠拷貝給很多客戶做推理應用,我非常看好未來在推理側的平臺建設。
徐芳:非常感謝陳總的分享。大家知道,任何產業的底層發展要素中,資本是不可缺少的一部分,我們請章高男總從資本角度分享下大模型時代需要什么樣的算力結構?
章高男:行動上講,每個基金都有自己的團隊能力組成,有自己投資的方向,整體上我們還是非常擁抱整個AI帶來的變化。推理和訓練端的算力我們都投過,邊緣計算我們也投了智能化RTOS。訓練推理我們也投了GPU,這波對GPU還是有非常好的促進作用,算力不光是GPU,還有FPGA、Asic還有各種異構架構的新嘗試,特別是一些細分特殊場景上有很多高效的算法調優機會。我個人覺得算力這塊有百花齊放的態勢,做得好都能找到自己的定位和機會。
因為我是投to B和科技的,我的重點方向是智能制造和通信。我們已經在智能制造領域投了很多企業,過去以數據化為主已經有一定的生態能力,未來會向工藝線傾斜,通過軟硬結合來完善我們的生態。我們發現工業領域很多企業都有很多Know-how,但他們工藝改進的方法落后了,沒有擁抱深度學習,這波大模型熱可以讓他們很好的借鑒。所以我們現在投工藝線必須以極強的行業場景或者Know-how數據作為起點,如果沒有這些數據,或者業務不能產生稀缺的私有數據的話,我是肯定不投資的。過去是沒有加這個前提條件的。另外,如果你的工藝路線愿意跟這些大模型或者行業里面的類似模型結合,愿意采用深度學習方法去做持續的工藝改善,那這類項目是可以優先選擇的。這兩點是AI對我們本身投資策略和選擇標準都產生了一些很明顯的影響。
3.大模型的開源與閉源,未來誰是主流?
徐芳:講完了技術、產業發展,我們可以看一下關于大模型時代開源與閉源的路線之爭。有人認為開源更有利于建立生態,有人覺得從商業模式出發,開源不是很好的選擇。各位對于這個討論有怎樣的觀點,未來的主流路線會是誰?
陳運文:從大模型本身的開源閉源來說,大家可以看到現在整體市場情況還是百花齊放的,最近看到陸陸續續有很多國外的科研機構,開源了自己的模型。但也有一些商業機構,尤其一些大型的機構,比如OpenAI從GPT-3.0往后都是閉源的。
一個比較有意思的現象是, 開源有“程度”之說,有一些是徹底開源,從訓練數據、算法模型參數到訓練好的模型,全部開放;有一些半開源,只開源了算法模型。不同企業選擇不同,我猜測未來可能從學術界角度來說,應該還是擁抱開源。我看到不管是在清華還是復旦,中國頭部高校開源都做得非常優秀。很多商業公司都是閉源公司, 商業公司可能從知識產權保護和未來商業變現角度考慮,不同公司有不同選擇。我自己的判斷是,大型的商業公司可能選擇閉源方案,學術界為了促進行業的繁榮,可能會選擇開源。大家選擇的時候模型本身只是其中一小部分因素而已,真正未來的商業落地,其實大家看的是基于模型上所構建的垂直行業產品,產品才是未來的核心競爭力所在,而且這個產品的形態,不只是今天大家看到的這么簡單的一問一答的聊天形態,未來大模型會賦能很多行業,變成很復雜、很專業的產品,這些專業的產品結合底層模型,才能真正有生命力,不管是開源還是閉源的。
孔雷:我的觀點非常簡單,可以把大模型類比成以前的操作系統或數據庫,所以不存在所謂開源閉源之爭。長久來看無論從商業模式還是生態發展,都是相互共存的。稍微具體一點,我更認可陳總的觀點,未來我們會看很多垂類的行業應用,會涌現出很多應用類公司,走的是小型閉源之路,但在to C領域是開源方式。
梁曉峣:作為學術界的一員毫無疑問是開源,我們學術界最想避免的就是封鎖,最支持的就是共享,這樣才能促進這個行業的繁榮。雖然OpenAI一開始是開源的非營利組織,但做了幾代開源之后逐漸走向封閉,進而有可能成為一個商業化行為,但會被破局。全世界的高校都在做自己的開源大模型,學術界是出人才的地方,是有新生力量的地方,一定會超越封閉的生態環境。
為什么我今天的頭銜除了“教授“”還特意放了“GPGPU開源平臺”?我個人認為不光是在大模型層,在應用層、算法層、芯片層都應該開源,我率領交大團隊的第一個GPGPU平臺,我們稱之為青花瓷,我們的宗旨是什么?目標是什么?就是播種普惠算力,讓人人都能做自己的GPU,把我們GPU的設計經驗賦能給所有的企業,以開源免費中立的方式給所有人。我們這個平臺可能自己不會做任何一塊GPU芯片,但我們希望教會所有人做自己的GPU。我們在訓練端算力被英偉達壟斷,但我們希望有人突破這個封鎖和壟斷,不是靠國內幾家做GPU的公司或者大公司就能夠搞定的,因為別人的生態墻太高了,我們要想突破別人的生態墻,必須要有開源、開放、積沙成塔、愚公移山的精神,才能打破別人已經深耕了幾十年的瓶頸。我們這個開源開放的GPGPU就詮釋了開源和閉源的協作關系,源是賦能給所有的企業!而這些企業自己做的芯片肯定是要賣錢的,他是一種閉源的商業模式,開發更好的GPGPU,這是我們的初衷,我想大模型也是這樣的道理。
徐芳:非常感謝梁教授的分享,讓我們獲得了更多力量,相信后面一定會后浪推前浪,持續地有后來者不斷推動整個產業向前發展。接下來有請姚欣總就開源閉源之爭發表觀點。
姚欣:我印象中每一次時代之爭,都會先冒出一家閉源的、壟斷的領先公司,之后會號召起來整個行業以開源之態去圍剿它。比如從iOS到安卓,全部在重演IT戰爭。所以我覺得這次微軟又回到了20年前,又選擇了一次閉源和封閉的模式,我能看到的的確就是所有的企業都在圍繞開源發展。
回顧歷史,我們會發現很多產業的創新早期都采用了垂直整合的方式。例如,當年iPhone在2007年推出時,由于當時硬件和軟件能力相對薄弱,所以它采用了閉源的方式來壟斷整個產業,并先把整個體驗和商業模式打造成閉環。只有在這種封閉的情況下,才能較快地構建一個完整的生態系統。但實際上,產業的發展和繁榮需要各個方面做出貢獻,如制造硬件、開發應用程序、進行應用支持等等。
現在,人工智能也在閉源先行。然而,我們正在走向開源,例如PPIO在AI推理平臺支持下,為大量數字人提供服務。我們進入這個市場,也正是因為去年Stable Deffusion公司的開源。此外,我也注意到,Stable Deffusion開源之后的模型和應用的迭代速度遠遠超過了OpenAI自家的CLIP等閉源應用和模型。由于有太多的細分場景需要滿足,沒有一家公司能夠窮盡所有的可能性。因此,只有生態系統達到繁榮階段,才能實現更全面和高效的發展。我完全贊同梁曉峣教授的看法:中國作為人工智能的追趕者,必須倡導開源,甚至全面開源。我特別期待數據開源標準的制定,這是能夠推動我們共同發展的一項重要任務。
徐芳:章高男總從資本的角度看一下,您對發生在產業界中不同公司的商業行為有什么樣的看法?
章高男:這個話題我基本上100%同意前面嘉賓的觀點。開源閉源和軟件成功是兩個獨立的事件。開源有很多成功的,閉源也有很多成功的。而且很多閉源軟件也會借鑒很多開源軟件的思想,有時候也有很多模糊空間。如果說是走開源的路線,可能有兩種方式機會更大,一個是有超級大廠的強力支持來維護生態來,另一種是有廣泛的群眾基礎,這要求這個軟件必須是超級基礎剛需,非常多人有強烈需要。
姚欣:你覺得Linux開源背后是巨大的商業支持嗎?
章高男:不。我說商業成功。
姚欣:產業甚至技術開發者的支持才能帶來開源。
梁曉峣:賺錢和成功是兩回事。影響力和社會影響力更是兩回事。
章高男:Linux這種開源包括過去是Unix生產出來的Linux,你這個最終也是一個商業化組織,最終也是被這個公司收購,最終還是總歸要投入產業背后。有情懷的開源,這個是鼓勵的,這個是適合進步的。你做一個商業科學家本身是要促進社會進步,如果方向對了,大家愿意貢獻自己的代碼,那就是看活躍度,我更想說的就是我們不是糾結開源和閉源,而是開放的態度,即便是開源,我們要把這個做起來,這個心態應該是我們領域有的。
徐芳:感謝幾位嘉賓的分享,此次的圓桌論壇到此結束,非常感謝各位的分享!
責任編輯:Rex_09