ChatGPT是革命性的數(shù)據(jù)模型,給我們帶來驚喜不僅僅是內(nèi)容的生產(chǎn)方式的變化,更讓人們看到了通用人工智能的希望,推動(dòng)AI大模型和新應(yīng)用不斷涌現(xiàn)。隨著通用人工智能和人類真實(shí)的需求對(duì)齊,超大模型正在成為人工智能撬開廣大應(yīng)用市場的利器。
大模型可以將復(fù)雜問題泛化成一個(gè)通用問題,極大縮短產(chǎn)業(yè)應(yīng)用的周期。不過,另一個(gè)方面,大模型對(duì)于算力的要求將會(huì)更高,需要AI基礎(chǔ)設(shè)施的支撐。
當(dāng)前針對(duì)大模型和基礎(chǔ)設(shè)施,國內(nèi)外巨頭均已展開布局。收購OpenAI后,微軟對(duì)于其全力的支持,才成功研發(fā)出ChatGPT,讓微軟重回科技之巔。同時(shí),微軟的智能云Azure是OpenAI的重要合作伙伴,為其提供了重要算力和云等基礎(chǔ)服務(wù)。
商湯早在2018年就開始大模型相關(guān)探索,當(dāng)時(shí)叫做預(yù)訓(xùn)練模型。2023年,商湯科技連續(xù)推出了多模態(tài)多任務(wù)通用大模型“書生(INTERN)2.5”和大模型體系“日日新SenseNova”。在商湯大模型的背后,是商湯科技新型AI基礎(chǔ)設(shè)施——商湯大裝置SenseCore。
2023年6月2日,臨港智能算力產(chǎn)業(yè)峰會(huì)中,臨港新片區(qū)智算產(chǎn)業(yè)聯(lián)盟正式成立,作為“新片區(qū)智算產(chǎn)業(yè)鏈鏈主”企業(yè)和聯(lián)盟的算力提供企業(yè),商湯科技將與智算產(chǎn)業(yè)上下游及高校與科研院所共同開展資源共享、技術(shù)交流和項(xiàng)目合作。
可見,無論國外還是國內(nèi),眾多科技巨頭都已將大算力+大模型作為長期的戰(zhàn)略方向。
01
大模型時(shí)代,
算力到底有多重要?
2023年,國內(nèi)外眾多科技巨頭紛紛布局大模型,比如谷歌發(fā)布了PaLM-E、阿里發(fā)布大模型“通義千問”、百度推出“文心一言”。
商湯科技4月發(fā)布“日日新SenseNova”大模型體系之后,在大裝置的賦能下實(shí)現(xiàn)了日新月異的飛速發(fā)展:開源了“書生2.5”多模態(tài)大模型,以及發(fā)布遙感大模型SenseEarth3.0、通才AI智能體GITM等等。近日,商湯科技、上海AI實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級(jí)參數(shù)大語言模型“書生·浦語”(InternLM)?!皶て终Z”具有1040億參數(shù),是在包含1.6萬億token的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。
全面評(píng)測結(jié)果顯示,“書生·浦語”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個(gè)測試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強(qiáng)的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項(xiàng)中文考試中取得超越ChatGPT的成績,其中就包括中國高考各個(gè)科目的數(shù)據(jù)集(GaoKao)。
“書生·浦語”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評(píng)測對(duì)其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測集:
由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評(píng)測集MMLU;
微軟研究院推出的學(xué)科考試評(píng)測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);
由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評(píng)測集C-Eval;
以及由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評(píng)測集Gaokao;
實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對(duì)“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和GPT-4進(jìn)行了全面測試,針對(duì)上述四個(gè)評(píng)測集的成績對(duì)比如下(滿分100分)。
△評(píng)測成績
“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學(xué)術(shù)開源模型,還在AGIEval、C-Eval,以及Gaokao等多個(gè)綜合性考試中領(lǐng)先于ChatGPT;在以美國考試為主的MMLU上實(shí)現(xiàn)和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實(shí)的知識(shí)掌握程度和優(yōu)秀的綜合能力。
商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆表示,在接下來2~3年之后,人工智能研究可能80%、90%都將轉(zhuǎn)向大模型。很多方向產(chǎn)業(yè)人工智能研發(fā)或?qū)⒈淮竽P退鎿Q,這也符合自然的技術(shù)研發(fā)進(jìn)步延伸的過程,我們正奔向大模型時(shí)代。
大模型如火如荼,算力重要性同樣不言而喻。OpenAI作為微軟的子公司,背后對(duì)于算力或許不焦慮。可對(duì)于國內(nèi)很多公司來說,背后或許并無微軟、谷歌、亞馬遜這樣的巨頭支撐,又該如何應(yīng)對(duì)呢?
眾所周知,大模型需要在海量數(shù)據(jù)上進(jìn)行訓(xùn)練和優(yōu)化,才能達(dá)到更高的預(yù)測準(zhǔn)確性和泛化能力,隨著數(shù)據(jù)處理量增大,對(duì)于算力的需求也越高。比如,在ChatGPT的研發(fā)上,微軟就在Azure的六十多個(gè)數(shù)據(jù)中心部署了幾十萬張GPU,為OpenAI單獨(dú)使用。
△商湯科技人工智能計(jì)算中心
如今,中國科技巨頭已經(jīng)開始肩負(fù)AI基礎(chǔ)設(shè)施建設(shè)的責(zé)任。比如,2021年,世界人工智能大會(huì)期間,商湯正式推出新型AI基礎(chǔ)設(shè)施——商湯大裝置SenseCore;2022年9月,商湯大裝置AI云也對(duì)外發(fā)布,并于2023年2月25日正式上線。商湯大裝置SenseCore在千卡集群上達(dá)到了90%的利用率,遠(yuǎn)遠(yuǎn)領(lǐng)先行業(yè)平均水準(zhǔn)。
未來,是否擁有大模型與大算力是衡量一家人工智能企業(yè)能力的主要標(biāo)準(zhǔn)。也是打破國外“算力壟斷”,打造高效率、低成本、規(guī)?;南乱淮鶤I基礎(chǔ)設(shè)施與服務(wù)的關(guān)鍵所在。
在算法層面,不管是商湯科技,又或者是其他AI科技公司,都在從小模型到大模型轉(zhuǎn)型。
在算力層面,經(jīng)過5年探索,商湯科技人工智能計(jì)算中心(AIDC)去年在上海臨港正式投用,成為商湯大裝置SenseCore的重要算力基座,是亞洲目前最大的智能計(jì)算平臺(tái)之一,也是國內(nèi)為數(shù)不多接近GPT所需算力的重要基礎(chǔ)設(shè)施。
臨港新片區(qū)黨工委副書記吳曉華在算力大會(huì)上表示,臨港新片區(qū)算力產(chǎn)業(yè)已在上游軟硬件、中游的數(shù)據(jù)中心、調(diào)度平臺(tái),下游應(yīng)用進(jìn)行了相應(yīng)布局。
上海臨港自貿(mào)區(qū)計(jì)劃到2025年,形成以智算算力為主、基礎(chǔ)算力和超算算力協(xié)同的多元算力供給體系,算力產(chǎn)業(yè)總體規(guī)模突破100億元;與此同時(shí),總算力超過5EFLOPS(FP32),AI算力占比達(dá)到80%,建成公共算力服務(wù)平臺(tái)。商湯科技聯(lián)盟重要參與者,將會(huì)為臨港自貿(mào)區(qū)提供重要算力基礎(chǔ)服務(wù)。
未來,無論在政府和政策端,還是企業(yè)和應(yīng)用端,算力都是AI技術(shù)發(fā)展的重要基礎(chǔ)設(shè)施。
李開復(fù)多次在公開活動(dòng)中強(qiáng)調(diào),不要忽視在基礎(chǔ)設(shè)施領(lǐng)域的投資,尤其是算力領(lǐng)域。能提高算力或者帶來新算法、新芯片等類型的企業(yè),也是創(chuàng)新工場著重關(guān)注的領(lǐng)域。
IDC的數(shù)據(jù),預(yù)計(jì)到2023年全球AI芯片市場規(guī)模將達(dá)到710億美元。
奇績創(chuàng)壇創(chuàng)始人兼CEO陸奇認(rèn)為,大模型為先的新一代基礎(chǔ)設(shè)施是新時(shí)代早期的好“工具生意”。
AI的巨變前夕,率先掌握底層算力提供能力,或許可以在資本市場和應(yīng)用市場雙線開花,實(shí)現(xiàn)名利雙收。
02
商湯大裝置的三大核心優(yōu)勢
算力、數(shù)據(jù)、算法是AI傳統(tǒng)三要素,三者的結(jié)合造就了人工智能的廣泛應(yīng)用。只不過,伴隨著通用人工智能時(shí)代(AGI)到來,數(shù)據(jù)量的攀升,市場對(duì)于算力和算法的要求越來越高。
未來,誰能為AI三要素提供更好地整合能力,以及更低成本、更低門檻的能力是決定其市場地位的關(guān)鍵。
在深潛atom看來,企業(yè)選擇人工智能基礎(chǔ)服務(wù)時(shí),成本、性能和差異性都是重要參考目標(biāo),在選擇眾多之時(shí),差異化服務(wù)或是決定企業(yè)選擇的關(guān)鍵。
提到人工智能基礎(chǔ)設(shè)施的差異化服務(wù)上,商湯科技也是繞不開的一家科技公司。其很早預(yù)見了AGI時(shí)代的到來,針對(duì)AI基礎(chǔ)設(shè)施展開了布局,并且推出商湯大裝置SenseCore——融合了算力、算法和數(shù)據(jù)處理能力,致力于打造高效率、低成本,規(guī)?;男滦腿斯ぶ悄芑A(chǔ)設(shè)施。
△商湯大裝置SenseCore
行業(yè)普遍認(rèn)為算力就是基礎(chǔ)設(shè)施,但實(shí)際上人工智能基礎(chǔ)設(shè)施是算力、數(shù)據(jù)、算法(包括基礎(chǔ)算法和算法相關(guān)的工具)三位一體。算力不僅是硬件的資源,還包括上面一整套的基礎(chǔ)軟件體系;數(shù)據(jù)也不僅是數(shù)據(jù)本身的積累,還包括處理數(shù)據(jù)的能力、整合數(shù)據(jù)的能力、使用數(shù)據(jù)的know-how……誰能把這三者的整合能力提供得好,提供更低成本、更低門檻的能力是決定整個(gè)競爭的關(guān)鍵,也是商湯大裝置想去做的。
在AI基礎(chǔ)設(shè)施的擴(kuò)建中,有效算力的提升是個(gè)挑戰(zhàn)。有時(shí)候并行500P算力的GPU,實(shí)際上有效算力可能只有200P或者300P,GPU的利用效率并不高。因此,如何實(shí)現(xiàn)高性能計(jì)算優(yōu)化,以及異構(gòu)網(wǎng)絡(luò)的調(diào)試是核心關(guān)鍵。
當(dāng)前,商湯科技大模型并行訓(xùn)練服務(wù)支持單集群3200卡5000億稠密參數(shù)模型訓(xùn)練,在千卡集群上達(dá)到了90%的利用率,遠(yuǎn)遠(yuǎn)領(lǐng)先行業(yè)平均水準(zhǔn)。
商湯大裝置SenseCore已經(jīng)完成2.7萬塊GPU的部署并實(shí)現(xiàn)了5.0exaFLOPS的算力輸出能力。目前,商湯大裝置SenseCore可最多支持20個(gè)千億參數(shù)量大模型(以千卡并行)同時(shí)訓(xùn)練,最高可支持萬億參數(shù)超大模型的訓(xùn)練。
更為關(guān)鍵的是,商湯大裝置SenseCore有三大差異性優(yōu)勢。
首先,商湯科技是AI原生,熟悉各個(gè)環(huán)節(jié)。從芯片、服務(wù)器、基礎(chǔ)軟件、工具軟件、算法生產(chǎn)到應(yīng)用,商湯科技都有布局和成就,沉淀了大量的專家認(rèn)知和工具,對(duì)每個(gè)環(huán)節(jié)的困難、挑戰(zhàn)都有足夠的經(jīng)驗(yàn)。因此,在硬件服務(wù)器的配置,訓(xùn)練類型的配置,推理類型的配置,訓(xùn)練和推理之間的關(guān)系分析,以及集群內(nèi)部的網(wǎng)絡(luò)調(diào)度等領(lǐng)域,都可以更好地為用戶提供關(guān)鍵性建議。
其次,商湯有成熟的端到端應(yīng)用解決方案。商湯科技很早就針對(duì)“一平臺(tái)四支柱”(AI大裝置+智能汽車、智慧生活、智慧商業(yè)、智慧城市)進(jìn)行前瞻性戰(zhàn)略布局,并擁有豐富的AI產(chǎn)業(yè)應(yīng)用經(jīng)驗(yàn),更了解不同行業(yè)對(duì)于AI的需求,從而可以更好地提供端到端綜合服務(wù)。
比如,商湯科技已經(jīng)構(gòu)建的業(yè)界首個(gè)感知決策一體化的端到端自動(dòng)駕駛解決方案UniAD,在多項(xiàng)關(guān)鍵數(shù)據(jù)集與指標(biāo)上超越了SOTA方法。使得車道線的預(yù)測準(zhǔn)確率提升了30%,預(yù)測運(yùn)動(dòng)位移的誤差降低了近40%,規(guī)劃誤差降低了近30%。
△商湯大模型賦能絕影“駕艙云”三位一體
馬化騰表示,要把底層的算法、算力和數(shù)據(jù)扎扎實(shí)實(shí)做好十分關(guān)鍵,更關(guān)鍵的是場景落地。對(duì)于用戶來說,可選擇性或許很多,真正要做產(chǎn)業(yè)落地的時(shí)候,AI是要拿端到端價(jià)值說話的。
在開源生態(tài)的建設(shè)上,商湯也有獨(dú)特的優(yōu)勢。在人工智能時(shí)代,最重要的不是框架,真正的核心價(jià)值全都沉淀在算法和模型里?;谏虦L期的開源生態(tài)積累,商湯大裝置的算法模型層,提供OpenMMLab、OpenGVLab、OpenDILab三套開箱即用的開源算法體系。其中人工智能算法開源體系OpenMMLab在GitHub上已獲得超7.5萬多個(gè)星標(biāo),用戶遍及超過110個(gè)國家和地區(qū),是深度學(xué)習(xí)時(shí)代極受歡迎的計(jì)算機(jī)視覺開源算法平臺(tái)之一。
商湯科技還被授予“新片區(qū)智算產(chǎn)業(yè)鏈鏈主”企業(yè),將基于商湯人工智能計(jì)算中心(AIDC)積極參與臨港智算產(chǎn)業(yè)鏈的協(xié)同融合和集聚發(fā)展。
03
大裝置+大模型
“引爆”大規(guī)模場景應(yīng)用
通用大語言模型成熟之前,我們和算法的交流需要通過一些標(biāo)準(zhǔn)句式,體驗(yàn)感并不好。現(xiàn)如今,伴隨著通用大語言模型成熟,我們可以采取和正常人溝通的方式和算法溝通,并且得到正確的回應(yīng)。大模型帶來的不光是效率的提升,更讓原來一些體驗(yàn)不夠好形成大規(guī)模應(yīng)用的場景,到今天可以形成大規(guī)模應(yīng)用。
臨港算力大會(huì)上,上海市經(jīng)濟(jì)信息化委副主任湯文侃表示,希望臨港新片區(qū)探索將“網(wǎng)絡(luò)、數(shù)據(jù)、算力、安全”聯(lián)動(dòng)創(chuàng)新的合作模式,利用AI算法將行業(yè)數(shù)據(jù)轉(zhuǎn)化為產(chǎn)業(yè)知識(shí),從而賦能千行百業(yè)。
落地永遠(yuǎn)是對(duì)研發(fā)的最重要檢驗(yàn)標(biāo)準(zhǔn)。作為臨港新片區(qū)智算產(chǎn)業(yè)聯(lián)盟重要成員,商湯科技正在用實(shí)際行動(dòng)回應(yīng)算力在落地中的重要價(jià)值。
截至今年5月,商湯大裝置已累計(jì)服務(wù)超40個(gè)核心客戶,其中大模型客戶10家以上,涵蓋智能駕駛、生物制藥、芯片設(shè)計(jì)、智慧商業(yè)、高校科研等前沿領(lǐng)域,并已在超過20個(gè)落地場景中實(shí)現(xiàn)大模型交付。
例如,2023年5月,商湯科技在CHIMA2023公布了全新升級(jí)“SenseCare?智慧醫(yī)院”綜合解決方案,在“大模型+大算力”的驅(qū)動(dòng)下,SenseCare?智慧診療平臺(tái)已經(jīng)搭載20余款A(yù)I輔助診斷應(yīng)用。
商湯科技董事長、CEO徐立表示,通用人工智能時(shí)代,模型的能力可以用算力來衡量。商湯大裝置SenseCore已經(jīng)打造通用人工智能時(shí)代的基礎(chǔ)設(shè)施,在模型的迭代速度及處理問題的能力上日日更新。商湯科技十分期待與更多同行者建立縱深合作,共商行業(yè)新模式,共探未來新方向。
毫無疑問,AI產(chǎn)業(yè)即將迎來一個(gè)更加繁榮的大航海時(shí)代。以商湯科技為代表的企業(yè),正在為人工智能提供強(qiáng)大的計(jì)算和存儲(chǔ)能力,讓AI技術(shù)更加低成本、低門檻、高效率地進(jìn)入到各個(gè)場景里面,推動(dòng)未來產(chǎn)業(yè)生態(tài)的百花齊放。