轎車自動行駛在高速公路上,路上的電路為車子引導(dǎo)方向,一家人圍坐在車內(nèi)玩著多米諾骨牌……一張上個世紀(jì)的老舊插畫描繪出人們對未來出行的憧憬:沒有堵車,沒有疲勞駕駛,能夠安心享受旅程。
這是有關(guān)智能駕駛的早期寫照。百年來,經(jīng)過自動駕駛產(chǎn)業(yè)不斷的推進(jìn)與技術(shù)競速,汽車從馬力到算力,插畫里的出行畫面正在逐步被投射在現(xiàn)實生活中,成為當(dāng)下高熱度的發(fā)展趨勢之一。
這一變遷背后,技術(shù)突破與服務(wù)升級,正在迭代更多智能駕駛場景。近年,由智能座艙、自動駕駛及車路協(xié)同三大核心構(gòu)成的智能駕駛產(chǎn)業(yè)鏈,涵蓋了包括芯片、傳感器、大數(shù)據(jù)、算法、高精度地圖以及智慧交通等一系列軟硬件技術(shù),迎來引來傳統(tǒng)主機(jī)廠、造車新勢力、Tier1、半導(dǎo)體制造商、及海內(nèi)外科技龍頭公司如谷歌、阿里、百度等的參與。
尤其是在諸多科技公司的投入下,智能駕駛在越來越肥沃的技術(shù)土壤里變革成長,拋開硬核難懂的技術(shù)名詞不說,就大家當(dāng)下比較關(guān)心的如何用智慧語音改善使用導(dǎo)航應(yīng)用的體驗,如何提升汽車自動駕駛的安全和智行能力等比較實際的場景落地問題,科技公司是如何用技術(shù)寫下注腳的?
#01
語音助手越來越像真人
大家日常行駛總會用到手機(jī)導(dǎo)航,享受一定便利的同時也會遇到一些麻煩,比如由于手機(jī)里軟件語音播報導(dǎo)航信息時,總是識別不出用戶說的話。前段時間,筆者自駕去郊區(qū)也遇到了這樣的問題,臨時修改導(dǎo)航終點,安全起見只能把車聽到路邊再操作。
行業(yè)專家對此也給出了一些專業(yè)解釋。百度語音首席架構(gòu)師賈磊表示,在世界范圍內(nèi),很長時間都沒有一個方案能普適的支持在手機(jī)上實現(xiàn)全雙工的語音交互,即在手機(jī)播放導(dǎo)航提示的同時,能夠聽清用戶的指令,就像真人對話一樣,可以被隨時打斷,對新的語音指令給予反饋。因此,想要實現(xiàn)全雙工語音交互,必須先做回聲消除,避免手機(jī)終端識別自己播放的聲音。
不過,這一解決方案在前裝軟件的音箱、車載系統(tǒng)上比較容易實現(xiàn),可以通過硬件適配算法,提前保證回聲消除的效果。而手機(jī)App屬于純軟件后裝方案,需要讓軟件算法適配不同型號的終端硬件。而手機(jī)終端款式多,硬件參差不齊等因素疊加在一起,會導(dǎo)致聲音信號的回聲消除出現(xiàn)各種各樣的問題。再加上手機(jī)硬件的迭代更新非常速,回聲消除效果就更加難以保證了。
為解決手機(jī)場景下的回聲消除問題,百度融合傳統(tǒng)信號處理和深度學(xué)習(xí)模型各自的優(yōu)點,基于語音識別目標(biāo),端到端地進(jìn)行回聲消除和信號增強(qiáng),解決了手機(jī)場景下的回聲消除問題:即使手機(jī)音量開到最大,回聲消除量也能達(dá)到40分貝,使得手機(jī)APP的語音識別功能能夠正常工作。
針對手機(jī)便攜性導(dǎo)致語音交互中面臨的音樂、閑聊、環(huán)境噪聲、內(nèi)噪殘余等與交互內(nèi)容無關(guān)的信息干擾問題,降低語音識別難度,百度研發(fā)了基于SMLTA2的多場景統(tǒng)一預(yù)訓(xùn)練模型,一個模型解決噪聲、用戶口音和回聲消除殘余吸收等難題,在各場景下識別率相對提升超過20%,在業(yè)界同類技術(shù)中,準(zhǔn)確率最高。
在全雙工狀態(tài)下,除了能實現(xiàn)免喚醒詞連續(xù)對話之外,還有一個非常關(guān)鍵的技術(shù)突破,稱之為“拒絕反應(yīng)”,即讓導(dǎo)航能夠判斷出哪些話是針對導(dǎo)航的指令、哪些話是用戶在聊天。如果判斷某些話并非對相應(yīng)指令,它便會“拒絕反應(yīng)”,安靜聽、不插嘴。配合語音語義一體化的置信技術(shù),這一套方案可以降低錯誤響應(yīng),并且支持交互過程中的引導(dǎo)和澄清,讓人機(jī)交互更像人與人的交流。
百度在手機(jī)端實現(xiàn)全雙工語音交互后,下一步將用到更多產(chǎn)品,同時,語音產(chǎn)品產(chǎn)生的新數(shù)據(jù)也將促進(jìn)更多的創(chuàng)新,“人工智能獲得了眼睛、耳朵和無數(shù)其他感官,從而可以收集從來沒有過的新數(shù)據(jù),隨后使用這些數(shù)據(jù)推動更復(fù)雜的流程自動化”。正如百度創(chuàng)始人、董事長兼CEO李彥宏在《人民日報》發(fā)表的《推動新一代人工智能健康發(fā)展》文章中所說,人工智能正深刻改變著人們的生產(chǎn)方式、生活方式、學(xué)習(xí)方式,推動人類社會迎來人機(jī)協(xié)同、跨界融合、共創(chuàng)分享的智能時代。
#02
讓自動駕駛比人類駕駛更安全
提到一款車的智能程度,很多人首先想到的便是智能駕駛輔助和智能車聯(lián)系統(tǒng),也就是大家日常聽到的自動駕駛。如今中國自動駕駛產(chǎn)業(yè)不僅在技術(shù)和應(yīng)用上領(lǐng)先,在市場上的接受度也逐漸增高。
據(jù)市場調(diào)研機(jī)構(gòu)J.D. Power發(fā)布的報告顯示,中國消費(fèi)者對自動駕駛技術(shù)信心指數(shù)達(dá)到了50分,遠(yuǎn)高于美國消費(fèi)者的36分,說明中國消費(fèi)者對自動駕駛的接受度更高。隨著智慧的車和聰明的路越來越多,如何讓自動駕駛比人類駕駛更安全是用戶關(guān)注的一大難題。
在自動駕駛領(lǐng)域,傳統(tǒng)的圖像空間感知方法是將汽車上的雷達(dá)、攝像頭等不同傳感器采集來的數(shù)據(jù)分別進(jìn)行分析運(yùn)算,把各項分析結(jié)果融合到統(tǒng)一的空間坐標(biāo)系中,去規(guī)劃車輛的行駛軌跡。這個過程中,每個獨立傳感器收集到的數(shù)據(jù)往往受到特定視角的局限,經(jīng)過各自的分析運(yùn)算后,融合階段會導(dǎo)致誤差疊加,無法拼湊出道路實際情況的準(zhǔn)確全貌,給車輛的決策規(guī)劃帶來困難,繼而會引發(fā)出一系列安全問題。
近些年來,行業(yè)中提出了BEV(Bird‘s Eye View,視覺為中心的俯視圖)自動駕駛感知方案。不同于傳統(tǒng)的方式,BEV自動駕駛感知就好比是一個從高處統(tǒng)觀全局的“上帝視角”,車上多個傳感器采集的數(shù)據(jù),會輸入到一個統(tǒng)一模型進(jìn)行整體分析推理生成鳥瞰圖,能有效地避免誤差疊加;這種方案還能夠做到時序融合,不僅是收集一個時刻的數(shù)據(jù),分析一個時刻的數(shù)據(jù),而是支持把過去一個時間片段中的數(shù)據(jù)都融合進(jìn)模型做環(huán)境感知建模,時序信息的引入讓感知到的結(jié)果更穩(wěn)定,使得車輛對于道路情況的判斷更加準(zhǔn)確、讓自動駕駛更安全。
即便如此,那些身處全球自動駕駛技術(shù)第一梯隊的玩家并沒有止步于BEV自動駕駛感知方案,比如百度在業(yè)內(nèi)提出車路一體的解決方案UniBEV,集成了車端多相機(jī)、多傳感器的在線建圖、動態(tài)障礙物感知,以及路側(cè)視角下的多路口多傳感器融合等任務(wù),是業(yè)內(nèi)首個車路一體的端到端感知解決方案。
基于統(tǒng)一的BEV空間,UniBEV 車路一體大模型更容易實現(xiàn)多模態(tài)、多視角、多時間上的時空特征融合。百度借助大數(shù)據(jù)+大模型+小型化技術(shù)閉環(huán),在車端路側(cè)的動靜態(tài)感知任務(wù)上都取得了領(lǐng)先的成績,在北京高級別自動駕駛示范區(qū),通過對主城區(qū)路口進(jìn)行智能化升級改造,自動駕駛在相關(guān)路口的問題發(fā)生頻率降低80%以上。
作為國內(nèi)自動駕駛的頭部企業(yè),百度一直高度重視并全面布局車路協(xié)同自動駕駛,先后參與多項相關(guān)國家標(biāo)準(zhǔn)制定,率先推出Apollo Air計劃,率先開源了全球首個車路協(xié)同數(shù)據(jù)集DAIR-V2X,并持續(xù)在全球范圍內(nèi)推進(jìn)L4共享無人車規(guī)?;瘻y試運(yùn)營。依托堅實的AI技術(shù)底座,目前,百度自動駕駛技術(shù)泛化能力進(jìn)步速度超預(yù)期,落地新城市技術(shù)交付時間僅需20天。
此前,百度還發(fā)布了Apollo自動駕駛地圖,強(qiáng)調(diào)其具有知識增強(qiáng)、分層多維、為自動駕駛而生的新一代地圖優(yōu)勢。目前,百度高精地圖構(gòu)建自動化率已達(dá)到96%,大幅解決了應(yīng)用成本高的問題。同時,為保障自動駕駛高安全性,Apollo 自動駕駛地圖融合車端感知數(shù)據(jù)與多源地圖,實時生成在線地圖,滿足自動駕駛過程中實時更新的需求,確保自動駕駛安全。此外,為提升自動駕駛舒適性,Apollo自動駕駛地圖基于百度地圖1200萬公里的領(lǐng)先路網(wǎng)覆蓋范圍及海量時空數(shù)據(jù),結(jié)合數(shù)億司機(jī)的駕駛知識沉淀,構(gòu)建全路網(wǎng)級別的駕駛知識圖譜。學(xué)習(xí)人類司機(jī)經(jīng)驗,用駕駛知識圖譜為自動駕駛搭建進(jìn)步的階梯。
此外,備受關(guān)注的芯片,也成為自動駕駛公司擁有自主可控技術(shù)的關(guān)鍵。百度方面透露,百度自研AI芯片昆侖芯2代已完成無人駕駛場景端到端性能適配,將持續(xù)夯實百度Apollo軟硬一體優(yōu)勢。組合拳出擊為中國自動駕駛行業(yè)寫下最好的注腳。
#03
深度學(xué)習(xí)助力提升用戶體驗
上述關(guān)鍵技術(shù)不斷持續(xù)提升的同時,深度學(xué)習(xí)框架技術(shù)也在不斷取得突破。更直白的來講,百度自動駕駛技術(shù)為了“預(yù)知未來”,需要把大量數(shù)據(jù)、以及數(shù)據(jù)之間的關(guān)聯(lián),構(gòu)建為一張“超大的圖”,圖的規(guī)模越大,那么一張圖里能表達(dá)的信息量就會更豐富。機(jī)器通過對圖中各個節(jié)點的分析,找到更復(fù)雜的關(guān)系,就可以實現(xiàn)一定的預(yù)測。例如,交通路網(wǎng)上兩個地點,雖然它們在物理上不相連,但通過相關(guān)性建??梢园褍蓚€具有相似交通規(guī)律的地點關(guān)聯(lián)起來,從而構(gòu)建更具準(zhǔn)確性的預(yù)測。圖的結(jié)構(gòu)信息越豐富,相應(yīng)就能越好地建模交通規(guī)律。
百度架構(gòu)師胡曉光表示,百度地圖很早就上線了通行時間預(yù)估功能,這個功能背后的原理,是把路網(wǎng)中的路口和道路組成一張“交通圖”,基于這張“交通圖”,機(jī)器可以對交通路網(wǎng)的流量進(jìn)行精細(xì)建模,然后就具備了路況的預(yù)測能力。由數(shù)百億節(jié)點和數(shù)百億邊構(gòu)成的龐大圖對算法和算力都提出了巨大的挑戰(zhàn),基于規(guī)則的圖計算方法已經(jīng)無法完全適用,這時圖神經(jīng)網(wǎng)絡(luò)算法就發(fā)揮了關(guān)鍵作用,我們再通過擴(kuò)大圖神經(jīng)網(wǎng)絡(luò)算法的參數(shù)量,對圖的特征進(jìn)行更完整的表達(dá),從而達(dá)到了模型越大效果越優(yōu)的極致表現(xiàn)。
當(dāng)然,數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模的增大,帶來了計算成本更高、訓(xùn)練穩(wěn)定性差、策略迭代周期長等一系列問題和挑戰(zhàn)。由此,基于飛槳平臺完成了圖神經(jīng)網(wǎng)絡(luò)架構(gòu)的全新升級,為業(yè)界帶來了超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)PGLBox。
PGLBox是業(yè)界首個同時支持復(fù)雜算法+超大圖+超大離散模型的大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù),通過顯存、內(nèi)存、SSD三級存儲技術(shù)和訓(xùn)練框架的性能優(yōu)化技術(shù),單機(jī)即可支持百億節(jié)點、數(shù)百億邊的圖采樣和訓(xùn)練,并可通過多機(jī)擴(kuò)展支持更大規(guī)模。PGLBox為百度業(yè)務(wù)創(chuàng)新提供了廣闊的空間,目前已經(jīng)在智能交通、信息推薦、搜索等標(biāo)桿場景實現(xiàn)落地,大幅提升業(yè)務(wù)效率和用戶體驗。
技術(shù)改變生活,百度近年用技術(shù)為數(shù)字社會帶來的變革和發(fā)展先機(jī)不止于這三個方面,但可以肯定的是,隨著AI正在逐步成為新基建的技術(shù)“底座”,助力基建邁入“智造時代”,以深度學(xué)習(xí)平臺加上大模型為牽引的全行業(yè)智能化升級已拉開帷幕,在智慧生活的星辰大海里,智能駕駛,僅僅是一個開始。