長城汽車CTO吳會肖與影視颶風(fēng)創(chuàng)始人潘天鴻(Tim)進(jìn)行VLA Talk
“絲滑”“很絲滑”“非常絲滑”…這是影視颶風(fēng)創(chuàng)始人潘天鴻(Tim)在體驗(yàn)過全新智能進(jìn)階版輔助駕駛后給出的評價(jià)。
繼廣州車展長城汽車宣布基于VLA輔助駕駛大模型方案的全新一代輔助駕駛系統(tǒng)Coffee Pilot Master(簡稱CP Master)首搭魏牌之后,12月1日,長城汽車VLA Talk正式開播。針對這套全新的輔助駕駛系統(tǒng),長城汽車CTO吳會肖與Tim展開對話,共同向外界展現(xiàn)了一場有案例、有場景、有邏輯的深度解析與體驗(yàn)。
對于搭載VLA大模型的全新藍(lán)山智能進(jìn)階版輔助駕駛系統(tǒng)的體驗(yàn)感受,Tim直言,這簡直就像是老司機(jī)在操作。吳會肖更是指出長城VLA大模型除了給用戶帶來絲滑的體驗(yàn)外,最重要的是要為用戶提供更真實(shí)、更安全的輔助駕駛,而這也正是長城汽車所推出的VLA大模型最顯著的標(biāo)簽特性,以及所承擔(dān)的技術(shù)使命。
長城VLA大模型如何破局“黑盒焦慮”?
今年前7月,中國具備L2級輔助駕駛能力的乘用車滲透率達(dá)到62.6%,較2021年增長40個(gè)百分點(diǎn)。但另一方面,一份調(diào)研數(shù)據(jù)顯示,僅有不足5%的用戶高頻使用輔助駕駛功能,其中“黑盒困境”成為制約用戶主動(dòng)使用該功能的首因。基于此,長城VLA大模型應(yīng)運(yùn)而生。所謂的VLA大模型,是指視覺-語言-動(dòng)作(Vision-Language-Action)的縮寫,是一種融合視覺、語言和動(dòng)作控制的多模態(tài)人工智能技術(shù)框架。吳會肖用“聽得懂指令、看見看不見的危險(xiǎn)、會思考推理”來概括VLA大模型的場景功能。吳會肖明確指出,希望這套VLA大模型是第一,但第一不是和大家的排名,而是安全第一,體驗(yàn)第一。

長城汽車VLA輔助駕駛大模型
在吳會肖看來,家庭用戶是高端新能源市場的核心群體,他們對輔助駕駛系統(tǒng)的安全、穩(wěn)定、可靠要求遠(yuǎn)高于其他群體,而傳統(tǒng)輔助駕駛系統(tǒng)的機(jī)械特性根本無法滿足這種需求。長城汽車研發(fā)VLA大模型的初衷,就是讓AI學(xué)會像老司機(jī)一樣思考,甚至學(xué)會“害怕”,從而提前預(yù)判風(fēng)險(xiǎn),而不是等到風(fēng)險(xiǎn)發(fā)生再被動(dòng)應(yīng)對,長城VLA大模型就是要做輔助駕駛場景的思考者。這也就是Tim所說的“全新藍(lán)山智能進(jìn)階版VLA大模型的防御性駕駛,是中國人講究的未雨綢繆。”

長城VLA大模型能看見“看不見”的危險(xiǎn)
在實(shí)際場景體驗(yàn)中,搭載CP Master輔助駕駛系統(tǒng)的全新藍(lán)山智能進(jìn)階版完美展現(xiàn)出了“聽得懂、看得見、會思考”的特性。對于“聽得懂”,主駕可以語音激活語音助手,支持“幫我起步”“靠邊停車”等語音指令控車,比如當(dāng)你說出“小魏同學(xué),靠邊停車”,車輛便可按照語音指令,在環(huán)境滿足的情況下,實(shí)現(xiàn)對車輛行駛行為的精準(zhǔn)控制。這背后是通過多模態(tài)與大語言模型的深度融合,構(gòu)建更自然、直接的人車交互,用戶可通過語音控車功能完成車輛控制。“看得見”則是指車輛具備“防御性駕駛”,全新藍(lán)山智能進(jìn)階版能感知可見物體,更能理解“遮擋=潛在危險(xiǎn)”,比如當(dāng)檢測到路邊有球時(shí),車輛會預(yù)判可能會有兒童突然沖出,提醒駕駛者要提前做好制動(dòng)準(zhǔn)備。這是VLA大模型依托空間語義理解能力,能夠通過當(dāng)前的道路情況,推理未來可能會發(fā)生的情況,將安全防線從“被動(dòng)應(yīng)對”前移至“主動(dòng)避險(xiǎn)”。