美國人工智能公司OpenAI發(fā)布的ChatGPT以其高效信息獲取、海量數(shù)據(jù)調(diào)用、超強優(yōu)化學(xué)習(xí)能力火速出圈。ChatGPT不僅是人工智能技術(shù)的應(yīng)用端普及,更是憑借完善的邏輯歸納能力、有監(jiān)督的持續(xù)改進調(diào)優(yōu)以及連續(xù)對話的交互體驗開啟了通用人工智能(AGI)的一扇窗,不僅僅在內(nèi)容生產(chǎn)、便捷交互和簡化工作等消費端的應(yīng)用快速普及,并向工業(yè)設(shè)計、藥物研發(fā)、材料科學(xué)等領(lǐng)域快速擴散。
而隨著集度、吉利、紅旗等汽車企業(yè)紛紛宣布支持汽車機器人自然交流,以人工智能為技術(shù)驅(qū)動的自動駕駛,將成為新能源汽車發(fā)展的重要方向。本文就近期ChatGPT此類預(yù)訓(xùn)練大模型人工智能技術(shù)的突破,將對自動駕駛領(lǐng)域帶來哪些變革進行探討。
ChatGPT能夠給自動駕駛帶來語音交互提升,成為提升智能座艙語音交互質(zhì)量的重要工具
ChatGPT是以其令人驚艷的“對話聊天”能力出圈的,對比市面上現(xiàn)有的機械式的車載智能語音交互模式,ChatGPT依托海量參數(shù)的預(yù)訓(xùn)練大模型實現(xiàn)了降維打擊。當前車載智能語音交互主要有識別、理解和執(zhí)行三大重點,而在目前提供的解決方案中,語音識別部分已經(jīng)能夠達到90%以上,堵點難點主要聚焦于“理解”部分。
由于機器不具備語義理解能力,用戶只能通過觸摸屏與部分語音相結(jié)合的方式,按照指定命令與汽車進行交互,功能的復(fù)雜性和關(guān)鍵詞的多少成正相關(guān),整個系統(tǒng)機械化運行、功能單一。據(jù)相關(guān)機構(gòu)調(diào)研,2022年1-8月,語音交互功能在智能座艙的滲透率達到73.3%,但用戶對智能語音交互感興趣程度僅為42.9%。
所以,ChatGPT作為自然語言處理技術(shù)功能強大,ChatGPT能夠在溝通中結(jié)合用戶提出的問題不斷做出精準的、連續(xù)的回應(yīng),一方面通過對模型在車內(nèi)對話場景的專項定制,可以在車載運行環(huán)境中取得優(yōu)異的識別效果;另一方面模型的學(xué)習(xí)能力和上下文結(jié)合能力,可以讓ChatGPT實現(xiàn)連續(xù)對話交互。這種語義理解能力應(yīng)用在車機交互上,最直觀的變革就是語音交互更加直接,更符合人類思考的習(xí)慣,會更加接近于人與人之間的交流,交互效率直線提升,大幅提升用戶體驗。
生成式AI為自動駕駛模型訓(xùn)練提供高質(zhì)量合成數(shù)據(jù),破解自動駕駛數(shù)據(jù)和測試難題
ChatGPT屬于生成式AI在自然語言對話場景中的應(yīng)用,而AIGC(人工智能生產(chǎn)內(nèi)容)能夠靈活運用于寫作、繪圖、語音、視頻等不同維度的創(chuàng)作領(lǐng)域,結(jié)合自動駕駛模型訓(xùn)練的數(shù)據(jù)需求,AIGC能夠生成任何人類想象到的駕駛場景。
自動駕駛需要通過真實世界的數(shù)據(jù)來訓(xùn)練、測試和驗證模型算法的安全性和準確性,其過程需要大量數(shù)據(jù)支持和復(fù)雜的駕駛環(huán)境,甚至涵蓋許多極端環(huán)境的“邊緣案例”,某種意義上說需要數(shù)百年的真實駕駛才能收集構(gòu)建真正安全的自動駕駛汽車所需的所有數(shù)據(jù),并且真實世界的圖像數(shù)據(jù)必須先手動標記,然后才能用于訓(xùn)練AI模型。谷歌(Waymo)已經(jīng)投入了數(shù)十億美元,并花費了十多年的時間來收集數(shù)百萬英里的真實駕駛數(shù)據(jù),并將其作為其自動駕駛技術(shù)堆棧的護城河。
相較而言,合成數(shù)據(jù)無論從成本還是場景方面都有著無可比擬的優(yōu)勢,因此第一批出現(xiàn)的合成數(shù)據(jù)初創(chuàng)公司也主要瞄準了自動駕駛汽車終端市場,幫助自動駕駛企業(yè)解決其在自動駕駛系統(tǒng)開發(fā)過程中所面臨的數(shù)據(jù)和測試難題。
隨著AIGC技術(shù)持續(xù)創(chuàng)新發(fā)展,基于AIGC算法模型創(chuàng)建、生成合成數(shù)據(jù)迎來重大進展,有望解決自動駕駛發(fā)展應(yīng)用過程中的數(shù)據(jù)限制。一是通過合成數(shù)據(jù)來改善基準測試數(shù)據(jù)的質(zhì)量來實現(xiàn)數(shù)據(jù)增強和數(shù)據(jù)模擬,解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問題;二是利用合成數(shù)據(jù)訓(xùn)練AI模型可以有效避免用戶隱私問題;三是合成數(shù)據(jù)可以自動創(chuàng)建、生成現(xiàn)實世界中難以或者無法采集的數(shù)據(jù)場景,能有效應(yīng)對長尾、邊緣案例,提高模型算法的準確性、可靠性;四是合成數(shù)據(jù)技術(shù)可以實現(xiàn)更廉價、高效地批量生產(chǎn)自動駕駛模型訓(xùn)練開發(fā)所需的海量數(shù)據(jù),畢竟人工標注一張圖片可能需要6美元,但人工合成的話只需要6美分。
大模型技術(shù)路線啟發(fā)自動駕駛底層算法躍遷升級
ChatGPT作為一個語言模型主要用于生成自然語言文本,如對話、文章等,而自動駕駛算法需要處理的是感知、決策和控制等方面的問題,看似二者并沒有太大的關(guān)聯(lián),但是從技術(shù)邏輯上,ChatGPT能夠給自動駕駛算法技術(shù)路線發(fā)展帶來兩大啟發(fā)。
第一點,是大模型的突現(xiàn)能力,即參數(shù)規(guī)模超過一個閾值后,模型的“思維鏈”能力突然就涌現(xiàn)出來,這就是所謂大模型的“突現(xiàn)能力,通俗講就是量變引起質(zhì)變,大模型就意味著大參數(shù)、大數(shù)據(jù),當然伴隨的也是大成本和大投入。ChatGPT的破圈給人工智能業(yè)界帶來的突破性認知和范式轉(zhuǎn)變是突現(xiàn)能力只存在于大型模型中,而不是小型模型。各種測試表明,只有模型達到175B的規(guī)模才有可能形成“突現(xiàn)能力”,模型能夠展示類似人類的復(fù)雜推理和知識推理能力——思維鏈,基于“思維鏈”的推理能力能夠在提問時附加給出提示,模型就能自動學(xué)習(xí)并做出相應(yīng)推理得到正確結(jié)果。這對于自動駕駛“躍進式”和“漸進式”兩大路線的選擇無疑會產(chǎn)生深遠影響。
第二點,是人類反饋的強化學(xué)習(xí)(RLHF),簡單理解就是應(yīng)用人類處理問題的方式去訓(xùn)練算法。從2020版本的GPT-3到2022版本的ChatGPT,在控制參數(shù)量和訓(xùn)練數(shù)據(jù)不變的情況下對比監(jiān)督學(xué)習(xí)指令微調(diào)和RLHF,能夠發(fā)現(xiàn)在RLHF的參與下,模型的回答更加詳實、公正,并且能夠拒絕不當和知識范圍以外的問題。將這類模式映射到自動駕駛的算法模型中就是應(yīng)用人類司機正確的駕駛數(shù)據(jù)來訓(xùn)練算法,駕駛員針對自動駕駛算法的接管視為決策糾正,同時也是正向反饋的強化學(xué)習(xí)。ChatGPT的成功則證明應(yīng)用RLHF是可以訓(xùn)練出模型來驗證、評價機器模型的輸出,使其不斷進步,最終達到人類的駕駛水平,在自動駕駛業(yè)內(nèi)毫末通過該方式,在掉頭、環(huán)島等公認的困難場景,通過率提升30%以上。
一句話,以ChatGPT為代表的內(nèi)容生成式AI在自動駕駛領(lǐng)域還處于探索階段,目前看在智能座艙語音、自動駕駛模型訓(xùn)練等方面具備應(yīng)用,隨著科技領(lǐng)域、產(chǎn)業(yè)領(lǐng)域、資本領(lǐng)域的持續(xù)介入,預(yù)訓(xùn)練大模型“思維”能力更強,在自動駕駛領(lǐng)域的應(yīng)用將進一步拓寬,我團隊將持續(xù)關(guān)注。
相關(guān)稿件