[汽車之家 互聯(lián)出行] 在過(guò)去一年的智能車聯(lián)測(cè)試項(xiàng)目中,總有朋友提問(wèn):我們?cè)谖恼轮刑岬降暮芏嗝~,很難從字面理解是什么意思,有時(shí)候會(huì)讓人摸不著頭腦。正好借著這個(gè)各位居家“沉淀”自己的機(jī)會(huì),我們就開啟一個(gè)系列,挨個(gè)為大家注解那些晦澀難懂的專有名詞,講講它們的含義、背景和意義,也備日后相關(guān)文章引用。這第一期,我們就先聊聊語(yǔ)音控制中的那些常見(jiàn)名詞。
STT和TTS
互聯(lián)網(wǎng)常識(shí)告訴我們:當(dāng)兩個(gè)字母/數(shù)字中間夾著一個(gè)“T”或者“2”時(shí),它大概率指代“to”這個(gè)單詞,例如:P2P、B2C、V2X,STT和TTS也是類似。
在部分技術(shù)文獻(xiàn)中,這個(gè)環(huán)節(jié)也被稱為ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別),是融合了語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)以及電氣工程領(lǐng)域知識(shí)和研究的一個(gè)復(fù)雜項(xiàng)目。
我們?cè)谛麄髡Z(yǔ)中經(jīng)常聽到的“語(yǔ)音引擎”,通常就是指這五個(gè)環(huán)節(jié)的集合。在研發(fā)當(dāng)中,盡管部分供應(yīng)商具備完整的解決方案,但往往一輛車的語(yǔ)音控制系統(tǒng)會(huì)在不同環(huán)節(jié)選擇不同的供應(yīng)商,彼此通力合作,才達(dá)到最終的效果。
除了我們上文中解釋過(guò)的詞匯,NLP(Natural Language Processing,自然語(yǔ)言處理)是把用戶的指令轉(zhuǎn)化為結(jié)構(gòu)化的、機(jī)器可理解的語(yǔ)言。
語(yǔ)音控制是一個(gè)復(fù)雜的涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、電器工程等學(xué)科,云端和本地融合的一項(xiàng)復(fù)雜功能,往往需要車企的電器部門和多個(gè)供應(yīng)商同時(shí)合作,以達(dá)到最好的效果。對(duì)服務(wù)商而言,想提供最好的產(chǎn)品,需要在語(yǔ)言分析、指令集上常年累月的積累,想做好,真的不容易。
OneShot連續(xù)說(shuō)和免喚醒
在過(guò)去一年對(duì)車載語(yǔ)音控制的測(cè)試中,有兩個(gè)“高頻詞匯”——OneShot連續(xù)說(shuō)和免喚醒。它們也是除“識(shí)別率”以外,我們最為看中的語(yǔ)音控制功能。
你有想過(guò)為什么一定要喚醒詞嗎?因?yàn)槿嗽谌粘=涣髦泻苋菀子|發(fā)語(yǔ)音控制中的某些功能,喚醒詞就是要規(guī)定一個(gè)時(shí)間段(喚醒之后到結(jié)束對(duì)話),在這個(gè)時(shí)間段內(nèi),語(yǔ)音引擎才對(duì)你說(shuō)的話進(jìn)行處理反饋。在現(xiàn)階段的語(yǔ)音控制技術(shù)下,如果沒(méi)有喚醒詞,你將被車載語(yǔ)音控制騷擾到自閉。
那為什么不能像日常交流一樣,直接叫名字呢?比如:李響,幫我打開空調(diào)。也是因?yàn)閮扇齻(gè)字的名字很容易被誤識(shí)別,導(dǎo)致誤觸發(fā)語(yǔ)音控制。所以喚醒詞通常會(huì)被設(shè)置成“疊詞”、“打招呼+名字”以及“某某同學(xué)”等,以降低誤觸發(fā)的概率。
但這也導(dǎo)致一個(gè)問(wèn)題——人與人的交流模式完全不是這樣!下面這張圖是基本的車載語(yǔ)音控制交流模式,你看是不是特別熟悉。
OneShot是什么意思呢,很簡(jiǎn)單,即喚醒詞可以和指令一起說(shuō),而不是先說(shuō)喚醒詞,等待系統(tǒng)回應(yīng)后,再下達(dá)指令。有了OneShot連續(xù)說(shuō)功能后,是這樣的。
免喚醒詞又是是什么意思呢,顧名思義,連喚醒詞都免了,不需要呼出語(yǔ)音控制功能,直接下達(dá)指令即可,如下:
發(fā)現(xiàn)沒(méi)有,這是一個(gè)越來(lái)越接近人與人交流方式的過(guò)程,同時(shí)也是一個(gè)越來(lái)越缺乏禮貌的過(guò)程,對(duì)的,人的交流方式就是沒(méi)禮貌的。
以上是OneShot和免喚醒的含義和意義。而關(guān)于免喚醒詞,這里還要多說(shuō)兩句,現(xiàn)階段,免喚醒主要分為兩種模式。
或是在音樂(lè)播放界面下,你可以直接說(shuō)“暫!、“下一首”、“增大音量”,而不需要先喚醒語(yǔ)音控制功能。這是目前應(yīng)用最廣泛的免喚醒方案。
在采用科大訊飛語(yǔ)音引擎的部分車型(長(zhǎng)安CS95、奇瑞艾瑞澤GX冠軍版等)上使用的就是這套邏輯。
這里我們也看到,在大部分功能都可以直接下達(dá)指令的情況下,系統(tǒng)還是要限定一個(gè)時(shí)長(zhǎng),如果不限定時(shí)間,誤喚醒問(wèn)題出現(xiàn)的概率仍然是難以接受的。試想一下,你和副駕駛愉悅地聊著今天天氣真不錯(cuò)時(shí),突然,系統(tǒng)開始自說(shuō)自話:“今天北京天氣晴,空氣質(zhì)量……”這樣的情況出現(xiàn)兩次,你可能就會(huì)永久關(guān)閉語(yǔ)音控制功能了。
小結(jié)
車聯(lián)網(wǎng)名詞注解系列的第一期,我們解釋了語(yǔ)音控制系統(tǒng)的幾個(gè)名詞,聊了它們的定義、背景和價(jià)值。人與人的溝通,其實(shí)絕大部分都是通過(guò)“說(shuō)”和“聽”來(lái)實(shí)現(xiàn)的,當(dāng)然,我們還有表情、手勢(shì)等等,相比之下,想要讓機(jī)器理解表情和手勢(shì)的含義就更難了。各大車企、研究機(jī)構(gòu)、語(yǔ)音交互方案提供商口中的類人交互,就是讓機(jī)器學(xué)會(huì)理解語(yǔ)言、看懂手勢(shì)甚至體會(huì)情感,語(yǔ)音控制作為其中一項(xiàng),也才處于起步階段呢。什么時(shí)候把“處理”真地變成“理解”,我們才進(jìn)入了下一個(gè)更加智能的階段。(圖/文 汽車之家 鄭旭)
好評(píng)理由:
差評(píng)理由: