<thead id="d9xit"></thead>

<b id="d9xit"><optgroup id="d9xit"></optgroup></b>

<tr id="d9xit"><center id="d9xit"></center></tr>

<tr id="d9xit"><td id="d9xit"></td></tr>

如何用聲紋識別提升智能硬件產(chǎn)品的用戶(hù)體驗

2018-09-03 15:50:09分類(lèi)：行業(yè)資訊4808

　　

　　一、背景

　　當前智能硬件產(chǎn)品中，最耀眼的莫過(guò)于百箱大戰的智能音箱、百“機”爭鳴的智能機器人，這些智能語(yǔ)音產(chǎn)品已逐漸走進(jìn)百姓的視線(xiàn)中。

　　在智能音箱市場(chǎng)中，且不說(shuō)國外的Amason Echo和Google Home，僅在國內，去年雙十一，天貓精靈99元跳樓價(jià)賣(mài)了一百萬(wàn)臺，還有鋪天蓋地而來(lái)的小愛(ài)同學(xué)、叮咚音箱、小雅同學(xué)、出門(mén)問(wèn)問(wèn)等。

　　今年，百度推出比天貓精靈還低10元的小度智能音箱，僅賣(mài)89元，燒錢(qián)大戰一個(gè)比一個(gè)狠。在智能機器人市場(chǎng)也同樣打得火熱，這類(lèi)智能音箱和智能機器人最明顯的特點(diǎn)，就是采用了語(yǔ)音作為全新的交互方式，力圖打造更接近于人與人交流的方式。

　　然而，大部分智能語(yǔ)音產(chǎn)品只能識別出說(shuō)話(huà)的內容，對于相同的問(wèn)題都會(huì )給出相同的反饋信息。雖然交互方式是智能的，但交流方式仍然不夠智能。

　　所謂交流，即有明確對象，和不同對象交流應有不同的回應，聞聲即可識人，這才是更智能的體驗。聲紋識別，正是可以實(shí)現這種聞聲識人的技術(shù)手段。

　　本文將談?wù)勗谥悄芤粝?、智能機器人等此類(lèi)以語(yǔ)音為主要交互方式的智能硬件產(chǎn)品中，除了提升語(yǔ)音識別準確率、語(yǔ)義理解效果外，怎樣使用聲紋識別來(lái)進(jìn)一步提升用戶(hù)體驗，讓智能產(chǎn)品更加智能。

　　二、應用場(chǎng)景

　　場(chǎng)景是需求的靈魂，拋開(kāi)場(chǎng)景談需求都是耍流氓!

　　我們先對場(chǎng)景分分類(lèi)，聲紋識別作為身份驗證的一種手段，根據不同的安全性要求，我們將應用場(chǎng)景分非關(guān)鍵應用場(chǎng)景和關(guān)鍵應用場(chǎng)景。

　　非關(guān)鍵應用場(chǎng)景：即那些對安全性要求不高，即使誤識也不會(huì )產(chǎn)生明顯不良影響，但對用戶(hù)體驗要求較高的場(chǎng)合，如：猜猜說(shuō)話(huà)人是誰(shuí)、個(gè)性化的服務(wù)推薦(歌曲推薦、餐廳推薦等);

　　關(guān)鍵應用場(chǎng)景：這類(lèi)應用場(chǎng)景有明顯的安全性要求，不能容忍有誤識情況，誤識會(huì )帶來(lái)明顯的不良影響，如：一些重要的權限控制(家電開(kāi)關(guān)控制等)、聲音購物支付等，這類(lèi)型場(chǎng)景會(huì )犧牲一部分用戶(hù)體檢以保證安全性，畢竟魚(yú)和熊掌不可兼得!

　　三、應用設計

　　聲紋識別在應用上分為注冊和驗證兩個(gè)流程，如下圖所示：

　　在智能音箱和智能機器人(家庭陪伴機器人)的產(chǎn)品中，聲紋識別其實(shí)就是1：N的應用(N的值一般小于10)，音箱和機器人一般都會(huì )有一個(gè)名字，即喚醒詞，就如同人的名字一樣，以下設計我們暫且給智能硬件起個(gè)名字叫“你好同學(xué)”。

　　1.聲紋注冊流程設計

　　聲紋注冊是開(kāi)啟聞聲識人的第一步，注冊者先說(shuō)幾句話(huà)，系統自動(dòng)將其中的聲紋特征提取出來(lái)作為說(shuō)話(huà)人身份的ID，這個(gè)過(guò)程如同像陌生人做自我介紹一樣，介紹完大家就認識你了。

　　雖然聲紋注冊流程必不可少，但產(chǎn)品設計上卻希望這個(gè)流程越簡(jiǎn)單越好，最好是不需要注冊這個(gè)環(huán)節(當然這是不可能的!!!)。

　　在做注冊流程設計前，我們先搞清幾個(gè)問(wèn)題：

　　(1)注冊入口在哪里?

　　目前的智能語(yǔ)音產(chǎn)品在交互方式上，除了用語(yǔ)音，還會(huì )分為帶顯示屏和不帶顯示屏，即有部分帶有視覺(jué)交互。

　　所以，注冊入口可分為三種：

　　直接在設備上使用語(yǔ)音方式作為注冊入口，即直接對設備說(shuō)：你好同學(xué)，我要注冊聲紋;

　　在設備配套的APP上設置注冊入口，適合無(wú)屏的設備;

　　在設備自帶的屏幕上設置注冊入口，類(lèi)似APP方式。

　　(2)在哪里采集注冊錄音?

　　對于注冊入口在A(yíng)PP上的情況，我們需要搞清楚錄音采集是在設備上，還是在手機上。

　　一般來(lái)說(shuō)，無(wú)論注冊入口在哪里，最終的驗證入口都是在設備上，為了避免在不同設備上錄音效果不一樣，造成驗證準確率下降(我們叫這種現象叫信道失配，即注冊信道與驗證信道不一致而帶來(lái)的準確率下降的現象)，我們會(huì )直接在設備上進(jìn)行注冊錄音的采集。

　　當然，你非得在A(yíng)PP上錄音，也是可以的，呵呵!

　　(3)非關(guān)鍵應用和關(guān)鍵應用是否需要單獨注冊?

　　理論上來(lái)說(shuō)，注冊語(yǔ)音越長(cháng)，識別效果越好，但也需要考慮到用戶(hù)體驗。所以，我們可以將注冊流程設計為基礎注冊+加強注冊，其中基礎注冊滿(mǎn)足非關(guān)鍵應用場(chǎng)景，加強注冊主要是考慮到關(guān)鍵應用場(chǎng)景的安全性問(wèn)題。

　　(4)聲紋注冊上還有哪些需考慮的點(diǎn)?

　　智能音箱和機器人一般都是遠場(chǎng)語(yǔ)音應用，交互距離最大可達5米，同時(shí)也覆蓋了近場(chǎng)語(yǔ)音，所以在說(shuō)話(huà)人離設備的距離不同時(shí)，采集的語(yǔ)音質(zhì)量也會(huì )存在差異。對語(yǔ)音識別來(lái)說(shuō)可能不會(huì )有太多的影響，但對于聲紋識別來(lái)說(shuō)，會(huì )造成聲紋特征的損失。所以在注冊時(shí)還需要考慮不同距離，比如：0.5米、3米、5米等。

　　另外，還需要考慮說(shuō)話(huà)的音量、語(yǔ)速等因素，相信隨著(zhù)識別算法的提升，這些因素都將不會(huì )成為產(chǎn)品設計的考慮點(diǎn)。

　　(5)聲紋注冊有哪些表現形式?

　　在注冊的表現形式上，可分為兩種：

　　引導式注冊：根據界面或語(yǔ)音提示，引導用戶(hù)一步一步進(jìn)行注冊，這是最為常用的方式，也是目前最合適的方式。

　　無(wú)感知注冊：即不需要指定用戶(hù)執行注冊流程即可完成聲紋注冊，打破常規的聲紋注冊-聲紋驗證的應用流程，在使用過(guò)程中自動(dòng)完成聲紋注冊，直接實(shí)現“聽(tīng)聲辨人”，最大限度提升用戶(hù)體驗。我們下次再來(lái)詳細講一下這種無(wú)感知注冊。

　　2.聲紋注冊流程

　　3.原型設計參考

　　以帶屏設備上或APP上注冊為例，原型僅供參考，在真實(shí)項目中仍需要考慮更多的交互細節。對于注冊?xún)热?，一般建議使用“喚醒詞+常用短語(yǔ)”的方式。當然，如果追求更簡(jiǎn)潔的注冊方式，也可以只讀兩次喚醒詞。

　　4.聲紋驗證流程設計

　　在聲紋驗證環(huán)節，一般通過(guò)純語(yǔ)音交互來(lái)完成，我們按非關(guān)鍵應用場(chǎng)景和關(guān)鍵應用場(chǎng)景來(lái)設計。

　　(1)非關(guān)鍵應用場(chǎng)景驗證

　　最常用的自我身份驗證：對設備說(shuō)出“你好同學(xué)，猜猜我是誰(shuí)”或“你好同學(xué)，我是誰(shuí)”，設備根據聲紋識別結果回應說(shuō)話(huà)人，比如：設備回應：哎喲，你就那玉樹(shù)臨風(fēng)、風(fēng)流倜儻、迷死萬(wàn)千少女兼大媽的彭魚(yú)宴。

　　非關(guān)鍵應用場(chǎng)景有非常多的玩法，主要圍繞不同身份的個(gè)性化推薦來(lái)設計，具體大家可以根據實(shí)際產(chǎn)品及場(chǎng)景需求來(lái)思考。

　　另外，對于帶屏的設備，一般都會(huì )具備攝像頭，可以實(shí)現人臉識別功能。有些廠(chǎng)家可能會(huì )將人臉和聲紋結合起來(lái)做身份驗證，這種多維度驗證確實(shí)能提高安全性，但建議只在關(guān)鍵應用場(chǎng)景下使用兩者作為驗證手段，在非關(guān)鍵應用場(chǎng)景中只使用聲紋識別。畢竟如果每次問(wèn)機器人我是誰(shuí)時(shí)，還要自己找到攝像頭正面看一會(huì )才能識別出身份，這樣的體驗非常不好。

　　(2)關(guān)鍵應用場(chǎng)景驗證

　　此場(chǎng)景中，需要考慮二次身份核驗，即在喚醒時(shí)已做一次身份識別，在說(shuō)話(huà)人做出關(guān)鍵操作確定后，比如：確定購買(mǎi)商品，需要進(jìn)行身份核驗。

　　由于是純語(yǔ)音交互，考慮到安全性，可采用讀4位隨機數字或喚醒詞的方式來(lái)驗證，此種情況下聲紋識別必須具備活體檢測功能，以防止通過(guò)錄音的方式來(lái)假冒說(shuō)話(huà)人聲音。

　　(3)驗證流程設計(實(shí)際流程遠比這個(gè)復雜)

　　四、未來(lái)應用

　　雖然目前的智能硬件仍在不斷完美語(yǔ)音識別和語(yǔ)義理解的效果，然而，我們相信增加聲紋識別必定會(huì )大大提升智能設備的使用體驗，同時(shí)亦可增加情緒識別、性別識別、年齡識別，讓機器更懂你。

　　正如電影“her”中的薩曼莎，語(yǔ)音交互水平已達到了強人工智能水平，比與人類(lèi)交互效果更好。因為her可以在一秒內檢索完主人所提問(wèn)題關(guān)聯(lián)到相關(guān)知識信息，以更好給出回答，這是人類(lèi)所不能達到的。要達到人類(lèi)期望值中的語(yǔ)音交互效果，就必須讓設備能夠：聽(tīng)得清、聽(tīng)得懂、學(xué)得會(huì )、說(shuō)得出。

　　小結分享

　　賽億方案十三年電子產(chǎn)品硬件及嵌入式軟件開(kāi)發(fā)設計經(jīng)驗，累計開(kāi)發(fā)產(chǎn)品電子應用設計完成5000多個(gè)方案設計;目前為客戶(hù)提供理念超前的手機app開(kāi)發(fā)、智能家居系統、電子技術(shù)、電子線(xiàn)路設計、PCB設計、電路板設計、單片機技術(shù)、智能控制、嵌入式系統等。如有產(chǎn)品方案開(kāi)發(fā)意向，期待您的來(lái)訪(fǎng)。

上一篇：共享體脂秤怎樣讓每個(gè)參與者都盆滿(mǎn)缽盈下一篇：內容精品化是早教智能硬件行業(yè)未來(lái)的持續發(fā)展方向

深圳市寶安區西鄉街道寶田一路臣田工業(yè)園34棟奧芯創(chuàng )新研究院 Copyright ? 2005-2022 深圳市賽億科技開(kāi)發(fā)有限公司粵ICP備11056207號合作聯(lián)系：[email protected]

<li id="yy0e0"></li>