揭秘百度聲紋解鎖技術(shù) 讓君子動口不動手
2012年12月,搭載百度云智能操作系統(tǒng)的聯(lián)想A586手機(jī)上市,其也是全球首款具有聲紋解鎖功能的智能手機(jī)。《大話西游》中的“芝麻開門”成為現(xiàn)實(shí)——手機(jī)能夠智能辨識主人的聲音進(jìn)行解鎖,一根手指頭都不用動。如此炫酷的語音智能控制功能,技術(shù)上是如何實(shí)現(xiàn)的?百度工程師將為我們揭秘。
聲紋,每個(gè)人的聲音身份證
什么是“聲紋”(Voiceprint)?借用“指紋”去理解也許容易些,反正是每個(gè)人獨(dú)一無二的。
我們都有這樣的直觀感受,每個(gè)人說話,語聲都不一樣。因?yàn)槿说陌l(fā)聲器官,包括聲帶、軟顎、舌頭、牙齒、唇等,存在著大小、形態(tài)及功能上的差異。這些差異會導(dǎo)致發(fā)聲氣流的改變,造成音質(zhì)、音色的差別。此外,人發(fā)聲的習(xí)慣亦有快有慢,用力有大有小,也造成音強(qiáng)、音長的差別。音高、音強(qiáng)、音長、音色在語言學(xué)中被稱為語音“四要素”,這些因素又可分解成九十余種特征。這些特征表現(xiàn)了不同聲音的不同波長、頻率、強(qiáng)度、節(jié)奏。而語圖儀可以把聲波的變化轉(zhuǎn)換成電訊號的強(qiáng)度、波長、頻率、節(jié)奏變化,儀器又把這些電訊號的變化繪制成波譜圖形,就成了聲紋圖。
總體而言,聲紋是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜?,F(xiàn)代科學(xué)研究表明,聲紋不僅具有特定性,而且有相對穩(wěn)定性的特點(diǎn)。成年以后,人的聲音可保持長期相對穩(wěn)定不變。實(shí)驗(yàn)證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終相同。通俗來說,聲紋就是人的聲音的身份證。
百度聲紋解鎖技術(shù)原理:建立聲紋VS聲紋識別
實(shí)際上,百度聲紋解鎖的原理也牽涉到兩個(gè)階段的應(yīng)用。第一是聲紋注冊,也就是通過用戶的互動,建立一個(gè)語音的身份證;其二,就是聲紋識別,通過既有的聲紋模型與當(dāng)前的用戶語音對比,看看是不是手機(jī)真正的主人。
在聲紋注冊階段,用戶需要對著手機(jī)念一段文字或者數(shù)字,當(dāng)然,為了排除用戶情緒的失控(比如第一次玩聲紋解鎖的哥們、妹妹們),具備百度聲紋解鎖功能的手機(jī)會要求用戶重復(fù)輸入同樣的語音三次,這有點(diǎn)類似于我們設(shè)定密碼中的兩次輸入。
在聲紋識別階段,用戶只需要輸入注冊時(shí)使用的語音,通過手機(jī)系統(tǒng)的驗(yàn)證,就能超酷炫的語音解鎖登錄了。這時(shí),語音解鎖是怎么工作的呢?它對當(dāng)前用戶的語音(姑且稱之為這個(gè)家伙)進(jìn)行處理,并對數(shù)據(jù)庫中的模型(主人)進(jìn)行匹配。結(jié)果其實(shí)就是兩種:一,如果“這個(gè)家伙”=“主人”,放行;二,如果“這個(gè)家伙”≠“主人”,就給出提示要求他注冊。
百度聲紋解鎖的絕招:噪音處置算法
大家一定想著,哇,超帥!開機(jī)不用手,動動嘴皮就行了。
不過,很多人就想到了,在這個(gè)人口爆棚的時(shí)代,充滿噪聲的環(huán)境無可避免,聲紋解鎖還能工作嗎?
實(shí)際上,這正是百度聲紋解鎖技術(shù)的絕活所在——百度采用了先進(jìn)的語音端點(diǎn)檢測算法和信噪比估計(jì)算法,能夠精確地判斷用戶輸入的語音信息是否有效。
大家知道,即便在嘈雜的環(huán)境中,我們?nèi)祟愡€是有一種超能力的——可以將噪音當(dāng)做耳邊風(fēng),將注意力集中在對方說話的聲音上(尤其是面對辣妹或帥哥時(shí))。但是手機(jī)相對偉大的人類來說,這種能力絕不是與生俱來的。當(dāng)手機(jī)用戶說話時(shí),不管是人聲還是背景噪音,手機(jī)沒有辦法挑肥揀瘦,只能照單全收。
所以百度的工程師在研發(fā)手機(jī)的聲紋解鎖功能時(shí),給它賦予了兩個(gè)超級的語音處理能力。第一個(gè)是使用語音端點(diǎn)檢測算法,來探測到用戶輸入語音的起始和終止位置,也就是說,哪怕外面吵翻天,但用戶可能一個(gè)字都沒有說。這種算法可以精確探測到用戶說話到底說了哪一段,因此分析起語音可以有的放矢。第二個(gè)是使用信噪比估計(jì)算法,來檢測用戶輸入語音的質(zhì)量是否滿足需求。如果背景噪聲太強(qiáng),就會提示用戶重新輸入。比如您在汪峰的演唱會現(xiàn)場給手機(jī)下指令,這就有點(diǎn)太過了,“這么吵也叫手機(jī)我識別?你當(dāng)我是你啊?”。
通過上述兩種超級語音處理能力,百度聲紋解碼功能就能保障自己處于一個(gè)“能干活”的基礎(chǔ)上了。
百度聲紋解鎖技術(shù)的未來:問答式登錄
針對于眾多手機(jī)玩家的酷炫需求,百度的工程師也在為百度聲紋解鎖技術(shù)研發(fā)新的特性。比如在未來,有可能實(shí)現(xiàn)問答式登錄。
目前利用聲紋解鎖時(shí),需要用戶輸入注冊時(shí)使用的特定內(nèi)容,這就是固定的口令.
但在未來,百度聲紋解鎖技術(shù)將允許用戶有新的玩法。比如登錄時(shí)系統(tǒng)會隨機(jī)給出問題讓用戶回答,用戶回答問題后就會對用戶的聲音進(jìn)行識別。如果用戶以前對系統(tǒng)輸入過語音,就算不是剛才回答的內(nèi)容,系統(tǒng)也能分辨出來。
想象一下未來的手機(jī)生活:
主人:手機(jī),乖,給我解鎖。
具備百度聲紋解鎖功能的手機(jī)(以下簡稱手機(jī)):主人,你媽貴姓?
主人:姓王啊,不是跟你說過了嗎?煩不煩啊!
手機(jī):什么態(tài)度啊?再出一道題,52乘以10等于多少?
主人:……
手機(jī):520,答對了,聲學(xué)特征100%匹配,確認(rèn)為主人身份,通過。
百度聲紋解鎖,君子動口不動手,聯(lián)想樂PhoneA586,君子之選。(RFID世界網(wǎng)編輯整理)