“小愛(ài)同學(xué)”“我在”……每一天,這樣看似簡(jiǎn)單的對(duì)話會(huì)在全球重復(fù)1億次以上。“小愛(ài)同學(xué)”如今已成為許多人智能生活中不可或缺的一部分。
小米集團(tuán)人工智能實(shí)驗(yàn)室語(yǔ)音組部分成員正在開(kāi)會(huì)
在這套強(qiáng)大的智能語(yǔ)音交互系統(tǒng)背后,有一支約90人的隊(duì)伍,不斷為完善語(yǔ)音交互技術(shù)、提升用戶體驗(yàn)努力著。他們就是小米集團(tuán)人工智能實(shí)驗(yàn)室語(yǔ)音組。今年“五一”前夕,他們榮獲了“全國(guó)工人先鋒號(hào)”榮譽(yù)稱號(hào)。
(資料圖)
2017年1月,小米人工智能實(shí)驗(yàn)室語(yǔ)音組成立,當(dāng)時(shí)整個(gè)團(tuán)隊(duì)只有4個(gè)人。4個(gè)月后,語(yǔ)音組就開(kāi)發(fā)出了小米第一個(gè)語(yǔ)音識(shí)別系統(tǒng),并應(yīng)用于小米電視,實(shí)現(xiàn)了可以通過(guò)語(yǔ)音方式搜索、播放電視節(jié)目。
團(tuán)隊(duì)帶頭人、小米集團(tuán)聲學(xué)語(yǔ)音技術(shù)總監(jiān)王育軍把這段經(jīng)歷戲稱為“444歲月”,“4個(gè)人,經(jīng)過(guò)40多次試驗(yàn),歷時(shí)4個(gè)月,不但上線了語(yǔ)音識(shí)別系統(tǒng),還發(fā)表了相關(guān)論文。” 在王育軍看來(lái),首戰(zhàn)告捷的小小成功其實(shí)難度并不大,接下來(lái)的小米音箱語(yǔ)音喚醒功能開(kāi)發(fā),才是第一塊“硬骨頭”。
小米集團(tuán)人工智能實(shí)驗(yàn)室語(yǔ)音組部分成員正在開(kāi)會(huì)
“我們要進(jìn)行語(yǔ)音交互,先得成功叫醒它,這是第一道環(huán)節(jié),所以喚醒的成功率和誤喚醒率都非常重要。”王育軍解釋?zhuān)^成功喚醒,就是當(dāng)用戶呼叫“小愛(ài)同學(xué)”時(shí),系統(tǒng)能準(zhǔn)確地識(shí)別出來(lái)是在進(jìn)行喚醒;而誤喚醒,就是毫不相關(guān)的聲音或是發(fā)音近似的聲音,也會(huì)喚醒音箱,“比如半夜大家都睡覺(jué)呢,鼾聲或是戶外的蛐蛐聲都會(huì)喚醒音箱,那肯定不行,這種對(duì)用戶的打擾是非常嚴(yán)重的。”
回想起這段時(shí)光,小米集團(tuán)聲學(xué)語(yǔ)音算法工程師王永慶形容為“非常難”,“剛開(kāi)始做的時(shí)候是沒(méi)有數(shù)據(jù)的。”簡(jiǎn)單來(lái)說(shuō),要讓系統(tǒng)識(shí)別出哪些聲音是在喚醒,哪些不是,需要一個(gè)龐大的聲音數(shù)據(jù)庫(kù)做基礎(chǔ),包括“小愛(ài)同學(xué)”這四個(gè)字,也需要有不同音色、不同口音、不同環(huán)境音下等多種情形做素材。于是,團(tuán)隊(duì)成員們不但自己錄制聲音素材,還請(qǐng)同事幫忙,那段時(shí)間,大家經(jīng)常能看到王永慶提著飲料、小零食,笑瞇瞇地四處招攬同事,“來(lái)幫我們錄一段啊!”
突破,并不容易。半年后,誤喚醒率依然無(wú)法達(dá)到預(yù)期目標(biāo),團(tuán)隊(duì)成員們開(kāi)始有些動(dòng)搖,但王育軍堅(jiān)信,“技術(shù)的事兒,只要符合常識(shí),沉下心不慌,就一定能做出來(lái)。”于是,一個(gè)45天計(jì)劃誕生了,團(tuán)隊(duì)成員兵分三路,采取三種不同的方法,共同向著一個(gè)目的地前進(jìn),最終,把誤喚醒率控制在了一天一次,進(jìn)而一周四次,且仍在不斷降低。
語(yǔ)音識(shí)別,為“小愛(ài)同學(xué)”裝上了“耳朵”,但要能聽(tīng)會(huì)說(shuō),還要有“嘴巴”。于是,語(yǔ)音組研發(fā)推出了語(yǔ)音生成技術(shù),可以將文本轉(zhuǎn)化成語(yǔ)音,甚至還能自動(dòng)譜曲、編曲、合成歌曲等等。其中,超級(jí)擬人語(yǔ)音合成技術(shù)最大限度模擬真人說(shuō)話方式,不只是語(yǔ)氣,甚至連人類(lèi)說(shuō)話時(shí)的猶豫、停頓、變速、嘆息等習(xí)慣也能復(fù)刻,使語(yǔ)音合成效果更加自然流暢。
為用戶帶來(lái)智能生活新體驗(yàn)的同時(shí),小米始終關(guān)注智能設(shè)備無(wú)障礙建設(shè)。“聲音天然應(yīng)該服務(wù)于無(wú)障礙。”在王育軍看來(lái),無(wú)論是視障人群、聽(tīng)障人群、語(yǔ)言障礙人群還是肢端殘障人群,都可以通過(guò)人機(jī)交互的不同模態(tài)、利用聲音去彌補(bǔ)缺失的能力。
于是,語(yǔ)音組為聽(tīng)障人群開(kāi)發(fā)了“聞聲技術(shù)”,讓聽(tīng)障人群可以通過(guò)手機(jī)、平板電腦等智能設(shè)備“看到”其他人說(shuō)話,也可以幫他們“看見(jiàn)”周?chē)h(huán)境中的聲音,例如警報(bào)聲,敲門(mén)聲等;“讀屏技術(shù)”讓視障人群“聽(tīng)到”屏幕上的內(nèi)容;語(yǔ)音合成技術(shù),為失去語(yǔ)言能力的用戶發(fā)出聲音;“聆聽(tīng)”技術(shù)為構(gòu)音困難用戶提供了個(gè)性化的語(yǔ)音識(shí)別,讓他們也可以通過(guò)語(yǔ)音和設(shè)備交互,這項(xiàng)技術(shù)還被提名為2021年世界互聯(lián)網(wǎng)領(lǐng)先科技成果。
到去年年底,小米人工智能實(shí)驗(yàn)室聲學(xué)語(yǔ)音組已將自研聲學(xué)語(yǔ)音技術(shù)全面應(yīng)用于小米手機(jī)、音箱、電視、耳機(jī)、手表、機(jī)器人等79個(gè)品類(lèi),共計(jì)5312款智能產(chǎn)品中。“小愛(ài)同學(xué)”月活躍用戶數(shù)量為1.15億,已成為是世界上最忙的語(yǔ)音助手之一。
“科技發(fā)展的根本目的是作用于人的生活,我們希望通過(guò)自己的努力,讓語(yǔ)音科技更有溫度,讓越來(lái)越多的用戶享受到更好的體驗(yàn)感。”王育軍說(shuō)。
攝影 彭程
來(lái)源:北京日?qǐng)?bào)客戶端 記者:王天淇
流程編輯:u060
版權(quán)說(shuō)明:任何媒體、網(wǎng)站或個(gè)人未經(jīng)書(shū)面授權(quán)許可不得轉(zhuǎn)載、摘編或利用其它方式使用本網(wǎng)站上的文字、圖片、圖表、漫畫(huà)、視頻等內(nèi)容。
未經(jīng)許可即使用,或以此盈利的,均系侵害本網(wǎng)站著作權(quán)及相關(guān)權(quán)益的行為,本網(wǎng)站將追究法律責(zé)任。
如遇作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)文章刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系。
聯(lián)系方式:takefoto@vip.sina.com
責(zé)任編輯:Rex_23