“小愛同學”“我在”……每一天,這樣看似簡單的對話會在全球重復1億次以上。“小愛同學”如今已成為許多人智能生活中不可或缺的一部分。
小米集團人工智能實驗室語音組部分成員正在開會
在這套強大的智能語音交互系統背后,有一支約90人的隊伍,不斷為完善語音交互技術、提升用戶體驗努力著。他們就是小米集團人工智能實驗室語音組。今年“五一”前夕,他們榮獲了“全國工人先鋒號”榮譽稱號。
(資料圖)
2017年1月,小米人工智能實驗室語音組成立,當時整個團隊只有4個人。4個月后,語音組就開發出了小米第一個語音識別系統,并應用于小米電視,實現了可以通過語音方式搜索、播放電視節目。
團隊帶頭人、小米集團聲學語音技術總監王育軍把這段經歷戲稱為“444歲月”,“4個人,經過40多次試驗,歷時4個月,不但上線了語音識別系統,還發表了相關論文。” 在王育軍看來,首戰告捷的小小成功其實難度并不大,接下來的小米音箱語音喚醒功能開發,才是第一塊“硬骨頭”。
小米集團人工智能實驗室語音組部分成員正在開會
“我們要進行語音交互,先得成功叫醒它,這是第一道環節,所以喚醒的成功率和誤喚醒率都非常重要。”王育軍解釋,所謂成功喚醒,就是當用戶呼叫“小愛同學”時,系統能準確地識別出來是在進行喚醒;而誤喚醒,就是毫不相關的聲音或是發音近似的聲音,也會喚醒音箱,“比如半夜大家都睡覺呢,鼾聲或是戶外的蛐蛐聲都會喚醒音箱,那肯定不行,這種對用戶的打擾是非常嚴重的。”
回想起這段時光,小米集團聲學語音算法工程師王永慶形容為“非常難”,“剛開始做的時候是沒有數據的。”簡單來說,要讓系統識別出哪些聲音是在喚醒,哪些不是,需要一個龐大的聲音數據庫做基礎,包括“小愛同學”這四個字,也需要有不同音色、不同口音、不同環境音下等多種情形做素材。于是,團隊成員們不但自己錄制聲音素材,還請同事幫忙,那段時間,大家經常能看到王永慶提著飲料、小零食,笑瞇瞇地四處招攬同事,“來幫我們錄一段啊!”
突破,并不容易。半年后,誤喚醒率依然無法達到預期目標,團隊成員們開始有些動搖,但王育軍堅信,“技術的事兒,只要符合常識,沉下心不慌,就一定能做出來。”于是,一個45天計劃誕生了,團隊成員兵分三路,采取三種不同的方法,共同向著一個目的地前進,最終,把誤喚醒率控制在了一天一次,進而一周四次,且仍在不斷降低。
語音識別,為“小愛同學”裝上了“耳朵”,但要能聽會說,還要有“嘴巴”。于是,語音組研發推出了語音生成技術,可以將文本轉化成語音,甚至還能自動譜曲、編曲、合成歌曲等等。其中,超級擬人語音合成技術最大限度模擬真人說話方式,不只是語氣,甚至連人類說話時的猶豫、停頓、變速、嘆息等習慣也能復刻,使語音合成效果更加自然流暢。
為用戶帶來智能生活新體驗的同時,小米始終關注智能設備無障礙建設。“聲音天然應該服務于無障礙。”在王育軍看來,無論是視障人群、聽障人群、語言障礙人群還是肢端殘障人群,都可以通過人機交互的不同模態、利用聲音去彌補缺失的能力。
于是,語音組為聽障人群開發了“聞聲技術”,讓聽障人群可以通過手機、平板電腦等智能設備“看到”其他人說話,也可以幫他們“看見”周圍環境中的聲音,例如警報聲,敲門聲等;“讀屏技術”讓視障人群“聽到”屏幕上的內容;語音合成技術,為失去語言能力的用戶發出聲音;“聆聽”技術為構音困難用戶提供了個性化的語音識別,讓他們也可以通過語音和設備交互,這項技術還被提名為2021年世界互聯網領先科技成果。
到去年年底,小米人工智能實驗室聲學語音組已將自研聲學語音技術全面應用于小米手機、音箱、電視、耳機、手表、機器人等79個品類,共計5312款智能產品中。“小愛同學”月活躍用戶數量為1.15億,已成為是世界上最忙的語音助手之一。
“科技發展的根本目的是作用于人的生活,我們希望通過自己的努力,讓語音科技更有溫度,讓越來越多的用戶享受到更好的體驗感。”王育軍說。
攝影 彭程
來源:北京日報客戶端 記者:王天淇
流程編輯:u060
版權說明:任何媒體、網站或個人未經書面授權許可不得轉載、摘編或利用其它方式使用本網站上的文字、圖片、圖表、漫畫、視頻等內容。
未經許可即使用,或以此盈利的,均系侵害本網站著作權及相關權益的行為,本網站將追究法律責任。
如遇作品內容、版權等問題,請在相關文章刊發之日起30日內與本網聯系。
聯系方式:takefoto@vip.sina.com
責任編輯:Rex_23