近日,全球語(yǔ)音、聲學(xué)頂級(jí)會(huì)議ICASSP 2023公布了論文入選名單,小米AI實(shí)驗(yàn)室8篇學(xué)術(shù)論文被接收。
【資料圖】
ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議,是IEEE主辦的全世界最大的,也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)會(huì)議,在國(guó)際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。
小米AI實(shí)驗(yàn)室被錄用的論文內(nèi)容涉及語(yǔ)音翻譯、量化、快速解碼、說(shuō)話人識(shí)別、關(guān)鍵詞識(shí)別等諸多方向,在此次 ICASSP 2023錄用的論文概述如下。
01
▍Rethinking the Reasonability of the Test Set for Simultaneous Machine Translation
Mengge Liu,Wen Zhang,Xiang Li,Jian Luan,Bin Wang,Yuhang Guo,Shuoying Chen
【業(yè)務(wù)應(yīng)用】
小愛翻譯實(shí)時(shí)字幕:在小愛翻譯實(shí)時(shí)字幕和同聲傳譯研發(fā)過(guò)程中用于評(píng)測(cè)質(zhì)量。
小愛同聲傳譯:雙人對(duì)話,邊說(shuō)邊譯,面對(duì)面跨語(yǔ)言溝通無(wú)障礙,能輕松應(yīng)對(duì)全球多個(gè)國(guó)家的不同英文口音。
【論文簡(jiǎn)介】
AI同傳任務(wù)為了保證譯文生成的實(shí)時(shí)性,必須在沒(méi)有看到整個(gè)源語(yǔ)言句子的情況下生成翻譯,而目前大多數(shù)AI同傳模型都是在整句翻譯測(cè)試集上進(jìn)行評(píng)估的。這讓我們重新思考:用現(xiàn)有的整句翻譯測(cè)試集來(lái)評(píng)估AI同傳模型的質(zhì)量和延時(shí)是否合理?我們分別基于兩個(gè)主流AI同傳模型對(duì)比不同延遲或刷新率條件下自動(dòng)評(píng)價(jià)和人工評(píng)價(jià)的變化趨勢(shì),結(jié)果如下:
其中AL表示W(wǎng)ait-k模型的延遲,NE表示Re-trans模型的刷新率,BLEU分?jǐn)?shù)是譯文質(zhì)量的自動(dòng)評(píng)價(jià)指標(biāo)(越大質(zhì)量越高),AP作為人工評(píng)價(jià)指標(biāo)用于評(píng)估譯文的可接受度(越大質(zhì)量越高)。我們驚訝地發(fā)現(xiàn),隨著翻譯延遲或刷新率的降低,人工評(píng)分下降率僅為13~14%,遠(yuǎn)低于BLEU分?jǐn)?shù)的下降幅度。這表明整句翻譯測(cè)試集確實(shí)低估了AI同傳模型的能力。
本文主要貢獻(xiàn)是提出了首個(gè)名為SiMuST-C的機(jī)器同傳專用英中測(cè)試集,后續(xù)我們計(jì)劃開源該數(shù)據(jù)集,為相關(guān)研究提供更合理的評(píng)價(jià)工具。該測(cè)試集是基于MuST-C英中測(cè)試集以流式方式所標(biāo)注,流式標(biāo)注過(guò)程如下表:該例子經(jīng)過(guò)五步完成標(biāo)注(其中R和W分別表示讀和寫操作,括號(hào)中表示標(biāo)注人員每步讀或?qū)懙膬?nèi)容)。
實(shí)驗(yàn)表明標(biāo)注測(cè)試集與MuST-C英中測(cè)試集的可接受度相當(dāng),并且緩解了現(xiàn)有測(cè)試集對(duì)同傳模型的低估問(wèn)題,更加適合作為同傳模型的測(cè)試集。此外,我們定義一個(gè)基于對(duì)齊的單調(diào)性指標(biāo),并使用該指標(biāo)從訓(xùn)練集中自動(dòng)抽取單調(diào)數(shù)據(jù),使用該單調(diào)數(shù)據(jù)微調(diào)AI同傳模型,可以在低延遲下提升多達(dá)3個(gè)BLEU值。
02
▍Joint Training and Decoding for Multilingual End-to-End Simultaneous Speech Translation
Wuwei Huang,Renren Jin,Wen Zhang,Jian Luan,Bin Wang,Deyi Xiong
【論文簡(jiǎn)介】
端到端語(yǔ)音翻譯(End-to-End Speech Translation)近期取得了突破性進(jìn)展,當(dāng)訓(xùn)練數(shù)據(jù)達(dá)到一定規(guī)模時(shí),端到端語(yǔ)音翻譯的質(zhì)量已經(jīng)可以媲美級(jí)聯(lián)(先做語(yǔ)音識(shí)別,再做機(jī)器翻譯)的方法。這些進(jìn)展激發(fā)了研究人員對(duì)多語(yǔ)言端到端語(yǔ)音翻譯和端到端語(yǔ)音同傳的興趣。
本文從多語(yǔ)言端到端語(yǔ)音翻譯與端到端語(yǔ)音同傳結(jié)合方面展開,提出用于聯(lián)合同步訓(xùn)練策略的雙解碼器框架和單解碼器統(tǒng)一這兩個(gè)多語(yǔ)言端到端語(yǔ)音同傳的模型變體框架。該框架可以實(shí)時(shí)地將一種源語(yǔ)言對(duì)應(yīng)的語(yǔ)音同時(shí)翻譯成多種目標(biāo)語(yǔ)言的文本,主要驗(yàn)證了其優(yōu)于雙語(yǔ)語(yǔ)音同傳的方法,同時(shí)為相關(guān)研究團(tuán)體提供一個(gè)很有潛力的研究方向。
為了進(jìn)一步探索跨語(yǔ)言的知識(shí)轉(zhuǎn)移,我們基于單解碼器統(tǒng)一框架又提出了一種異步訓(xùn)練策略。兩個(gè)模型框架分別如下圖示:
(a)雙解碼器框架
(b)單解碼器統(tǒng)一框架
使用gentle和Laser對(duì)齊工具構(gòu)建一個(gè)多路對(duì)齊的多語(yǔ)言端到端ST測(cè)試集,用于評(píng)估我們所提出的方法。實(shí)驗(yàn)結(jié)果表明當(dāng)使用同步訓(xùn)練策略時(shí),所提出的兩個(gè)模型框架均顯著優(yōu)于雙語(yǔ)的語(yǔ)音同傳模型;另外,在單解碼器統(tǒng)一框架上的異步訓(xùn)練策略又進(jìn)一步帶來(lái)了提升。這與多語(yǔ)言翻譯模型上的結(jié)論一致,不同語(yǔ)種之間有相互促進(jìn)作用。
03
▍Delay-penalized transducer for low-latency streaming ASR
Wei Kang,Zengwei Yao,F(xiàn)angjun Kuang,Liyong Guo,Xiaoyu Yang,Long Lin,Piotr ?elasko,Daniel Povey
【論文簡(jiǎn)介】
端到端流式語(yǔ)音識(shí)別任務(wù)中,一般認(rèn)為模型只能看到有限的上下文信息,所以總是會(huì)帶來(lái)一些識(shí)別的時(shí)延。盡管已經(jīng)存在一些方法可以降低這個(gè)時(shí)延,但是它們通常需要依賴于額外獲取的時(shí)間對(duì)齊數(shù)據(jù)。
本論文中,我們提出一個(gè)簡(jiǎn)單的方法用于懲罰 Transducer 模型的時(shí)延,可以調(diào)節(jié)流式模型在準(zhǔn)確率和時(shí)延之間的 trade-off。具體而言,在利用動(dòng)態(tài)規(guī)劃算法計(jì)算 Transducer 目標(biāo)函數(shù)之前,我們?cè)诜?blank 的 log-probabilities 上加一個(gè)常數(shù) λ 乘以 (T/2 - t),其中 T 是幀數(shù),t 是當(dāng)前幀索引。實(shí)驗(yàn)結(jié)果表明,在流式 Conformer 模型和 LSTM 模型上,該方法可以在降低可接受的準(zhǔn)確率情況下,有效降低識(shí)別時(shí)延。我們的方法取得了與 FastEmit 相似的準(zhǔn)確率-時(shí)延 trade-off,但是具備更強(qiáng)的理論可解釋性:其相當(dāng)于懲罰整個(gè) Transducer lattice 的平均時(shí)延。
相關(guān)代碼已開源,可點(diǎn)擊此鏈接跳轉(zhuǎn)使用:https://github.com/k2-fsa/k2
04
▍PREDICTING MULTI-CODEBOOK VECTOR QUANTIZATION INDEXES FOR KNOWLEDGE DISTILLATION
Liyong Guo,Xiaoyu Yang,Quandong Wang,Yuxiang Kong,Zengwei Yao,F(xiàn)an Cui,F(xiàn)angjun Kuang,Wei Kang,Long Lin,Mingshuang Luo,Piotr ?elasko,Daniel Povey
【論文簡(jiǎn)介】
1. 將所有生成的標(biāo)簽(通常是浮點(diǎn)向量)全部存儲(chǔ)下來(lái)所需要的空間巨大,并不適用于大型數(shù)據(jù)集(上萬(wàn)小時(shí))。
2. 在線推理教師模型并生成標(biāo)簽?zāi)軌蚬?jié)約存儲(chǔ)空間,但是增加了訓(xùn)練的時(shí)間成本,并且影響訓(xùn)練時(shí)最大可用的 batch-size。
針對(duì)現(xiàn)有 KD 框架的上述兩個(gè)痛點(diǎn),本文創(chuàng)新性的提出了一種量化算法(Multi-vector Quantization, MVQ)。使用 Direct-sum codebook 辦法將浮點(diǎn)向量格式的教師標(biāo)簽壓縮成 N 個(gè) 8-bit 的編碼索引(codebook index,CI),并且提出了一套高效的編碼索引優(yōu)化策略,盡可能縮小重建誤差。通過(guò)控制N的大小,MVQ 算法能夠?qū)崿F(xiàn)不同精度的向量壓縮。
同時(shí),基于 MVQ 算法,也提出了一套高效的知識(shí)蒸餾方案 MVQ-KD:在進(jìn)行KD訓(xùn)練時(shí),提取學(xué)生模型中間層的Embedding用于預(yù)測(cè) MVQ 對(duì)教師 Embedding 編碼后得到的CI,使用交叉熵?fù)p失函數(shù)和RNN-T損失函數(shù)進(jìn)行多任務(wù)學(xué)習(xí)。
實(shí)驗(yàn)表明,MVQ-KD 能夠在實(shí)現(xiàn)對(duì)教師模型標(biāo)簽的256倍壓縮率的同時(shí),將學(xué)生模型的詞錯(cuò)誤率降低約10%。與傳統(tǒng)的基于L1或L2損失函數(shù)的蒸餾方案相比,大幅度減少了存儲(chǔ)教師模型標(biāo)簽所需的空間,且沒(méi)有明顯的性能損失,有效的解決了傳統(tǒng)知識(shí)蒸餾方案的痛點(diǎn)問(wèn)題。
相關(guān)代碼已開源,可點(diǎn)擊此鏈接跳轉(zhuǎn)使用:https://github.com/k2-fsa/icefall
05▍Fast and parallel decoding for transducer
Wei Kang,Liyong Guo,F(xiàn)angjun Kuang,Long Lin,Mingshuang Luo,Zengwei Yao,Xiaoyu Yang,Piotr ?elasko,Daniel Povey
【論文簡(jiǎn)介】
1. 在RNN-T中使用了無(wú)狀態(tài)的decoder網(wǎng)絡(luò),使用有限的left context。
2. 在解碼時(shí)限制每一幀語(yǔ)音只能輸出一個(gè)symbol。
在這兩個(gè)前提下,又基于 k2 中的 RaggedTensor 實(shí)現(xiàn)了幀同步的 beam search 解碼。這可能是現(xiàn)今唯一既能使用 FSA 又能運(yùn)行于 GPU 的解碼方法,通過(guò)測(cè)試我們發(fā)現(xiàn)使用 80M 的模型在英偉達(dá) V100 顯卡上能并行跑 200 路以上的語(yǔ)音,LibriSpeech 數(shù)據(jù)集上的解碼實(shí)時(shí)率低至 0.0025。
核心代碼實(shí)現(xiàn)開源在https://github.com/k2-fsa/k2 (搜索 rnnt_decode.{h,cu}),應(yīng)用示例開源在https://github.com/k2-fsa/icefall (搜索fast_beam_search)。
06
▍Unified Keyword Spotting and Audio Tagging on Mobile Devices with Transformers
Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Junbo Zhang,Yujun Wang
【論文簡(jiǎn)介】
UniKW-AT(聯(lián)合語(yǔ)音喚醒和音頻標(biāo)記),一直是我們?cè)诔掷m(xù)研究的課題。去年,我們研究的Interspeech論文(鏈接:https://arxiv.org/pdf/2209.11377.pdf),首創(chuàng)性的提出了UniKW-AT框架。這是一種將語(yǔ)音喚醒(KWS)和音頻標(biāo)記(Audio Tagging)相結(jié)合的統(tǒng)一框架,其目的是在設(shè)備端進(jìn)行部署這兩個(gè)功能時(shí)可以節(jié)省資源消耗以及提高喚醒模型在噪聲下的魯棒性。然而,這部分的研究并未考慮到UniKW-AT模型在實(shí)際部署中的因素,例如模型大小和推理速度等因素。因此,今年本篇論文將持續(xù)探索發(fā)展的可能性,具體流程詳見下圖:
所提出的三種可以部署在移動(dòng)設(shè)備上的模型,稱為Unified Transformers (UiT)。實(shí)驗(yàn)結(jié)果表明,所提出的UiT模型可以在Audioset數(shù)據(jù)集上達(dá)到34.09的mAP和在Google Speech Commands 數(shù)據(jù)集上達(dá)到 97.76的準(zhǔn)確度,并且可以在四個(gè)移動(dòng)平臺(tái)上實(shí)現(xiàn)與競(jìng)爭(zhēng)模型MobileNetV2相比2-6倍的加速。
推理速度測(cè)試(耗時(shí)毫秒,輸入音頻1秒)在不同手機(jī)(SD865 = 小米10, SD888 = 小米11, G90T = 紅米Note8, MT700 = 紅米11) 上(音頻標(biāo)記基線 = MBv2, KWS 基線 = TC-ResNet8 ) 結(jié)果:
主要使得UniKW-AT這種架構(gòu)有了可以落地到設(shè)備端的可能性。
07
▍AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker Extraction
Jiuxin Lin, Xinyu Cai, Heinrich Dinkel, Jun Chen, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Zhiyong Wu, Yujun Wang, Helen Meng
聯(lián)合 清華大學(xué) 吳志勇老師團(tuán)隊(duì)、香港中文大學(xué) 孟美玲老師團(tuán)隊(duì)
【論文簡(jiǎn)介】
因此,本文提出了一個(gè)名為AV-SepFormer的雙尺度模型,以更好地融合視覺和音頻特征。實(shí)驗(yàn)結(jié)果表明,該模型在多個(gè)數(shù)據(jù)集上表現(xiàn)出更好的性能。
【論文demo】
https://lin9x.github.io/AV-SepFormer_demo/
08
▍IMPROVING WEAKLY SUPERVISED SOUND EVENT DETECTION WITH CAUSAL INTERVENTION
Yifei Xin, Dongchao Yang, Fan Cui, Yujun Wang, Yuexian Zou
聯(lián)合 北京大學(xué) 鄒月嫻老師團(tuán)隊(duì)
【論文簡(jiǎn)介】
現(xiàn)有的弱監(jiān)督聲音事件檢測(cè)算法主要關(guān)注于同一時(shí)間段只有單一事件發(fā)生的情況,但實(shí)際上同一時(shí)間段可能會(huì)有多種不同的背景音,所以時(shí)間段級(jí)別的標(biāo)注通常是有偏差的。基于此,為了解決上述情況對(duì)模型訓(xùn)練的負(fù)向影響,本文提出了一種因果干擾(Causal Intervention)來(lái)提升弱監(jiān)督聲音事件檢測(cè)(Sound Event Detection)的方案。
此方法通過(guò)迭代累積每個(gè)類別可能的上下文信息,然后將累積的上下文信息投影到幀級(jí)別特征來(lái)消除共現(xiàn)混淆因素的負(fù)面影響,使聲音事件分類邊界更清晰。在多個(gè)聲音事件檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,此方法能有效地提高了算法檢測(cè)的正確性。
09
▍ 總 結(jié)
小米AI實(shí)驗(yàn)室成立于2016年,覆蓋計(jì)算機(jī)視覺、語(yǔ)音聲學(xué)、自然語(yǔ)言處理(NLP)、知識(shí)圖譜、機(jī)器學(xué)習(xí)等多個(gè)研究方向。其中,語(yǔ)音團(tuán)隊(duì)在語(yǔ)音識(shí)別、語(yǔ)音喚醒、聲紋識(shí)別、口語(yǔ)評(píng)測(cè)、語(yǔ)音合成、歌唱合成、AI作曲與編曲等方面均取得了重大突破。截至2022年,小愛同學(xué)月活躍用戶數(shù)量為1.15億,是世界上最忙的語(yǔ)音助手之一。
由小米集團(tuán)首席語(yǔ)音科學(xué)家、Kaldi 之父Daniel Povey 牽頭組建的“新一代 Kaldi”研發(fā)團(tuán)隊(duì),重點(diǎn)研究包括新的聲學(xué)編碼器、半監(jiān)督及無(wú)監(jiān)督訓(xùn)練、高效的解碼方法、大模型訓(xùn)練等技術(shù),將語(yǔ)音識(shí)別準(zhǔn)確率推上一個(gè)新臺(tái)階,并持續(xù)賦能小米語(yǔ)音產(chǎn)品。
在自然語(yǔ)言處理(NLP)領(lǐng)域,研究的內(nèi)容主要包含人機(jī)對(duì)話、機(jī)器翻譯、機(jī)器寫作、輿情分析等技術(shù)。目前,小米自研機(jī)器翻譯技術(shù)已廣泛落地應(yīng)用于小愛翻譯、小愛同學(xué)、AI通話助手、瀏覽器、傳送門、筆記、掃一掃等小米手機(jī)軟件產(chǎn)品,以及小愛老師學(xué)習(xí)機(jī)、小愛音箱、小愛鼠標(biāo)、米兔手表、小米手環(huán)、米家眼鏡相機(jī)等智能硬件產(chǎn)品,月活躍用戶數(shù)超千萬(wàn)。
此次成績(jī)的取得,離不開小米工程師們?cè)趯?shí)際業(yè)務(wù)中扎實(shí)的技術(shù)積累,同時(shí)也是小米堅(jiān)持“技術(shù)為本”理念的有力印證。未來(lái),小米將繼續(xù)探索科技新高度,讓更多人享受科技帶來(lái)的美好生活。
END
責(zé)任編輯:Rex_03