天吉网

<form id="ahjsvduhjga"></form>

<address id="ahjsvduhjga"><listing id="ahjsvduhjga"><meter id="ahjsvduhjga"></meter></listing></address>

        <em id="ahjsvduhjga"></em>

        <form id="ahjsvduhjga"></form>

          
          

                當前位置:首頁 > 新聞中心 > 科研動態

              科研動態

              智能交互團隊在語音識別方向獲新進展

            1. 发表日期:2019-07-25 【 【打印】【關閉】
            2.   我所智能交互團隊在環境魯棒性、輕量級建模、自適應能力以及端到端處理等幾個方面進行持續攻關,在語音識別方面獲新進展,相關成果將在全球語音頂級學術會議INTERSPEECH2019發表  

                現有端到端語音識別系統難以有效利用外部文本語料中的語言學知識,針對這一問題,陶建華、易江燕、白烨等人提出采用知識遷移的方法,首先對大規模外部文本訓練語言模型,然後將該語言模型中的知識遷移到端到端語音識別系統中。這種方法利用了外部語言模型提供詞的先驗分布軟標簽,並采用KL散度進行優化,使語音識別系統輸出的分布與外部語言模型輸出的分布接近,從而有效提高語音識別的准確率。 

               基于知識遷移的端到端語音識別系統

                語音關鍵詞檢測在智能家居、智能車載等場景中有著关键作用。面向終端設備的語音關鍵詞檢測對算法的時間複雜度和空間複雜度有著很高的要求。當前主流的基于殘差神經網絡的語音關鍵詞檢測,需求20萬以上的參數,難以在終端設備上應用。 爲了解決這一問題,陶建華、易江燕、白烨等人提出基于共享權值自注意力機制和時延神經網絡的輕量級語音關鍵詞檢測方法。該方法采用時延神經網絡進行降采樣,通過自注意力機制捕獲時序相關性;並采用共享權值的方法,將自注意力機制中的多個矩陣共享,使其映射到相同的特征空間,從而進一步壓縮了模型的尺寸。與目前的性能最好的基于殘差神經網絡的語音關鍵詞檢測模型相比,我們提出方法在識別准確率接近的前提下,模型大小僅爲殘差網絡模型的1/20,有效降低了算法複雜度。 

               基于共享權值自注意力機制和時延神經網絡的輕量級語音關鍵詞檢測 

                針對RNN-Transducer模型存在收斂速度慢、難以有效進行並行訓練的問題, 陶建華、易江燕、田正坤等人提出了一種Self-attention Transducer (SA-T)模型,主要在以下三個方面實現了改進:1)通過自注意力機制替代RNN進行建模,有效提高了模型訓練的速度; 2)爲了使SA-T能夠進行流式的語音識別和解碼,進一步引入了Chunk-Flow機制,通過限制自注意力機制範圍對局部依賴信息進行建模,並通過堆疊多層網絡對長距離依賴信息進行建模; 3)受CTC-CE聯合優化啓發,將交叉熵正則化引入到SA-T模型中,提出Path-Aware Regularization(PAR),通過先驗知識引入一條可行的對齊路徑,在訓練過程中重點優化該路徑。 經驗證,上述改進有效提高了模型訓練速度及識別效果。 

              基于自注意力機制的端到端語音轉寫模型

                語音分離又稱爲雞尾酒會問題,其目標是從同時含有多個說話人的混合語音信號中分離出不同說話人的信號。當一段語音中同時含有多個說話人時,會嚴重影響語音識別和說話人識別的性能。 目前解決這一問題的兩種主流方法分別是:深度聚類(DC, deep clustering)算法和排列不變性訓練(PIT, permutation invariant training)准則算法。深度聚類算法在訓練過程中不可以真實的幹淨語音作爲目標,性能受限于k-means聚類算法;而PIT算法其輸入特征區分性不足。針對DCPIT算法的局限性,陶建華、劉斌、範存航等人提出了基于區分性學習和深度嵌入式特征的語音分離方法。首先,利用DC提取一個具有區分性的深度嵌入式特征,然後將該特征輸入到PIT算法中進行語音分離。同時,爲了增大不同說話人之間的距離,減小相同說話人之間的距離,引入了區分性學習目標准則,進一步提升算法的性能。所提方法在WSJ0-2mix語音分離公開數據庫上獲得較大的性能提升。 

              基于區分性學習和深度嵌入式特征的語音分離方法總體框圖

                    端到端系统在语音识别中取得了重大的突破。然而在复杂噪声环境下,端到端系统的鲁棒性依然面临巨大挑战。針對端到端系统不够鲁棒的问题,刘文举、聂帅、刘斌等人提出了基于联合对抗增强训练的鲁棒性端到端语音识别方法。具体地说,使用一个基于mask的语音增强网络、基于注意力机制的的端到端语音识别网络和判别网络的联合优化方案。判别网络用于区分经过语音增强网络之后的频谱和纯净语音的频谱,可以引导语音增强网络的输出更加接近纯净语音分布。通过联合优化识别、增强和判别损失,神经网络自动学习更为鲁棒的特征表示。所提方法在aishell-1数据集上面取得了较大的性能提升。 

                基于聯合對抗增強訓練的魯棒性端到端語音識別總體框圖 

                說話人提取是提取音頻中目標說話人的聲音。與語音分離不同,說話人提取不需求分離出音頻中所有說話人的聲音,而只關注某一特定說話人。目前主流的說話人提取方法是:说话人波束(SpeakerBeam)和声音滤波器(Voice filter)。这两种方法都只关注声音的频谱特征,而没有利用多通道信号的空间特性。由于声源是有方向性的,并且在实际环境中是空间可分的。所以,假如正确利用多通道的空间区分性,说话人提取系统可以更好地估计目标说话人。为了有效利用多通道的空间特性,刘文举、梁山、李冠君等人提出了方向感知的多通道说话人提取方法。首先多通道的信号先经过一组固定波束形成器,来产生不同方向的波束。进而DNN采用attention机制来确定目标信号所在的方向,来增强目标方向的信号。最后增强后的信号经过SpeakerBeam通过频谱线索来提取目标信号。提出的算法在低信噪比或同性别说话人混合的场景中性能提升明显。 

                方向感知的多通道說話人提取方法框圖 

                傳統的對話情感識別方法通常從孤立的句子中識別情感狀態,未能充分考慮對話中的上下文信息對于當前時刻情感狀態的影響。針對这一问题,陶建華、劉斌、連政等人提出了一種融合上下文信息的多模态情感识别方法。在输入层,采用注意力机制对文本特征和声学特征进行融合;在识别层,采用基于自注意力机制的双向循环神经网络对长时上下文信息进行建模;为了能够有效模拟真实场景下的交互模式,引入身份编码向量作为额外的特征输入到模型,用于区分交互过程中的身份信息。IEMOCAP情感數據集上對算法進行了評估,實驗結果表明,該方法相比現有最優基線方法,在情感識別性能上提升了2.42% 

                

               

                由于情感数据标注困难,语音情感识别面临着数据资源匮乏的问题。虽然采用迁移学习方法,将其他领域知识迁移到语音情感识别,可以在一定程度上缓解低资源的问题,但是这类方法并没有关注到长时信息对语音情感识别的关键作用。針對这一问题,陶建華、劉斌、連政等人提出了一種基于未来观测预测(Future Observation Prediction, FOP)的无监督特征学习方法。FOP采用自注意力机制,能够有效捕获长时信息;采用微调(Fine-tuning)和超列(Hypercolumns)两种迁移学习方法,能够将FOP学习到的知识用于语音情感识别。该方法在IEMOCAP情感数据集上的性能超过了基于无监督学习策略的语音情感识别.

                

               

                相关生理学研究表明,MFCC (Mel-frequency cepstral coefficient)对于抑郁检测来说是一种有区分性声学特征,这一研究成果使得不少工作通过MFCC来辨识个体的抑郁程度。但是,上述工作中很少使用神经网络来进一步捕获MFCC中反映抑郁程度的高表征特征;此外,針對抑郁检测这一问题,合适的特征池化参数未能被有效优化。針對上述问题,陶建华、刘斌、牛明月等人提出了一種混合网络并结合LASSO (least absolute shrinkage and selection operator)的lp范数池化方法来提升抑郁检测的性能。首先将整段音频的MFCC切分成具有固定大小的长度;然后将这些切分的片段输入到混合神经网络中以挖掘特征序列的空间结构、时序变化以及区分性表示与抑郁线索相关的信息,并将所抽取的特征记为段级别的特征;最后结合LASSO的lp范数池化将这些段级别的特征进一步聚合为表征原始语音句子级的特征。

                

               

               

                相關文獻:

                Learn Spelling from Teachers: Integrating Language Models into Sequence-to-Sequence Models 

                A Time Delay Neural Network with Shared Weight Self-Attention for Small-Footprint Keyword Spotting 

                Self-Attention Transducers for End-to-End Speech Recognition 

                Discrimination Learning for Monaural Speech Separation Using Deep Embedding Features 

                Jointly Adversarial Enhancement Training for Robust End-to-End Speech Recognition 

                Direction-aware Speaker Beam for Multi-channel Speaker Extraction 

                Conversational Emotion Analysis via Attention Mechanisms 

                Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition 

                Automatic Depression Level Detection via Lp-norm Pooling  

              网站地图