摘要:提出了一種識別多維語音信息的方法,用來同時識別說話人身份、性別和情感信息,選擇身份特征參數(shù)I-vector向量表示語句特征。首先基于深度置信網(wǎng)絡(luò)(DBN)設(shè)計了一個性別相關(guān)的多維語音識別基線系統(tǒng),然后在基線系統(tǒng)基礎(chǔ)上又提出了一種基于漸進式神經(jīng)網(wǎng)絡(luò)技術(shù)(Progressive Neural Network,ProgNets)的多維說話人信息識別方法。在性別相關(guān)的基礎(chǔ)上,將輔助語音識別模型知識遷移學(xué)習(xí)到主語音識別模型中,進而增強語音識別性能。實驗結(jié)果表明,基線系統(tǒng)識別結(jié)果比非同時識別的單維語音識別DBN模型的平均識別率提升了4.73%,而基于ProgNets系統(tǒng)的多維系統(tǒng)識別精度比基線系統(tǒng)高1.8%。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社