本人聲明,所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)下完成的。論文中取得 的研究成果除加以標(biāo)注和致謝的地方外,不包含其他人己經(jīng)發(fā)表或撰寫過 的研究成果,也不包括本人為獲得其他學(xué)位而使用過的材料。與我一同工 作的同志對本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示謝意。
學(xué)位論文作者簽名: 日期:
本學(xué)位論文作者和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留、使用學(xué)位論 文的規(guī)定:即學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和 磁盤,允許論文被查閱和借閱。本人同意東北大學(xué)可以將學(xué)位論文的全部 或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索、交流。
作者和導(dǎo)師同意網(wǎng)上交流的時間為作者獲得學(xué)位后: 半年□一年□ 一年半□ 兩年□
學(xué)位論文作者簽名:導(dǎo)師簽名: 簽字日期:簽字日期:
語音特征參數(shù)提取是影響語音識別系統(tǒng)的關(guān)鍵技術(shù)之一,近年來結(jié)合聽覺特性的語 音特征參數(shù)提取是語音識別領(lǐng)域的研究熱點。而隨著物聯(lián)網(wǎng)技術(shù)的廣泛推廣,設(shè)計并實 現(xiàn)面向應(yīng)用的語音識別系統(tǒng)引起越來越多科研人員的關(guān)注。
本文在綜述了語音識別技術(shù)中語音特征參數(shù)提取的研究發(fā)展及其在物聯(lián)網(wǎng)應(yīng)用的 基礎(chǔ)上,實現(xiàn)了一種基于聽覺模型的特征參數(shù):耳蝸基底膜倒譜系數(shù)(CFCC),并將其應(yīng) 用于物聯(lián)網(wǎng)重要分支智能家居系統(tǒng)中,以實現(xiàn)非特定人、語音交互的智能家居系統(tǒng)。本 文的主要工作如下:
首先,研究基于聽覺模型的 CFCC,介紹其數(shù)學(xué)定義、實現(xiàn)方法,并在 MATLAB 環(huán)境下進(jìn)行仿真研究。仿真實驗中還提取了 MFCC 和GFCC,和 CFCC 進(jìn)行對比試驗, 實驗室安靜環(huán)境下錄制的音頻測試文件信噪比高,所有特征參數(shù)的識別率都可以達(dá)到 90% 以上,對該音頻文件添加白噪聲,令信噪比為 6dB 時,MFCC 的識別率下降為 67.5%, GFCC 和 CFCC 的稍有下降,分別為 86.8%和 90.4%。當(dāng)信噪比為0dB 時,MFCC 的識 別率下降到 20%以下,GFCC 和 CFCC 的亦有下降趨勢,分別為 45.0%和 65.2%,但 CFCC 的表現(xiàn)要優(yōu)于 。實驗說明 具有更好的抗噪性。
然后,將 CFCC 整合到 Sphinx 語音識別系統(tǒng)中,以替換其默認(rèn)的特征參數(shù) MFCC, 實現(xiàn)基于 CFCC 的語音識別系統(tǒng),并將該系統(tǒng)移植到嵌入式開發(fā)平臺。其中,嵌入式開 發(fā)平臺以 OMAP3530 為核心處理控制芯片,搭載嵌入式 Linux 操作系統(tǒng),并添加了 QT 圖形界面庫、ALSA 音頻庫、NRF24L01 無線模塊及驅(qū)動等支持,有效保證語音識別系 統(tǒng)實現(xiàn)。
最后將實現(xiàn)的基于 CFCC 的語音識別系統(tǒng),應(yīng)用到物聯(lián)網(wǎng)分支智能家居系統(tǒng)中。該 系統(tǒng)將用戶從傳統(tǒng)的利用手和眼的交互方式解放出來,可以在不固定的地點,不中斷用 戶當(dāng)前行為的情況下利用語音信號以非接觸方式完成對智能家居系統(tǒng)的操作。
Design of speech recognitionsystem based on CFCC and application in the Internet ofThings
Feature extraction is one of the key technology in Automatic Speech Recognition(ASR). In recent years, feature extraction combined with auditorycharacteristics is a hotspot. With the extensive popularization of the Internet of Things (IoT), the design and realization of ASR for IoT is attracting more and moreattention from researchers.
This paper summarizes the research and development of feature extraction and its appli- cation on IoT. And a feature based on auditory model called CochleaFeature Cepstral Coeff- ieients(CFCC) is implemented. The CFCC is applied to the speaker-independent and voice interactive smart home system which isone of the important branch of IoT. The main work are as follow:First, the mathematical definition and realization method of CFCC is introduced in this paper, and the simulation study in MATLAB is implemented. MFCCand GFCC are also extracted to compared with CFCC under different level of Signal to Noise Ratio(SNR). The clean testing condition recorded under a quietenvironment in the laboratory has a high SNR, the accuracy of all features are more than 90%. After adding white noise, the SNR of the testing conditiondrops to 6dB, the performance of MFCC drops to 67.5%, GFCC is 86.8%, and CFCC is 90.4%. If the SNR is 0dB, the MFCC accuracy is less than 20%,GFCC is
45.0%, and CFCC is 65.2%, but it is still higher than the other two. The experiments shows that CFCC has better noise immunity.
Second, design an ASR based on CFCC which is integrating CFCC into the Sphinx to replace its default feature MFCC. Then ported it to embedded platform. The embedded plat- form based on OMAP3530 and installed Linux. What’s more, the QT graphical library, ALSA library, NRF24L01 wireless moduleand its driver are added which can guarantee the imple- mentation of ASR effectively.
Finally, applied the ASR based on CFCC into smart home system. This system liberate users from the traditional way of hands and eyes interaction. Userscould operate the smart home system in non-contact way without fixd place and interrupting their current behavior
摘 要 ...................................................................................................................................... II Abstract............................................................................................................................... III 第1章 緒論........................................................................................................................ 1
6.2 展望............................................................................................................................ 67 參考文獻(xiàn).............................................................................................................................. 69 致 謝..................................................................................................................................... 73 攻讀學(xué)位期間的研究成果........................................................................................... 75
語音識別的研究工作起步于上個世紀(jì) 50 年代。90 年代開始,語音識別技術(shù)逐漸從 實驗室走向應(yīng)用。根據(jù)其實用化的需要,人耳聽覺模型的研究逐漸為學(xué)者所重視,出現(xiàn) 了不同類型的基于聽覺模型的參數(shù):感知加權(quán)線性預(yù)測參數(shù)(Perceptual Linear Predictive, PLP)、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrun Coefficient,MFCC)、Gammatone 濾 波器參數(shù)、Gammachirp 濾波器參數(shù)[1][2]。同時出現(xiàn)了一批比較成功的語音識別軟件:IBM 的 ViaVioce,Microsoft 的 SpeechSDK,Google 的 Google Speech API,Nuance 的 Naturally Speaking 以及開源語音識別系統(tǒng)HTK,Sphinx[3]和 Julius。
進(jìn)入 21 世紀(jì)后隨著電子產(chǎn)品的普及,嵌入式語音處理技術(shù)迅速發(fā)展。語音識別技 術(shù)也順勢進(jìn)入該領(lǐng)域,其表現(xiàn)形式為出現(xiàn)獨立的語音識別芯片如 Sensory 公司的 Rsc 系 列語音識別芯片、 公司的 Unispeech 和 Unilite 語音芯片等;或者為語音識別軟 件出現(xiàn)嵌入式版本分支,例如 SpeechSDK,Google Speech API,Sphinx 等先后實現(xiàn)對嵌 入式設(shè)備的支持。我國語音識別研究工作一直緊跟國際水平,國內(nèi)的語音識別始于七十 年代,國家也很重視,并把大詞匯量語音識別的研究列入“863”計劃,由中科院聲學(xué) 所、自動化所及清華大學(xué)等單位研究開發(fā)[4]。經(jīng)過四十余年的發(fā)展,漢語語音識別領(lǐng)域 取得了豐碩的成果。在實用方面,也涌現(xiàn)出不少以語音識別技術(shù)為核心的公司,例如語 音識別芯片提供商 ICRoute,語音識別引擎提供商科大訊飛。
語音識別技術(shù)以其極具誘惑力的發(fā)展?jié)摿,吸引了國?nèi)外一批又一批學(xué)者投入其中, 并且取得了很大的成就,部分技術(shù)已經(jīng)走出實驗室進(jìn)入實用化階段,很大的鼓舞了研究 人員的熱情,然而其發(fā)展并非一帆風(fēng)順,現(xiàn)在還有許多困難需要解決:
1.噪聲環(huán)境:由于環(huán)境復(fù)雜、噪聲源較多,使得在實驗室環(huán)境下可以輕松識別的 系統(tǒng)應(yīng)用在實際環(huán)境中識別率明顯下降[5];
2.連續(xù)語音:漢語連續(xù)語音的連續(xù)程度高,協(xié)同發(fā)音現(xiàn)象嚴(yán)重,表現(xiàn)為孤立詞匯 識別率很高,而在連續(xù)語音條件下識別率下降[6];
“訓(xùn)練”,使語音識別系統(tǒng)可以針對性的對用戶語音進(jìn)行識別,一旦更換系統(tǒng)或用戶, 則需要重新“訓(xùn)練”,為用戶使用帶來諸多不便[7]。
目前大多數(shù)語音識別技術(shù)是基于統(tǒng)計模式的。從語音產(chǎn)生機(jī)理來看,語音識別可以 分為語音層和語言層兩部分,基于這種模式的語音識別系統(tǒng)包括四個部分:特征提取, 聲學(xué)模型訓(xùn)練,語言模型訓(xùn)練和搜索算法[7]。嘗試解決當(dāng)前語音識別技術(shù)所面臨的的困 難,可以從以下幾個方面入手:
(1) 語音特征:聲學(xué)模型是語音識別最底層的模型,代表著語音學(xué)信息,是系統(tǒng)中 的關(guān)鍵部分。聲學(xué)模型建模時訓(xùn)練單元的區(qū)分能力,直接取決于特征提取方法的優(yōu)劣。 特征提取要求提取的特征不但能夠有效的降低數(shù)字語音信號的數(shù)據(jù)量,還要保證包含原 始語音的全部有效信息。另外,特征提取最好還能夠具有抗噪性,這樣就可以從源頭上 保證語音識別系統(tǒng)的魯棒性[7]。
(2) 說話人適應(yīng)性:每個人的語音中不但包含語言信息,還包含個人特征信息,目 前的語音識別系統(tǒng)無法將兩者有效區(qū)分。對于特定人的語音識別系統(tǒng),它采集特定人的 語音,進(jìn)行訓(xùn)練、識別,其識別率一般可以達(dá)到 以上。然而對于非特定人識別,由 于語音中個人特征的影響,造成訓(xùn)練語音庫和測試語音庫總會存在差異,訓(xùn)練語音庫不
能全面覆蓋和反映測試語音庫的語音[5]。通常通過下面的方法解決此類問題:其一,深 入研究語音發(fā)音機(jī)理,從中找出與說話人無關(guān)的反映語音—文本對應(yīng)關(guān)系的參數(shù)序列, 本質(zhì)上是尋找一種語音特征參數(shù),可以包含原始語音的全部語音學(xué)信息,而剔除說話人 的個性信息[4][8]。其二,增大訓(xùn)練集的規(guī)模,使之涵蓋盡可能多的發(fā)音人的聲學(xué)特征, 從而減小個性信息的影響,由于這需要很大的語料庫而且訓(xùn)練時間太長,影響實用性, 故這種方式不予推薦[7]。
(3) 語法知識的利用。選擇合適的語法知識可以明顯的糾正音素序列的錯誤判別, 降低最終語句的錯誤識別數(shù)。實際上,連續(xù)語音識別系統(tǒng)或多或少結(jié)合了某種語法知識。 語法知識定義越清楚、應(yīng)用越充分,系統(tǒng)的識別率就會越高。目前典型的用于描述語法 規(guī)則結(jié)構(gòu)的方法是使用狀態(tài)樹轉(zhuǎn)移結(jié)構(gòu)的統(tǒng)計模式[6][9]。
的概念。在物聯(lián)網(wǎng)的發(fā)展過程中其內(nèi)涵幾經(jīng)變化,目前認(rèn)為物聯(lián)網(wǎng)指將所有物體通過信 息傳感設(shè)備如射頻識別、全球定位系統(tǒng)、紅外感應(yīng)器等與互聯(lián)網(wǎng)相結(jié)合,形成一個智能 化識別和管理的網(wǎng)絡(luò)。其目的是讓所有的物品都與網(wǎng)絡(luò)連接在一起,方便識別和管理。 物聯(lián)網(wǎng)的核心是實現(xiàn)物體(包含人)之間的互連,從而能夠?qū)崿F(xiàn)物體與物體之間的信息交 換和通信。物體信息通過網(wǎng)絡(luò)傳輸?shù)叫畔⑻幚碇行暮罂蓪崿F(xiàn)各種信息服務(wù)和應(yīng)用。物聯(lián) 網(wǎng)被預(yù)言為繼互聯(lián)網(wǎng)之后全球信息產(chǎn)業(yè)的又一次科技與經(jīng)濟(jì)浪潮,受到各國政府、企業(yè) 和學(xué)術(shù)界的重視[10][11]。
物聯(lián)網(wǎng)的應(yīng)用領(lǐng)域主要包括物流監(jiān)控、污染監(jiān)控、遠(yuǎn)程醫(yī)療、智能交通和智能家居 等。其中,智能家居是以住宅為平臺,兼?zhèn)浣ㄖ⒕W(wǎng)絡(luò)通信、信息家電、設(shè)備自動化, 集系統(tǒng)、結(jié)構(gòu)、服務(wù)、管理為一體的高效、舒適、安全、便利、環(huán)保的居住環(huán)境。智能 家居因其應(yīng)用前景廣闊、潛在市場需求巨大且發(fā)展迅猛而受到廠商的廣泛關(guān)注[12]。
目前,大多數(shù)智能家居系統(tǒng)的人機(jī)交互是通過鍵盤、觸摸屏和 LCD 來完成[13][14]。 對用戶的操作地點、交互方式有很大的限制。本文中,嘗試將語音識別系統(tǒng)應(yīng)用到智能 家居系統(tǒng)中,使用戶可以通過語音來完成和智能家居系統(tǒng)的交互,即構(gòu)建人機(jī)語音交互 的智能家居系統(tǒng)。該系統(tǒng)將用戶從傳統(tǒng)的利用手和眼的交互方式中解放出來,可以在不 固定的地點,不中斷用戶當(dāng)前行為的情況下利用語音信號以非接觸式完成對系統(tǒng)的操作。
第一:目前基于 MFCC 和 GFCC(Gammatone Frequency Cepstrum Coefficient)的語音 識別系統(tǒng)噪聲魯棒性較差。本文將深入學(xué)習(xí)基于聽覺模型的耳蝸倒譜系數(shù)(Cochlea Feature Cepstral Coeffieients,CFCC)的定義及各個環(huán)節(jié)的意義,在 MATLAB 環(huán)境下對該 參數(shù)進(jìn)行仿真研究,分步論述 CFCC 的提取方法及實現(xiàn)過程。然后在不同信噪比條件下, 與 MFCC 和 GFCC 進(jìn)行對比,觀察其抗噪性是否優(yōu)于他們。
第二:語音識別系統(tǒng)是一個完整的語音到文本的處理過程,不但包含特征提取環(huán)節(jié), 還包含預(yù)處理、模式匹配等環(huán)節(jié),實現(xiàn)語音識別系統(tǒng)每個環(huán)節(jié)都必不可少。Sphinx 是一 個開源的、完整的語音識別系統(tǒng),并且擁有完善的工具。本文中,首先學(xué)習(xí) Sphinx 的 使用,掌握聲學(xué)模型和語言模型的訓(xùn)練方法,掌握 Sphinx 語音識別系統(tǒng)的構(gòu)建方法。 然后深入閱讀 Sphinx 源代碼,了解其組織架構(gòu),找出其中默認(rèn)參數(shù)MFCC 的提取部分, 并修改為提取 CFCC 參數(shù),實現(xiàn)基于 CFCC 的 Sphinx 語音識別系統(tǒng)。
第三:本文以物聯(lián)網(wǎng)的典型應(yīng)用——智能家居系統(tǒng)為應(yīng)用環(huán)境,學(xué)習(xí) Linux 操作系 統(tǒng)知識,掌握基本的操作方法及程序開發(fā)流程,在以O(shè)MAP3530 為核心的嵌入式開發(fā) 平臺上構(gòu)建嵌入式 Linux 操作系統(tǒng),并添加 QT 圖形界面庫、ALSA(Advanced Linux Sound Architecture)音頻驅(qū)動庫、NRF24L01 無線模塊及驅(qū)動等必要支持。然后將基于 CFCC 的 Sphinx 語音識別系統(tǒng)移植到該開發(fā)平臺,并以此為核心,構(gòu)建語音交互的智能家居系統(tǒng)。
本文的結(jié)構(gòu)安排如下: 第一章:介紹語音識別技術(shù)的現(xiàn)狀,語音識別的關(guān)鍵技術(shù),并概括了本文的主要研
究內(nèi)容。 第二章:詳細(xì)介紹典型語音識別系統(tǒng)的各個組成部分,對理解語音識別各個環(huán)節(jié)如
何工作有很大的指導(dǎo)作用。介紹了目前幾種主流的基于人耳聽覺模型的特征參數(shù)提取方 法以及隱馬爾科夫模型應(yīng)用于語音識別領(lǐng)域的基本原理和方法。另外,還介紹了 Sphinx 的原理及使用方法。
第三章:首先闡述 CFCC 的數(shù)學(xué)定義,然后詳細(xì)介紹其在 MATLAB 環(huán)境下的提取 方法及仿真實現(xiàn),并將此特征參數(shù)與傳統(tǒng)特征參數(shù)進(jìn)行比較,實驗表明該參數(shù)在噪聲環(huán) 境下魯棒性更好。最后,介紹如何將該參數(shù)整合到 Sphinx 系統(tǒng)中。
第四章:首先介紹系統(tǒng)硬件平臺,然后介紹軟件開發(fā)平臺建立過程。這為后續(xù)應(yīng)用 系統(tǒng)開發(fā)做好必要準(zhǔn)備。
第五章:主要介紹基于 CFCC 的語音識別系統(tǒng)在物聯(lián)網(wǎng)的應(yīng)用實現(xiàn),包括設(shè)備驅(qū)動 實現(xiàn)及應(yīng)用系統(tǒng)實現(xiàn)兩部分。最終實現(xiàn)語音交互的智能家居系統(tǒng)。
第六章:總結(jié)本論文所做工作,針對系統(tǒng)中不完善的地方提出可能的改善方案,對 后續(xù)研究做簡明交待。
人類的語音信號是由肺部的收縮,壓迫氣流由支氣管經(jīng)過聲門和聲道引起音頻振蕩 而產(chǎn)生的一種聲波。通常認(rèn)為語音信號的信息主要集中在40-4kHz的范圍內(nèi)[15]。
聲波是機(jī)械波,數(shù)字電路系統(tǒng)對語音進(jìn)行處理,首先需要將其轉(zhuǎn)換為數(shù)字信號,并 確定有效語音數(shù)據(jù)段,該過程即預(yù)處理,一般包括預(yù)濾波(抗混疊濾波)、量化、預(yù)加重 和端點檢測。
(一) 預(yù)濾波 根據(jù)奈奎斯特采樣定律可知,采樣頻率應(yīng)為輸入帶限信號最高頻率的二倍以上?
慮到在噪音環(huán)境中寬帶隨機(jī)噪聲疊加的結(jié)果,使得語音信號可能包含4kHz以上頻率成分, 為了防止頻譜混疊,必須在采樣前進(jìn)行一次預(yù)濾波去掉有效信號之外的高頻噪音。預(yù)濾 波還有一個目的是避免50Hz的工頻干擾,因此預(yù)濾波是一個帶通濾波器,其下截止頻率
(二) 采樣及量化 采樣是將連續(xù)時間的語音信號轉(zhuǎn)換成離散時間信號,采樣之后的語音數(shù)據(jù)是離散時
間的模擬數(shù)據(jù),利用計算機(jī)進(jìn)行存儲和處理則要經(jīng)過量化,即AD轉(zhuǎn)換。原信號和量化 后的信號的差值稱為量化誤差。量化時,采用較大的量化級數(shù)來記錄采樣點的幅度,則 量化誤差越小,但相應(yīng)的就會增加存儲容量和處理時的計算量,因此要根據(jù)需求選擇合 理的量化級數(shù)[15]。本文中量化級數(shù)為16,即每個采樣點為16bit。
文選取μ=0.9375。 (四) 端點檢測 語音信號的端點檢測是語音處理中常常涉及的問題。實驗表明,準(zhǔn)確地檢測出語音
信號的端點不但可以減少后續(xù)處理的計算量,而且一定程度上影響整個系統(tǒng)的性能。目 前常用的端點檢測方法是基于短時能量和短時平均過零率的檢測方法(也稱作雙門限比 較法)。
歡迎光臨 (http://www.torrancerestoration.com/bbs/) | Powered by Discuz! X3.1 |