&

前言：一篇好文章的誕生，需要你不斷地搜集資料、整理思路，本站小編為你收集了豐富的語音識別主題范文，僅供參考，歡迎閱讀并收藏。

第1篇：語音識別范文

【關(guān)鍵詞】語言識別；隱含馬爾可夫模型

一、語言的實質(zhì)

人們平時在說話時，腦子是一個信息源；人們的喉嚨（聲帶），空氣，就是如電線和光纜般的信道；聽眾耳朵的就是接收端（信宿），而聽到的聲音就是傳送過來的信號；語言在這一過程中充當(dāng)信息載體的角色，即消息。這就是人類通過語言交流的實質(zhì)。

二、語音識別

語音識別是指從語音到文本的轉(zhuǎn)換，即讓計算機能夠把人發(fā)出的有意義的話音變成書面子語言。通俗地說就是讓機器能夠聽懂人說的話。所謂聽懂，有兩層意思，一是指把用戶所說的話逐詞逐句轉(zhuǎn)換成文本；二是指正確理解語音中所包含的要求，作出正確的應(yīng)答。

三、HMM原理

隱馬爾可夫模型（HMM）可以用五個元素來描述，包括2個狀態(tài)集合和3個概率矩陣：

1.隱含狀態(tài)S

是馬爾可夫模型中實際所隱含的狀態(tài)，這些狀態(tài)之間滿足馬爾可夫性質(zhì)。這些狀態(tài)通常無法通過直接觀測而得到。

2.可觀測狀態(tài)O

在模型中與隱含狀態(tài)相關(guān)聯(lián)，可通過直接觀測而得到，可觀測狀態(tài)的數(shù)目不一定要和隱含狀態(tài)的數(shù)目一致。

3.初始狀態(tài)概率矩陣π

表示隱含狀態(tài)在初始時刻t=1的概率矩陣，（例如t=1時，P（S1）=p1、P（S2）=P2、P（S3）=p3，則初始狀態(tài)概率矩陣 π=[p1 p2 p3].

4.隱含狀態(tài)轉(zhuǎn)移概率矩陣A。

描述了HMM模型中各個狀態(tài)之間的轉(zhuǎn)移概率。其中Aij = P（ Sj | Si ），1≤i，，j≤N.

表示在 t 時刻、狀態(tài)為 Si 的條件下，在 t+1 時刻狀態(tài)是 Sj 的概率。

5.觀測狀態(tài)轉(zhuǎn)移概率矩陣 B

令N代表隱含狀態(tài)數(shù)目，M代表可觀測狀態(tài)數(shù)目，則：

Bij=P（Oi | Sj）， 1≤i≤M，1≤j≤N.

表示在 t 時刻、隱含狀態(tài)是 Sj 條件下，觀察狀態(tài)為Oi的概率。

總結(jié)：一般的，可以用λ=（A，B，π）三元組來簡潔的表示一個隱馬爾可夫模型。隱馬爾可夫模型實際上是標(biāo)準(zhǔn)馬爾可夫模型的擴展，添加了可觀測狀態(tài)集合和這些狀態(tài)與隱含狀態(tài)之間的概率關(guān)系。

當(dāng)人們觀測到語音信號o1，o2，o3時，要根據(jù)這組信號推測出發(fā)送的句子s1，s2，s3。顯然，人們應(yīng)該在所有可能的句子中找最有可能性的一個。用數(shù)學(xué)語言來描述，就是在已知o1，o2，o3，...的情況下，求使得條件概率：

P（s1，s2，s3，...|o1，o2，o3....）達(dá)到最大值的那個句子s1，s2，s3，...。例如，當(dāng)人們聽見（ni shi shui a），按經(jīng)驗、語言環(huán)境就能判斷出對方所說的是“你是誰啊”的概率最大，而不是其他的句子。

四、HMM基本步驟

對HMM來說，有如下三個重要假設(shè)，盡管這些假設(shè)是不現(xiàn)實的。

假設(shè)1：馬爾可夫假設(shè)（狀態(tài)構(gòu)成一階馬爾可夫鏈）

P（Xi | Xi-1…X1）=P（Xi | Xi-1）

假設(shè)2：不動性假設(shè)（狀態(tài)與具體時間無關(guān)）

P（Xi+1 | Xi）=P（Xj+1 | Xj），？坌i，j

假設(shè)3：輸出獨立性假設(shè)（輸出僅與當(dāng)前狀態(tài)有關(guān)）

P（O1，…，OT | X1，…，XT）=？裝P（Ot | Xt）

隱藏的狀態(tài)和可觀察到的狀態(tài)之間有一種概率上的關(guān)系，也就是說某種隱藏狀態(tài)H被認(rèn)為是某個可以觀察的狀態(tài)O1是有概率的，假設(shè)為 P（O1 | H）。如果可以觀察的狀態(tài)有3種，那么很顯然 P（O1 | H）+P（O2 | H）+ P（O3 | H）=1。

這樣，我們也可以得到一個另一個矩陣，稱為混淆矩陣（confusion matrix）。這個矩陣的內(nèi)容是某個隱藏的狀態(tài)被分別觀察成幾種不同的可以觀察的狀態(tài)的概率。

下圖明確的表示出模型的演化，其中綠色的圓圈表示隱藏狀態(tài)，紫色圓圈表示可觀察到狀態(tài)，箭頭表示狀態(tài)之間的依存概率，一個HMM可用一個5元組{N，M，π，A，B}表示，其中N表示隱藏狀態(tài)的數(shù)量，我們要么知道確切的值，要么猜測該值，M表示可觀測狀態(tài)的數(shù)量，可以通過訓(xùn)練集獲得，π={πi}為初始狀態(tài)概率，A={aij}為隱藏狀態(tài)的轉(zhuǎn)移矩陣Pr（xt（i） | xt-1（j）），B={bik}表示某個時刻因隱藏狀態(tài)而可觀察的狀態(tài)的概率，即混淆矩陣，Pr（ot（i） | xt（j））。在釤轉(zhuǎn)移矩陣和混淆矩陣中的每個概率都是時間無關(guān)的，即當(dāng)系統(tǒng)演化時，這些矩陣并不隨時間改變。對于一個N和M固定的HMM來說，用λ={π，A，B}表示HMM參數(shù)。

在正常的馬爾可夫模型中，狀態(tài)對于觀察者來說是直接可見的。這樣狀態(tài)的轉(zhuǎn)換概率便是全部的參數(shù)。而在隱馬爾可夫模型中，狀態(tài)并不是直接可見的，但受狀態(tài)影響的某些變量則是可見的。每一個狀態(tài)在可能輸出的符號上都有一概率分布。因此輸出符號的序列能夠透露出狀態(tài)序列的一些信息。

五、向前向后算法

下面介紹前向后向算法的參數(shù)學(xué)習(xí)過程，在學(xué)習(xí)的過程中，不斷更新HMM的參數(shù)，從而使得P（O | λ）最大。我們假設(shè)初始的 HMM 參數(shù)為λ={π，A，B}，首先計算前向變量？琢和后向變量？茁，再根據(jù)剛剛介紹的公式計算期望？孜和ζ，最后，根據(jù)下面的3個重估計公式更新HMM參數(shù)。

參考文獻(xiàn)：

第2篇：語音識別范文

關(guān)鍵詞：語音識別；語音截止頻率；最大似然線性回歸；模型自適應(yīng)

1 引言

在實際應(yīng)用場合，語音識別系統(tǒng)往往會受到說話人的改變、信道失真、環(huán)境噪聲等各種語音變異性的干擾，從而導(dǎo)致預(yù)先訓(xùn)練的聲學(xué)模型與實際環(huán)境下提取的聲學(xué)特征之間存在較大的差異。因而需要對聲學(xué)模型或聲學(xué)特征進行補償，減小環(huán)境失配的影響，提高語音識別系統(tǒng)在實際環(huán)境下的識別性能。

模型自適應(yīng)是一種減小環(huán)境失配的有效方法，它通過測試環(huán)境下的自適應(yīng)數(shù)據(jù)調(diào)整預(yù)先訓(xùn)練的聲學(xué)模型的參數(shù)，使之與當(dāng)前環(huán)境相匹配。一般來說，聲學(xué)模型包含較多的參數(shù)，如果每個參數(shù)都獨立更新，則需要大量的自適應(yīng)數(shù)據(jù)，這在實際應(yīng)用中很難做到。因此，通常假設(shè)聲學(xué)模型的若干個高斯單元共享同一個環(huán)境變換關(guān)系，將這些高斯單元的自適應(yīng)數(shù)據(jù)合并，估計同一組變換參數(shù)。最大似然線性變換[1]（MLLR： Maximum Likelihood Linear Regression）是一種常用的模型自適應(yīng)算法，它假設(shè)測試環(huán)境聲學(xué)模型與訓(xùn)練環(huán)境聲學(xué)模型之間符合仿射變換關(guān)系，只需要通過仿射變換將訓(xùn)練環(huán)境聲學(xué)模型每個高斯單元的均值和方差變換到測試環(huán)境，即可得到測試環(huán)境聲學(xué)模型。

在諧波噪聲模型中，語音可以分解為一系列正弦諧波與噪聲的疊加。在大部分語音幀中，諧波僅僅分布在頻譜的低頻段，因此可以將語音的頻譜劃分為兩個不同的部分：低頻諧波部分和高頻非周期部分，這兩個部分的分界頻率就稱為語音截止頻率。確定語音截止頻率的主要方法有分析綜合法、譜域方法和時域方法[2]。在大多數(shù)應(yīng)用場合下，背景噪聲是寬帶的，它會同時影響語音的低頻段和高頻段。但在低頻諧波部分，語音的能量一般遠(yuǎn)大于該頻段的噪聲能量，噪聲的影響較小；而在高頻非周期部分，語音的能量很小，更易受噪聲影響，通常會被噪聲覆蓋。因而可以認(rèn)為含噪語音的低頻段是有用的語音諧波，而高頻段主要是噪聲信息。這樣，在語音識別中，根據(jù)環(huán)境噪聲的類型和信噪比，估計當(dāng)前環(huán)境下的語音截止頻率，僅用語音的低頻諧波部分構(gòu)建聲學(xué)特征，可以得到更好的識別效果。

文章提出了一種基于語音截止頻率的最大似然線性回歸算法。在該算法中，首先從測試環(huán)境下的少量自適應(yīng)數(shù)據(jù)中提取當(dāng)前測試環(huán)境的語音截止頻率，并用其作為頻率上限，提取語音的特征參數(shù)；然后，將聲學(xué)模型每個高斯單元的均值向量和協(xié)方差矩陣從倒譜域變換到對數(shù)譜域，根據(jù)語音截止頻率，忽略高頻分量，再變換回倒譜域；最后，根據(jù)測試環(huán)境下的少量自適應(yīng)數(shù)據(jù)，利用MLLR算法對聲學(xué)模型的參數(shù)進行調(diào)整，使其與當(dāng)前環(huán)境相匹配。

2 基于語音截止頻率的最大似然線性回歸算法

2.1 訓(xùn)練過程

在訓(xùn)練階段，首先用Mel濾波器組將語音的有效頻譜劃分為N個Mel頻帶，設(shè)第i個Mel頻帶的上限頻率為fi，這N個上限頻率即為語音截止頻率的取值范圍。然后，為每個語音單元的發(fā)音樣本提取倒譜特征參數(shù)，訓(xùn)練生成該語音單元的聲學(xué)模型。在語音識別中，聲學(xué)模型一般為隱馬爾可夫模型（HMM： Hidden Markov Model），其每個狀態(tài)的概率密度函數(shù)用一個高斯混和模型（GMM： Gaussian Mixture Model）來描述。這些預(yù)先訓(xùn)練得到的聲學(xué)模型可能與實際應(yīng)用環(huán)境并不匹配，因此在測試階段需要對其參數(shù)進行調(diào)整后，才能用于語音識別。

2.2 測試過程

2.2.1 確定語音截止頻率

用譜域方法從測試環(huán)境下的少量自適應(yīng)數(shù)據(jù)中提取測試語音頻譜的截止頻率，并將其映射到Mel頻帶的上限頻率fi上，用與其最接近的Mel頻帶上限頻率作為當(dāng)前測試環(huán)境的語音截止頻率。

2.2.2 特征提取

用當(dāng)前測試環(huán)境的語音截止頻率作為頻率上限，提取測試語音的倒譜特征參數(shù)，即只保留截止頻率以下的Mel頻帶，忽略其以上的Mel頻帶。特征提取的步驟包括：聲學(xué)預(yù)處理、快速傅里葉變換、Mel濾波、取對數(shù)、離散余弦變換和時域差分。

2.2.3 高斯降維

因為在特征提取中根據(jù)語音截止頻率對語音的特征參數(shù)進行了降維，為了與特征參數(shù)一致，聲學(xué)模型每個高斯單元的均值向量與協(xié)方差矩陣也必須降維。將每個語音單元聲學(xué)模型的均值向量和協(xié)方差矩陣從倒譜域變換到對數(shù)譜域，根據(jù)語音截止頻率，忽略均值和方差的高頻Mel分量，再變換回倒譜域，即可得到與測試環(huán)境特征參數(shù)的頻率范圍一致的聲學(xué)模型。

2.2.4 模型變換

由于背景噪聲、信道失真、說話人的改變等各種因素的影響，高斯降維后的聲學(xué)模型可能與實際測試環(huán)境并不匹配，甚至相差很遠(yuǎn)。為了減小環(huán)境失配的影響，需要對聲學(xué)模型的參數(shù)進一步調(diào)整。首先通過聚類算法將聲學(xué)模型的高斯單元劃分為若干類，假設(shè)每一類的全部高斯單元符合同一個仿射變換關(guān)系。然后，將每一類全部高斯單元的自適應(yīng)數(shù)據(jù)合并，根據(jù)最大似然準(zhǔn)則估計該類仿射變換的參數(shù)。得到變換參數(shù)后，對聲學(xué)模型各類高斯單元的均值向量和協(xié)方差矩陣進行變換，即可得到測試環(huán)境聲學(xué)模型。測試環(huán)境聲學(xué)模型的狀態(tài)初始概率分布、狀態(tài)轉(zhuǎn)移概率矩陣和高斯混和系數(shù)與訓(xùn)練環(huán)境聲學(xué)模型一致。

2.2.5 語音識別

得到測試環(huán)境聲學(xué)模型后，即可對當(dāng)前測試環(huán)境下提取的特征參數(shù)進行聲學(xué)解碼，得到識別結(jié)果。

3 結(jié)束語

語音識別系統(tǒng)在實際應(yīng)用中不可避免地要受到背景噪聲的干擾，而噪聲主要影響語音的高頻非周期部分，因此在噪聲環(huán)境下僅用語音頻譜的低頻諧波部分進行語音識別可以取得更好的識別效果。文章將語音截止頻率用于聲學(xué)模型的參數(shù)自適應(yīng)，提出了一種基于語音截止頻率的最大似然線性回歸算法，從測試環(huán)境下的少量自適應(yīng)數(shù)據(jù)中提取當(dāng)前測試環(huán)境的語音截止頻率，提取測試語音的特征參數(shù)，并將聲學(xué)模型每個高斯單元的均值和方差從倒譜域變換到對數(shù)譜域，根據(jù)語音截止頻率忽略其高頻分量，再變換回倒譜域，然后利用MLLR算法對聲學(xué)模型的參數(shù)進一步調(diào)整，得到測試環(huán)境聲學(xué)模型。基于語音截止頻率的最大似然線性回歸算法優(yōu)于傳統(tǒng)的MLLR算法，在噪聲補償中具有更好的魯棒性。

參考文獻(xiàn)

第3篇：語音識別范文

關(guān)鍵詞：語音識別；DHMM；Viterbi；嵌入式系統(tǒng)；ARM

中圖分類號：TP399 文獻(xiàn)標(biāo)識碼：A文章編號：1006-4311（2012）04-0126-020引言

隨著計算機技術(shù)的飛速發(fā)展，各種各樣的應(yīng)用層出不窮，其中使用語音與計算機程序進行交互成為了最近熱門的研究方向。語音作為人類與計算機之間無形的連接方式，可以使人們方便、快捷地控制和使用計算機。語音識別技術(shù)是能夠讓原來非智能的計算設(shè)備理解人類思想的高科技技術(shù)，融合了信號處理、人工智能以及自動化等多學(xué)科、多領(lǐng)域的研究成果，是目前實現(xiàn)人工智慧的主要途徑之一。

根據(jù)不同的分類標(biāo)準(zhǔn)，語音識別可分為不同的種類，例如依據(jù)識別對象的不同，可分為特定人語音識別及非特定人語音識別；又根據(jù)人類的講話方式可分為孤立詞識別、連接詞識別以及連續(xù)語音識別。不同的識別系統(tǒng)雖然在語音識別過程中步驟相似，但根據(jù)不同系統(tǒng)的需求及特點其實現(xiàn)方式及具體細(xì)節(jié)是不同的[1]。

嵌入式技術(shù)的迅猛進步，使得語音識別技術(shù)的應(yīng)用更加廣泛，不再局限于實驗室以及大型場合；其已經(jīng)被嵌入各種移動設(shè)備，為人們對移動設(shè)備的操作方式提供了一種嶄新途徑和使用體驗。本文就針對移動設(shè)備的特點，設(shè)計了一種面向非特定人的孤立詞語音識別系統(tǒng)。

1語音識別的工作原理

原始的自然語音信號中不僅含有人體自身的聲音信號，同樣也包含了大量的雜音、噪聲等混雜在一起的隨機干擾信號，尤其作為移動、嵌入式設(shè)備被使用者隨身攜帶使用，會有更多的環(huán)境噪聲信號。針對大量噪聲的數(shù)據(jù)計算以及嵌入式設(shè)備有限的計算資源，為保證系統(tǒng)的對自然語言的正確識別率，并且有效減少處理原始語音信號的大量數(shù)據(jù)密集計算，有必要研究語音信號的預(yù)處理技術(shù)，以期高效提取語音特征參數(shù)，并選取合適的壓縮算法進行語音數(shù)據(jù)壓縮，之后再進行語音的模式匹配[2]。

如圖1所示，人本身的語音信號從語音錄入設(shè)備進入后，將進行預(yù)處理、端點檢測、特征提取，轉(zhuǎn)換為可以對比的信號參數(shù)，然后將特征參數(shù)通過選取的特征匹配方法與參考樣例庫中的模板樣例進行語言匹配，選擇符合度最大的語言樣例進行相應(yīng)處理，得出識別結(jié)果。

2系統(tǒng)硬件設(shè)計

系統(tǒng)的硬件結(jié)構(gòu)示意圖如圖2所示。

系統(tǒng)的處理核心采用了韓國三星公司的一款基于ARM 920T內(nèi)核的S3C2440微處理器；此款處理器中的CMOS宏單元和存儲單元采用了0.18um電子工藝，內(nèi)部總線采用Advanced Microcontroller Bus Architecture（AMBA）新型總線結(jié)構(gòu)，具備出色的全靜態(tài)設(shè)計，利用了多項低功耗技術(shù)，系統(tǒng)架構(gòu)精簡，特別為價格和功耗敏感的應(yīng)用而精心打造。除此之外，它特別為各種外設(shè)準(zhǔn)備了豐富的中斷處理資源，包括總計共有60個中斷源（其中包括5個定時器硬中斷，9個串口中斷，24個外部中斷，1個看門狗定時器，4個DMA，2個ADC，1個LCD，1個電池故障，1個IIC，2個SPI，1個SDI，2個USB，1個NAND FLASH口，2個視頻口和1個AC97音頻口），這些中斷既可以使用電平/邊沿觸發(fā)模式進行外部中斷的觸發(fā)，也可以使用軟件編程的方式改變邊沿/電平觸發(fā)極性，能夠為緊急中斷請求提供快速中斷（FIQ）服務(wù)[3]。

系統(tǒng)工作時，人的語音信號經(jīng)過MIC輸入，并通過濾波、去噪等操作后，在S3C2440上執(zhí)行語音特征提取、語音模式匹配算法，最終輸出結(jié)果；系統(tǒng)中的USB接口可以方便系統(tǒng)外擴各種標(biāo)準(zhǔn)USB外設(shè)，以便使用語音識別結(jié)果進行各種設(shè)備控制。

3系統(tǒng)軟件設(shè)計

3.1 Linux內(nèi)核移植移植Linux內(nèi)核一般分為幾個固定的步驟，目前較為流行快速開發(fā)方法通常先在內(nèi)核的處理器架構(gòu)目錄下，選擇與目標(biāo)開發(fā)板硬件結(jié)構(gòu)最接近的并且各種配置較為完善的開發(fā)板目錄作為移植模板。接著針對本開發(fā)板與目標(biāo)開發(fā)板的硬件具體差別，進行對應(yīng)的修改或使用前人的移植補丁進行升級。針對本開發(fā)板，我們使用了穩(wěn)定的Linux-2.6.15內(nèi)核進行移植，考慮到本系統(tǒng)的具體硬件配置，最后選擇了SMDK2440開發(fā)板模板作為移植的目標(biāo)開發(fā)板模板。在編譯和配置內(nèi)核前，建議使用menuconfig或其它配置工具對內(nèi)核進行適當(dāng)?shù)牟眉簦€可以進一步編寫配置腳本。嵌入式Linux內(nèi)核的裁減類似于PC上Linux內(nèi)核的裁減，主要的工作是根據(jù)硬件和系統(tǒng)需求增添需要支持的模塊，并除去無用的功能模塊，以使Linux內(nèi)核與目標(biāo)硬件系統(tǒng)緊密相依，但要注意嵌入式Linux內(nèi)核的特征是小、精、有效。內(nèi)核的編譯則通常是通過修改根目錄以及其它子目錄下的Makefile，以及在預(yù)編譯前設(shè)置編譯參數(shù)值時進行選定，或是使用編譯工具[4]。

最后，使用make工具生成U-boot可以識別的uImage引導(dǎo)程序鏡像文件。uImage鏡像文件通過U-Boot引導(dǎo)程序從FLASH中取出并解壓縮，裝入內(nèi)存后，Linux內(nèi)核便取得系統(tǒng)控制權(quán)。

Linux內(nèi)核移植的整個過程如圖3所示。

3.2 系統(tǒng)軟件設(shè)計整個系統(tǒng)軟件結(jié)構(gòu)如圖4所示。面向終端用戶的軟件形勢分為兩種：web插件和普通的軟件界面；web插件可以使用在瀏覽器中，方面用戶控制網(wǎng)頁瀏覽。下面是命令解析層Command layer，負(fù)責(zé)解釋兩種界面發(fā)送的命令，調(diào)用相應(yīng)的程序接口并返回執(zhí)行后的結(jié)果。功能模塊Function modules主要封裝軟件API，負(fù)責(zé)提供各種常用的功能服務(wù)。控制模塊Control modules負(fù)責(zé)管理和控制語音識別引擎，建立語音樣例庫以及調(diào)整語音設(shè)備引擎的內(nèi)部參數(shù)，將來還可以加入新的語音模式匹配算法。再下面一層是統(tǒng)一APIs層，主要對核心語音識別引擎進行簡單的API封裝，同時預(yù)留了將來要擴展的功能接口，以便后續(xù)的功能升級和代碼維護；最下面的就是核心語音識別引擎，主要提供模式匹配算法以及對底層系統(tǒng)級的控制功能。

3.3 語音識別算法本語音識別系統(tǒng)的識別任務(wù)主要為針對設(shè)備持有者的小詞匯量孤立詞的語音識別，功能較為簡單，需要使用者進行一定量的訓(xùn)練后，系統(tǒng)對應(yīng)建立語音樣例庫，然后針對每次的聲音進行模式匹配即可，所以算法的重點在于模式匹配算法。綜合計算性能需要、存儲資源消耗以及價格成本考慮，目前流行的DHMM語言識別模型對本系統(tǒng)較為合適。DHMM模型是一種隨機統(tǒng)計過程，通過大量的模板訓(xùn)練過程提取語音特征，可滿足語音實時變化且識別實時性要求較高的應(yīng)用場合。

本系統(tǒng)采用了當(dāng)前性價比較高的Viterbi算法實現(xiàn)DHMM模型。Viterbi算法可以由如下公式描述[5]：

?啄t（i）=■p（s1，s2，…，st=si，O1，O2，…，Ot｜?姿）

其中，?啄t（i）為被識別語音序列t時刻的最大概率密度；其中t時刻前經(jīng)過的語音狀態(tài)序列為s1，s2，...st，且t時刻狀態(tài)為si，對應(yīng)輸出觀察符序列為O1，O2，...Ot。

4結(jié)束語

人類與計算機之間的交流的方式經(jīng)過了按鍵輸入、鍵盤輸入、手寫輸入以及觸摸輸入的階段，但這已經(jīng)不能滿足人們對于便捷、快速輸入的更高需求，而語音識別技術(shù)的發(fā)展和應(yīng)用，使得人們看到了計算機輸入的未來趨勢。相信隨著電子技術(shù)和信號處理技術(shù)的進一步提高，語音輸入將會廣泛應(yīng)用于各種計算機以及嵌入式設(shè)備中。

參考文獻(xiàn)：

[1]馬莉，黨幼云.特定人孤立詞語音識別系統(tǒng)的仿真與分析[J].西安工程科技學(xué)院學(xué)報，2007，（03）.

[2]邢銘生，朱浩，王宏斌.語音識別技術(shù)綜述[J].科協(xié)論壇（下半月），2010，（03）.

[3]涂剛，陽富民等.嵌入式操作系統(tǒng)綜述[J].計算機應(yīng)用研究，2000，17（11）：4-6.

第4篇：語音識別范文

關(guān)鍵詞：嵌入式系統(tǒng)；語音識別；隱馬爾可夫；智能家居

中圖分類號：TP316.9

文獻(xiàn)標(biāo)識碼：A

DOI：10.3969/j.issn.1003-6970.2015.07.021

0 引言

隨著計算機的發(fā)展，智能家居在近幾年也得到了大家的重視，智能家居利用各種通信、網(wǎng)絡(luò)技術(shù)實現(xiàn)家居設(shè)備集成，為用戶提供了更加舒適高效的環(huán)境。近幾年人們對智能家居的便利程度提出了更高的要求，同時語音識別技術(shù)也進一步的發(fā)展，但是語音在智能家居中的應(yīng)用還是相對較少，一般還要依靠遙控、手機等中控設(shè)備。語言是信息交流的重要手段，語音識別可以用聲音來控制設(shè)備完成一些特定的命令，減少用戶如手機，遙控等中控設(shè)備的依賴，使生活更加方便。

本文通過對語音識別技術(shù)與嵌入式控制技術(shù)的研究，用語音命令實現(xiàn)直接管控從而可以取代以往利用手機或者遙控方式來控制的方法，方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語音芯片VS1003實現(xiàn)語音采集，并采用當(dāng)今語音識別領(lǐng)域的主流技術(shù)一一隱馬爾科夫模型（Hidden Markov Model，HMM）算法實現(xiàn)對人語音命令的識別主要是進行模型訓(xùn)練和匹配。實驗證明在多個語音樣本對系統(tǒng)的訓(xùn)練識別下，系統(tǒng)在非特定人、孤立詞語識別上具有良好的效果。

1 語音識別與智能家居

1.1 語音識別技術(shù)

語音識別技術(shù)本質(zhì)上是一種模式匹配識別的過程，是機器通過識別和理解過程把語音信號轉(zhuǎn)變成相應(yīng)的文本文件或命令的技術(shù)。根據(jù)模式匹配過程語音識別系統(tǒng)可以如下圖表示。語音識別系統(tǒng)可以分為：特定人和非特定人的識別、獨立詞和連續(xù)詞的識別等，無論哪種識別系統(tǒng)識別過程都主要包括了語音信號預(yù)處理、特征提取、訓(xùn)練等。分別通過對信號的預(yù)處理分析和計算建立模板，當(dāng)對語音進行識別時，需要將輸入的語音與系統(tǒng)中存放的語音進行比較從而得到識別結(jié)果。

1.2 語音識別算法

人的言語過程是一個雙重隨機過程。因為語音信號本身是一個可觀察的序列，而它又是由大腦里的不可觀察的、根據(jù)言語需要和語法知識狀態(tài)選擇所發(fā)出的音素（詞、句）的參數(shù)流，大量實驗表明，隱馬爾可夫模型（HMM）的確可以非常精確地描述語音信號的產(chǎn)生過程。隱馬爾可夫模型是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型，將之看作一個數(shù)學(xué)上的雙重隨機過程，采用HMM進行語音識別，實質(zhì)上是一種概率運算，根據(jù)訓(xùn)練集數(shù)據(jù)計算得出模型參數(shù)后，測試集數(shù)據(jù)只需分別計算各模型的條件概率（Viterbi算法），取此概率最大者即為識別結(jié)果。一階離散馬爾可夫模型可表示為：有N個狀態(tài)，Sl，S2... SN，存在一個離散的時間序列t=0，t=1…在每個時刻t，系統(tǒng)只能處于唯一一個狀態(tài)qt，下一個時刻所處的狀態(tài)是隨機出現(xiàn)的，當(dāng)前狀態(tài)qt只與前面相鄰的一個狀態(tài)qt-l有關(guān)，與其他狀態(tài)無關(guān)，用表達(dá)式

HMM語音識別的一般過程：

1.前向后向算法計算

已知觀測序列和模型，如何有效的計算在給定模型條件下產(chǎn)生觀測序列O的概率

2.Baum-Welch算法求出最優(yōu)解：

（1）初始化

（2）迭代計算

（3）最后計算

3.Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列：

已知觀測序列和模型，如何選擇在某種意義上最佳的狀態(tài)序列。

（1）初始化

（2）迭代計算：

4.根據(jù)最佳狀態(tài)序列對應(yīng)的九給出候選音節(jié)或聲韻母

5.通過語言模型形成詞和句子

2 基于NL6621嵌入式硬件設(shè)計

語音識別的硬件平臺主要包括中央處理器NL6621，可讀寫存儲器，聲卡芯片vs1003以及一些設(shè)備，硬件體系結(jié)構(gòu)如圖2所示。

主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz，支持802.llb/g/n/i/e/p和Wi-Fidirect，BSS STA，軟AP，WiFi保護設(shè)置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003，它與核心控制器NL6621的數(shù)據(jù)通信是通過SPI總線方式進行的。它集成了麥克風(fēng)輸入接口，音頻輸出接口，對話筒輸入或者線路輸入進行IMA ADPCM編碼，能有效的接受和播放音頻信息。

硬件電路實現(xiàn)：VS1003通過xCS、xDCS引腳的置高或低來確認(rèn)是哪一個接口處于傳送狀態(tài)。通過串行命令接口（SCI）和串行數(shù)據(jù)接口（SDI）來接收NL6621的控制命令和數(shù)據(jù)，通過SCI HDAT1來獲取語音流；VS1003的功能控制，如初始化、軟復(fù)位、暫停、音量控制、播放時間的讀取等，均是通過SCI口寫入特定寄存器實現(xiàn)的。兩條SCI指令之間要通過DREQ引腳信號判斷上一次處理是否完成。

3 基于NL6621嵌入式軟件設(shè)計

軟件設(shè)計主要包括兩部分實現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術(shù)的語音識別算法編寫，基本的軟件架構(gòu)如圖3所示。

針對嵌入式系統(tǒng)控制部分，包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發(fā)包，利用SDK編寫應(yīng)用程序，包括硬件管腳初始化，波特率匹配，錄音文件配置，WiFi配置，錄音，音頻文件格式轉(zhuǎn)化、程序編寫完成后需要用燒寫工具進行燒寫。系統(tǒng)啟動后，先初始化硬件模塊。然后系統(tǒng)開始工作，通過語音輸入設(shè)備MIC采集語音，并通過聲卡VS1003輸入語音。當(dāng)系統(tǒng)監(jiān)聽到語音輸入，開始語音識別，判斷識別是否正確，若正確，將命令發(fā)送給執(zhí)行設(shè)備，入耳不正確，給出相應(yīng)

的錯誤提示，不執(zhí)行語音命令。判斷識別是否結(jié)束，如果結(jié)束則退出，否則繼續(xù)下一輪的識別。基于HMM技術(shù)的語音識別算法編寫，還包括了語音預(yù)處理，特征值提取和匹配識別的部分。主要的原理如圖4所示，輸入語音經(jīng)過預(yù)處理后，語音信號的特征被提取出來，首先在此基礎(chǔ)上建立所需的模板，這個建立模板的過程稱為訓(xùn)練過程。根據(jù)語音識別整體模型，將輸入的語音信號特征與存在的語音模板（參考模式）進行比較，找出一系列最優(yōu)的與輸入的語音相匹配的模板。然后，根據(jù)此模板號的定義，通過查表就可以給出計算機的識別結(jié)果。采用HMM進行語音識別，實質(zhì)上是一種概率運算。根據(jù)訓(xùn)練集數(shù)據(jù)計算得出模型參數(shù)后，測試集數(shù)據(jù)只需分別計算各模型的條件概率（Viterbi算法），取此概率最大者即為識別結(jié)果。除訓(xùn)練時需運算量較大外，識別時的運算量僅有模式匹配法的幾分之一。

第5篇：語音識別范文

【關(guān)鍵詞】語音識別；簡單模板匹配；預(yù)處理；特征提取

1 語音識別技術(shù)原理

語音識別是為了讓機器“懂”我們的語言，準(zhǔn)確無誤地識別出我們發(fā)出語音內(nèi)容，并且做出符合語音內(nèi)容的一系列動作，執(zhí)行我們的意圖。分析人類語言交流通信的過程，可以啟發(fā)我們的研究思路。對人類語音通信流程[1-2]分析如圖1。

由人類語音通信流程框圖可以看出，人類發(fā)出語音過程如圖左半部分，語音理解過程如圖右半部分。語音識別包括兩種含義，一是：將人類說的話轉(zhuǎn)換成文字，二是：在充分理解口述語音的基礎(chǔ)上，不僅僅是將語音轉(zhuǎn)換為文字信息，而且對語音內(nèi)容也要作出正確響應(yīng)[3]。在此，本文認(rèn)為語音識別和語音理解意義等同，所以可用圖1右側(cè)部分流程可將語音識別過程。

目前語音識別技術(shù)應(yīng)用中大部分都是小詞匯量，詞語間相互獨立基于簡單模板匹配工作原理的識別模式。針對這種典型的語音識別模式，原理流程路線圖[4]如圖2所示：

1.1 基于發(fā)音模型的語音信號產(chǎn)生模型

語音信號的產(chǎn)生是語音識別技術(shù)的基石，在語音信號處理的大部分過程中對語音信號產(chǎn)生模型有很強的依賴性。本文研究過程中，首先對人類發(fā)音過程進行了解：人類發(fā)音流程是首先肺部收縮，迫使氣流通過聲門和聲道引起音頻震蕩產(chǎn)生[3]。根據(jù)人的聲道三種不同激勵方式，分別對應(yīng)產(chǎn)生了三種被大家熟知的發(fā)音類型，分別是濁音，摩擦音或清音，爆破音。

語音信號可看做由線性系統(tǒng)受到激勵信號的激勵輸出產(chǎn)生。如圖3是基于發(fā)音模型的語音信號產(chǎn)生模型流程圖：

如圖3建立的語音信號產(chǎn)生模型中認(rèn)為濁音是周期為N0的沖激信號，且N0=fs/F0（其中F0是基音頻率，fs是采樣頻率）。清音認(rèn)為是一個均值為0，幅值是正態(tài)分布的波形信號。參數(shù)Av，Au分別用來調(diào)節(jié)濁音和清音的幅值。

從已有語音識別技術(shù)研究結(jié)果可知，窗函數(shù)類型眾多，使用不同形式的窗函數(shù)對短時分析處理語音信號結(jié)果有很大的影響。已知目前應(yīng)用最廣泛的窗函數(shù)是漢明窗，結(jié)合仿真實驗分析可以看出：高斯窗函數(shù)的橫向主瓣寬度最小，但其縱向旁瓣高度最高；漢明窗函數(shù)的橫向主瓣寬度最寬，縱向旁瓣高度是三種窗函數(shù)中最低的。

2.3 端點檢測

語音信號的起始點是語音信號處理的關(guān)鍵分界點，端點檢測的目的就是找到連續(xù)語音信號中的信號起始點。常用的端點檢測方法有兩種，分別是短時平均能量和短時過零率[6]。當(dāng)下流行的端點檢測方法是短時平均能量和短時過零率兩者的結(jié)合，稱這種方法為雙門限端點檢測算法[7]。

在實際問題中通常采用兩者結(jié)合解決問題。本文同樣是采用兩者結(jié)合的方法，利用短時過零率方法檢測語音信號波形穿越零電平的次數(shù)，既代表的是清音；用短時平均能量方法計算第y幀語音信號的短時平均能量E（y），既代表的是濁音，進而實現(xiàn)可靠的端點檢測。

3 特征提取

目前特征是語音信號預(yù)處理中的重要步驟。在實際特征提取中，較常采用的參數(shù)是線性預(yù)測倒譜系數(shù)（LPCC）和Mel倒譜系數(shù)（MFCC）。二者采用的均是時域轉(zhuǎn)換到倒譜域上，但是出發(fā)思路兩者不同。線性預(yù)測倒譜系數(shù)（LPCC）以人類發(fā)聲模型為基礎(chǔ)，采用線性預(yù)測編碼（LPC）技術(shù)求倒譜系數(shù)；Mel倒譜系數(shù)（MFCC）以人類聽覺模型為基礎(chǔ)，通過離散傅利葉變換（DFT）進行變換分析。

其中k表示第k個濾波器，Hm（k）表示第k個mel濾波器組，f（m）為中心頻率，m=1，2，…K，K表示濾波器個數(shù)。

經(jīng)過仿真實驗分析比較，可以分析得出Mel倒譜系數(shù)（MFCC）參數(shù)較線性預(yù)測倒譜系數(shù)（LPCC）參數(shù)的優(yōu)點，優(yōu)點如下：

（1）語音低頻信號是語音信息的聚集區(qū)，高頻信號相對低頻語音信號更容易受到周圍環(huán)境等的干擾。Mel倒譜系數(shù)（MFCC）將線性頻標(biāo)轉(zhuǎn)化為Mel頻標(biāo)，強調(diào)語音的低頻信息，從而突出了有利于識別的信息，屏蔽了噪聲的干擾[8]。LPCC參數(shù)是基于線性頻標(biāo)的，所以沒有這一特點；

（2）MFCC參數(shù)無任何假設(shè)前提，在各種語音信號預(yù)處理情況下均可使用，但是LPCC參數(shù)首先假定所處理的語音信號是AR信號，對于動態(tài)特性較強的輔音，這個假設(shè)并不嚴(yán)格成立[8]；

（3）MFCC參數(shù)提取過程中需要經(jīng)過FFT變換，我們可以順便獲得語音信號頻域上的全部信息，不需要多花費時間處理，有利于端點檢測、語音分段等算法實現(xiàn)[8]。

4 訓(xùn)練與識別

訓(xùn)練和識別是語音識別的中心內(nèi)容，有很多專家學(xué)者研究了一系列成果。語音識別實質(zhì)是模式匹配的過程，而對分類器和分類決策的設(shè)計[9]又是模式匹配的核心。在現(xiàn)有的分類器設(shè)計[10-11]中，經(jīng)常使用的有：動態(tài)時間規(guī)整（Dynamic Time Warping，DTW）分類器、基于人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks，ANN）分類器、基于高斯混合模型（GMM）分類器、基于Bayes規(guī)則的分類器、基于HMM分類器[12]等。

本文重點討論語音信號預(yù)處理中技術(shù)及實現(xiàn)，對訓(xùn)練和識別技術(shù)不再做研究描述。

【參考文獻(xiàn)】

[1]尹巖巖.基于語音識別與合成的低速率語音編碼研究[D].上海師范大學(xué)，2013.

[2]偉偉.通信系統(tǒng)中語音質(zhì)量評價的研究[D].北京郵電大學(xué)，2014.

[3]朱淑琴.語音識別系統(tǒng)關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué)，2004.

[4]王偉臻.基于神經(jīng)網(wǎng)絡(luò)的語音識別研究[D].浙江大學(xué)，2008.

[5]鐘林鵬.說話人識別系統(tǒng)中的語音信號處理技術(shù)研究[D].電子科技大學(xué)，2013.

[6]周剛，周萍，楊青.一種簡單的噪聲魯棒性語音端點檢測方法[J].測控技術(shù)，2015，（02）：31-34.

[7]薛勝堯.基于改進型雙門限語音端點檢測算法的研究[J].電子設(shè)計工程，2015，（04）：78-81.

[8]惠博.語音識別特征提取算法的研究及實現(xiàn)[D].西北大學(xué)，2008.

[9]張寧.基于決策樹分類器的遷移學(xué)習(xí)研究[D].西安電子科技大學(xué)，2014.

[10]汪云云.結(jié)合先驗知識的分類器設(shè)計研究[D].南京航空航天大學(xué)，2012.

第6篇：語音識別范文

關(guān)鍵詞：SAPI;C#;.NET;語音識別

1 引言

語音識別是信息處理領(lǐng)域的一個重要方向，語音識別通常又可以分為兩種工作方式：一種是連續(xù)語音聽寫，這種方式需要語音識別引擎對語音聽寫過程中上下文以及相同相似發(fā)音的詞語進行分析、做出判斷，實現(xiàn)難度較大。另一種是命令與控制方式（command and control），在此種方式下，語音識別引擎可以通過對簡短的命令語音進行識別，以便執(zhí)行相應(yīng)操作。

語音識別技術(shù)基礎(chǔ)是非常復(fù)雜的。正是如此，它獲得了世界上著名的公司與研究機構(gòu)的青睞，語音識別技術(shù)正經(jīng)歷著日新月異的改變，其中一些產(chǎn)品已經(jīng)取得較好的效果，用戶可以在上述產(chǎn)品基礎(chǔ)之上進行二次開發(fā)。

2開發(fā)圖片語音識別系統(tǒng)的條件

語音識別技術(shù)的發(fā)展涉及人機交互，自然語言處理，人工智能。這使開發(fā)人員難以從底層進行應(yīng)用開發(fā)，欣慰的是一些公司與研究機構(gòu)已經(jīng)推出他們的研究成果，并且提供了供開發(fā)人員使用的開發(fā)平臺與接口。其中影響比較大的有微軟的SAPI、劍橋大學(xué)的HTK，IBM的via voice開發(fā)平臺。本文采用微軟的Speech SDK5.1開發(fā)包，它不僅是一個免費的開發(fā)包，同時提供對中文的支持。

2.1微軟SAPI簡介

微軟的 Speech SDK是基于 C O M 的視窗操作系統(tǒng)開發(fā)工具包。這個 SDK中含有語音應(yīng)用程序接口( SAPI )、微軟連續(xù)語音識別引擎(MCSR)以及串聯(lián)語音合成(又稱文本到語音)引擎(TTS)等等。SAPI 中還包括對于低層控制和高度適應(yīng)性的直接語音管理、訓(xùn)練向?qū)А⑹录?語法、編譯、資源、語音識別管理以及文本到語音管理，其結(jié)構(gòu)如圖 l 所示。

圖1 SAPI結(jié)構(gòu)

SAPI API在應(yīng)用程序和語音引擎之間提供一個高級別的接口。SAPI實現(xiàn)了所有必需的對各種語音引擎的實時的控制和管理等低級別的細(xì)節(jié)。

SAPI引擎的兩個基本類型是文本語音轉(zhuǎn)換系統(tǒng)(TTS)和語音識別系統(tǒng)。TTS系統(tǒng)使用合成語音合成文本字符串和文件到聲音音頻流。語音識別技術(shù)轉(zhuǎn)換人類的聲音語音流到可讀的文本字符串或者文件。

2.2 在.net應(yīng)用程序中使用SAPI的準(zhǔn)備

安裝SAPI 5.1語音開發(fā)包。

由于SAPI基于Windows平臺，通過COM接口供.net平臺調(diào)用，所以具體調(diào)用方法為：新建工程，在此工程的解決方案中單擊右鍵，在添加/引用中選擇 Microsoft Speech Object Library，并在程序中添加對SAPI命名空間的引用：using SpeechLib。

3 系統(tǒng)模型設(shè)計及實現(xiàn)

3.1 創(chuàng)立系統(tǒng)界面

圖2 系統(tǒng)界面一覽

3.2 使用SAPI語音識別核心類

ISpRecognizer類是支持語音識別的核心類，主要用于訪問MCSR實現(xiàn)語音識別。在進行語音識別時，微軟Speech SDK 5.1 支持兩種模式的語音識別引擎：共享（Share）和獨享（InProc）。在本系統(tǒng)中，我們使用共享型語音識別引擎，CLSID_SpSharedRecognizer。

SpSharedRecoContext類是語音識別上下文接口，它可以發(fā)送與接收消息通知，通過CreateGrammar方法創(chuàng)建語法規(guī)則。通過對它的兩個事件：_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重寫，我們可以很輕松的得到當(dāng)前語音識別結(jié)果。第一個事件對應(yīng)的就是識別結(jié)果顯示：1、第二個事件對應(yīng)的就是識別結(jié)果顯示；2、ISpeechRecoGrammar類是語法規(guī)則接口，定義語音識別引擎需要是別的語音類容。起語法規(guī)則可以分為聽寫型與命令控制型。聽寫型可以識別大詞匯量語音，但是別效率與識別準(zhǔn)確率較低。命令控制型有針對性的對特定語音進行識別，在效率與準(zhǔn)確率上都非常高。

當(dāng)然一個ISpRecognizer不管是共享還是獨享，都可以有多個RecoContext與其關(guān)聯(lián)，而一個RecoContext也可以與多個ISpeechReco Grammar關(guān)聯(lián)，每個ISpeechRecoGramma r識別各自規(guī)定的內(nèi)容。

圖3 語音識別類對應(yīng)關(guān)系

3.3 編寫系統(tǒng)核心代碼

通過讀入外部Grammar配置語音識別引擎，外部Grammar文件以xml文件格式存儲。具體形式如下：

ManegePic.xml

玫瑰

大象

獅子

老虎

仙人掌

珠穆朗瑪峰

布達(dá)拉宮

貂蟬

十字軍

世界杯

阿里巴巴

乒乓球

五星紅旗

……

采用命令控制型Grammar是為了使語音識別結(jié)果準(zhǔn)確有效，定義外部Grammar是為了保持以后系統(tǒng)的可擴展性。對于新輸入的圖片，只要將圖片名字加入到圖片名字

中即可。

開始語音輸入事件：

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//讀入規(guī)則

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加識別最終事件

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加識別懷疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活規(guī)則

}

其中識別最終事件是系統(tǒng)在完整處理輸入音頻之后得到的最后識別結(jié)果，懷疑事件則是因為系統(tǒng)在處理過程中的最相似識別結(jié)果。這兩個事件在一些環(huán)境之下得到的識別結(jié)果不同。

識別懷疑事件：

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

將系統(tǒng)在處理過程中的最相似結(jié)果顯示在textBox控件之中。

識別最終事件：

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 將系統(tǒng)最終結(jié)果顯示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//顯示識別結(jié)果的圖片

}

Catch (Exception e)

{}

}

由于篇幅有限，這里僅僅給出了構(gòu)建語音識別引擎與圖片顯示部分的代碼。完整的系統(tǒng)可以在Windows XP + vs2008環(huán)境中調(diào)試通過，實現(xiàn)基于.net和SAPI的圖片語音識別系統(tǒng)。

4 結(jié)語

通過制作圖片語音識別系統(tǒng)，對利用SAPI進行語音識別有了初步的研究和實踐，該系統(tǒng)具有一定的擴展性，也可以作為子系統(tǒng)嵌入到其他系統(tǒng)之中。該系統(tǒng)的功能可以擴展到語音控制文件操作，比如打開/關(guān)閉文件，添加文件，可以制作一個不需要鍵盤鼠標(biāo)只利用語音就可進行操作的軟件系統(tǒng)。

參考文獻(xiàn)：

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

第7篇：語音識別范文

關(guān)鍵詞：語音識別；LD3320；STM32F407；W25Q128

隨著科技的發(fā)展，人們的操作模式從最初的按鍵操作到觸屏操作，再到現(xiàn)在的語音操作，其越來越便捷，越來越人性化。語音操作的基礎(chǔ)就是語音識別技術(shù)（Automatic Speech Recognition），簡稱ASR，其目標(biāo)就將人類語言轉(zhuǎn)換為計算機可讀的輸入。語音識別作為一門交叉學(xué)科，從產(chǎn)生到現(xiàn)在已取得了顯著的進步，現(xiàn)在已逐步走向市場，并且人們預(yù)計，語音識別技術(shù)在未來10年將會應(yīng)用于人們生活的各個領(lǐng)域。

根據(jù)發(fā)音人的不同，語音識別技術(shù)可分為特定人語音識別和非特定人語音識別兩類，前者只能識別一個或幾個人的語音，而后者則能被任何人使用。本文設(shè)計的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心，采用ICRoute公司的LD3320語音識別芯片，并配以存儲空間為16M字節(jié)的W25Q128芯片，能夠?qū)崿F(xiàn)2000個場景共計識別句100000條的語音識別操作。

1 系統(tǒng)整體結(jié)構(gòu)

如圖1所示，整個系統(tǒng)主要是由STM32F407處理器、LD3320語音識別芯片以及W25Q128Flash芯片構(gòu)成。其中STM32F407處理器用于切換場景和場景關(guān)鍵詞更改；LD3320語音識別芯片用于語音識別，W25Q128Flash芯片用于存識別句，兩種都是通過SPI總線與處理器相連。整套系統(tǒng)與外部其他系統(tǒng)則是通過串口進行通信。

2 系統(tǒng)硬件介紹及存儲空間設(shè)計

2.1 系統(tǒng)硬件介紹

2.1.1 STM32F407ZGT6處理器

STM32F407ZGT6采用Cortex_M4內(nèi)核，集成FPU和DSP指令，具有192KB SRAM、1024KB FLASH、3個SPI、6個串口等。基于其強大的配置，所以本系統(tǒng)的處理器選用該芯片。

2.1.2 LD3320語音識別模塊

LD3320語音識別模塊是ICRoute公司的一款產(chǎn)品，其特有的快速而穩(wěn)定的優(yōu)化算法，能夠完成非特定人語音識別，識別準(zhǔn)確率高達(dá)95%。該模塊每次最多可以設(shè)置50條候選識別詞或識別句，只要單個詞或句長度不超過10個漢字和79字節(jié)的拼音串，同時我們可以對識別內(nèi)容動態(tài)編輯。模塊的通訊方式有并行和串行兩種，根據(jù)需求的不同可以選擇不同的通訊方式。除了語音識別這一功能之外，模塊還支持MP3播放功能，只要MCU將MP3數(shù)據(jù)依次送入芯片，就能夠從芯片的PIN引腳輸出聲音。

2.1.3 W25Q128Flash芯片

W25Q128是華邦公司推出的大容量SPIFLASH產(chǎn)品，容量為128Mbit，即16M。該芯片將16M空間分為256塊，每塊64KB，每塊又分為16個扇區(qū)，每個扇區(qū)4KB。由于W25Q128的最小擦除單位為一扇區(qū)，也就是說每次擦除4KB。

2.2 存儲空間設(shè)計

由于W25Q128芯片每次擦除的單位為4KB，而每句識別語句至少有80字節(jié)，一個場景有50句識別語句，所以一個扇區(qū)用于一個場景是不夠的，因此我們將兩個扇區(qū)劃為一個場景；圖2是單個場景數(shù)據(jù)存儲關(guān)系圖，圖中每個場景占8192字節(jié)，每條識別語句占100個字節(jié)，其中第一個字節(jié)為識別語句編號，范圍為1-50；單個場景的第一個扇區(qū)可以存儲40條識別語句，第二個扇區(qū)可以存儲10條識別語句，其中第4000B-4096B和5096B-8190B保留，不存儲數(shù)據(jù)，整個場景的最后兩個字節(jié)用于存儲場景編號，范圍為1-2000。W25Q128共有4096個扇區(qū)，理論上可以劃分2048個場景，但是我們只劃分2000個場景，也就是4000個扇區(qū)；還剩下96個扇區(qū)，剩下的第1-50扇區(qū)用于存放每個場景的相關(guān)信息，計算可以得到每個場景有1KB的存儲空間，然后我們將最后一個扇區(qū)的最后兩個字節(jié)存儲現(xiàn)在所在場景編號，剩下的空間保留。

3 系統(tǒng)軟件設(shè)計

3.1 通訊協(xié)議格式設(shè)置

整個系統(tǒng)主要具有場景切換和場景識別語句存取功能，表1是部分對應(yīng)協(xié)議格式。

3.2 初始化函數(shù)及操作函數(shù)介紹

STM32處理器與其他各個模塊建立通信連接，除了連接好對應(yīng)IO口后，還需要對各個IO進行初始化，這樣才能進行數(shù)據(jù)的收發(fā)，以下是主函數(shù)中相關(guān)初始化函數(shù)：

NVIC_PriorityGroupConfig（NVIC_PriorityGroup_2）；//首先設(shè)置系統(tǒng)中斷優(yōu)先級分組

delay_init（168）； //初始化延時函數(shù)

LED_Init（）；//指示燈初始化

KEY_Init（）；//按鍵初始化

IWDOG_Init（）；//看門狗初始化

USART1_Init（9600）；//初始化串口1

W25QXX_Init（）；//W25Q128初始化

LD3320_Init（）；//LD3320初始化

while（W25QXX_ReadID（）！=W25Q128） //檢測是否存在W25Q128

{

LED0=！LED0； //如果檢測不到W25Q128指示燈1會不停閃爍

}

第8篇：語音識別范文

【關(guān)鍵詞】語音識別;TMS320VC5402DSP;Mel頻率倒譜參數(shù)MFCC：DTW算法

1.引言

近年來，家居空調(diào)的語音智能控制已經(jīng)成為一個非常活躍的研究領(lǐng)域，語音識別技術(shù)作為一種重要的人機交互手段，輔助甚至取代傳統(tǒng)的遙控器，在智能控制領(lǐng)域有著廣闊的發(fā)展前景。

語音識別是機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文件或命令的技術(shù)。隨著DSP技術(shù)的快速發(fā)展及性能不斷完善，基于DSP的語音識別算法得到了實現(xiàn)，并且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優(yōu)勢，具有廣闊的應(yīng)用前景。

2.語音識別的基本原理

語音識別的過程是一個模式匹配的過程。首先根據(jù)語音特點建立語音模型，模型通常由聲學(xué)模型和語言模型兩部分組成，分別對應(yīng)于語音到半音節(jié)概率的計算和半音節(jié)到字概率的計算。對輸入的語音信號進行預(yù)處理后提取所需的語音特征，在此基礎(chǔ)上建立語音識別所需的模板。在識別過程中，根據(jù)語音識別的整體模型，將輸入的語音特征與已有的語音模板進行比較，找出最佳匹配對象作為識別結(jié)果。一般的語音處理流程如圖1所示。

圖1 語音識別系統(tǒng)的處理流程圖

3.系統(tǒng)的硬件設(shè)計

通過對系統(tǒng)功能分析，最終確定系統(tǒng)由語音采集與輸出模塊、語音處理模塊、程序數(shù)據(jù)存儲器FLASH模塊、數(shù)據(jù)存儲器SRAM模塊、系統(tǒng)時序邏輯控制CPLD模塊、JTAG接口模塊等組成，設(shè)計的框圖如圖2所示。

圖2 語音識別系統(tǒng)的硬件結(jié)構(gòu)框圖

（1）語音采集與輸出模塊。該模塊由高性能的立體聲音頻Codec芯片TLV320AIC23B來完成。模數(shù)、數(shù)模轉(zhuǎn)換集成在一塊芯片內(nèi)，內(nèi)置耳機輸出放大器，支持MIC和LINE IN兩種輸入方式，輸入和輸出增益可編程設(shè)置。編程設(shè)置內(nèi)部的11個16位寄存器可得所需的采樣頻率、輸入輸出增益和傳輸數(shù)據(jù)格式等。

（2）語音處理模塊。采用TMS320VC5402 16位微處理器，處理速度快，最快運行速度可達(dá)100MIPS，功耗低，是一款理想的DSP處理器。作為系統(tǒng)的整個核心，其主要功能是接收來自A/D的數(shù)據(jù)，完成語音訓(xùn)練和語音識別。具有豐富的片內(nèi)外設(shè)，主要包括通用I/O引腳、硬件定時器、軟件可編程等待狀態(tài)產(chǎn)生器、可編程塊開關(guān)模塊、增強型并行主機接口、兩個多通道緩沖串口、時鐘發(fā)生器、DMA控制器、JTAG接口，具有管理中斷、循環(huán)運算和功能調(diào)用的控制結(jié)構(gòu)。

（3）FLASH模塊。由于TMS320VC5402片上沒有FLASH且片內(nèi)RAM只有16K，因此需要外擴外部存儲器使其成為獨立系統(tǒng)，這里選用了存儲容量為256K的低功耗FLASH芯片SST39VF400B，RAM選用了64K SRAM CY7C1021。

（4）CPLD模塊。用來對存儲器的擴展實現(xiàn)邏輯譯碼，CPLD的供電電壓和DSP相同為3.3V，并且可在線編程，方便修改譯碼邏輯。DSP的一些控制信號經(jīng)過CPLD后輸出了RAM和FLASH的片選及讀寫信號，從而實現(xiàn)DSP對FLASH與SRAM的讀寫操作。

（5）電源模塊。電源設(shè)計的好壞直接影響到系統(tǒng)的穩(wěn)定。這里選用了TI公司的TPS767D318電源方案，該芯片輸入電壓為+5V，輸出3.3V和1.8V兩路電壓，能夠很好的滿足DSP系統(tǒng)的要求。

（6）空調(diào)控制器模塊。該模塊同傳統(tǒng)的空調(diào)控制器，接收TMS320VC5402模塊發(fā)來的功能控制命令，實現(xiàn)空調(diào)功能調(diào)整。

（7）電路模塊。復(fù)位電路、時鐘電路、串口電路和音頻電路等。

4.系統(tǒng)的軟件設(shè)計

信號采集為避免信號失真選用優(yōu)質(zhì)電容MIC作為輸入音源。聲音通過麥克風(fēng)輸入到語音信號處理板，通過TLV320AIC23B的A/D轉(zhuǎn)換變成數(shù)字信號，經(jīng)過DSP處理后通過D/A轉(zhuǎn)換輸出聲音，然后對聲音進行監(jiān)測，并對采集的波形進行反復(fù)對比分析，以提取最佳的波形樣本。程序設(shè)計流程圖如圖3所示。

圖3 系統(tǒng)軟件流程圖

4.1 端點檢測

語音的前端處理主要包括對語音采樣、A/D變換、預(yù)加重、分幀、加窗和端點檢測。端點檢測是指從噪聲中檢測出說話人的語音命令，獲得語音開始和結(jié)束的時間點。本系統(tǒng)采用短時平均幅度和短時過零率相結(jié)合的辦法。在判斷語音的起始點時，只要短時過零率或短時平均幅度有一個超出判決門限時，便開始保存信號，然后確定隨后的幾幀數(shù)據(jù)是否仍滿足判決門限，這時才可以確定剛采集進來的數(shù)據(jù)是有效的，否則認(rèn)為是噪聲引起的，將重新進行起點的判定。語音信號的結(jié)束點采取過零率和幅度相結(jié)合的辦法，如果語音信號的連續(xù)幾幀的平均能量低于能量門限，那么就認(rèn)為語音信號結(jié)束。

用于空調(diào)的常用命令控制詞匯有：“開啟”、“制冷”、“溫度”、“睡眠”、數(shù)字“0～9”等，待識別的詞匯范圍相對較窄，較易識別，采用上述方法對空調(diào)命令的起止點判定達(dá)到了很好的效果，經(jīng)多次反復(fù)試驗，其準(zhǔn)確率達(dá)98%。

4.2 特征參數(shù)提取

語音信號中含有非常豐富的信息，特征提取則可以去除冗余信息，以便用于后端模型的建立和匹配。語音識別中對特征參數(shù)的要求是：

（1）具有很好的區(qū)分性，能夠有效地代表語音特征;

（2）各階參數(shù)之間有良好的獨立性;

（3）特征參數(shù)要計算方便，保證識別的實時實現(xiàn)。

現(xiàn)在較常用的特征參數(shù)有線性預(yù)測參數(shù)（LPCC）、Mel頻率倒譜參數(shù)（MFCC）、線譜對（LSP）參數(shù)等。本文選擇MFCC作為特征參數(shù)。它的核心思想是利用人耳的感知特性，在語音的頻譜范圍內(nèi)設(shè)置若干個帶通濾波器，每個濾波器具備三角或正弦濾波特性，計算相應(yīng)濾波器組的信號能量，再通過DCT計算對應(yīng)的倒譜系數(shù)，符合語音識別中對特征參數(shù)的要求。

MFCC求取主要步驟是：

（1）給每一幀語音加窗做FFT，取出幅度;

（2）將幅度和濾波器組中每一個三角濾波器進行Binning運算;

（3）求log，換算成對數(shù)率;

（4）從對數(shù)率的濾波器組幅度，使用DCT變換求出MFCC系數(shù)。

4.3 模板訓(xùn)練和語音識別

在識別系統(tǒng)后端，從已知模式中獲取用以表征該模式本質(zhì)特征的模型參數(shù)即形成模式庫，再將輸入的語音提取特征矢量參數(shù)后與已建立的聲學(xué)模型進行相似度比較，同時根據(jù)一定的語法規(guī)則和判別規(guī)則決策出最終的識別結(jié)果。

目前語音識別中使用模板匹配技術(shù)比較常見的有隱馬爾可夫模型（HMM）、人工神經(jīng)元網(wǎng)絡(luò)（ANN）和動態(tài)時間規(guī)整算法（DTW）。綜合考慮到算法的復(fù)雜性和計算量的大小、算法在DSP系統(tǒng)實現(xiàn)的難易程度以及所需要的DSP資源，系統(tǒng)采用算法相對簡單和計算量相對較小的DTW算法，并針對其存在的運算量大、識別性能嚴(yán)重依賴端點檢測的精度、語音信號的時序動態(tài)信息沒有被充分利用等問題加以改進。

DTW算法是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù)，該算法基于動態(tài)規(guī)劃的思想，解決了發(fā)音長短不一的模板匹配問題。算法原理是假設(shè)待測語音共有N幀矢量，參考模板共有M幀矢量，且N≠M，則動態(tài)時間規(guī)整就是尋找一個時間規(guī)整函數(shù)j=w（i），它將測試矢量的時間軸i非線性地映射到模板的時間軸j上，并使該函數(shù)w滿足第N幀測試矢量和第M幀模板矢量之間的距離測度最小。通常規(guī)整函數(shù)w（i）被限制在一個平行四邊形內(nèi)，它的一條邊的斜率為2，另一條邊的斜率為1/2，規(guī)整函數(shù)的起始點為（1，1），終止點為（N，M）。

為了提高識別效率，本文對DTW算法的搜索寬度限制條件進行了改進。以局部約束路徑為例，待測模板每前進一幀，對于點（I，j）只需用到其前一列（i-1，j），（i-1，j-1），（i-1，j-2）三點的累積距離，也就是j-1和j-2兩行的累積距離。以此類推，整個過程中每一行的格點可以利用前兩行格點的累積距離計算出該點的累積距離。在本系統(tǒng)應(yīng)用中，DTW算法加入了一些搜索限制條件，實際的搜索范圍基本上局限于對角線附近的帶狀區(qū)域。在識別的過程中，系統(tǒng)分配的存儲空間是搜索寬度的3倍。

5.系統(tǒng)測試結(jié)果及誤差分析

空調(diào)的語音識別系統(tǒng)在不同的環(huán)境中使用具有差異性，為了測試系統(tǒng)在復(fù)雜環(huán)境下的穩(wěn)定性及識別率，進行兩種測試：一是安靜環(huán)境下的測試;二是復(fù)雜環(huán)境下的測試。

在實驗室安靜的環(huán)境下對男女聲識別進行了測試。發(fā)音內(nèi)容為常用的空調(diào)控制命令，錄音時間大約長為1～1.5s，詞語發(fā)音的時間大約為500～800ms，采樣率為24KHz，幀長20ms，幀移10ms，其端點檢測基本上能排除前面錄音的無聲段的噪音，識別率達(dá)到了96%以上，原DTW算法的識別時間是6～7s，而采用本文改進算法的識別時間減少到2～5s。因此，本文方法可以實現(xiàn)快速準(zhǔn)確的簡單語音識別。

當(dāng)周圍環(huán)境噪聲較大，信噪比SNR<5dB時，識別率會有所下降。但是隨著信噪比的不斷增加，詞匯錯誤率逐漸降低，并趨于穩(wěn)定狀態(tài)，系統(tǒng)的識別率保持在94%以上。實驗證明，采用本系統(tǒng)，語音識別率高，且抗噪性能好，對復(fù)雜環(huán)境的適應(yīng)性強。

錄音過程中，本身含有較大的噪聲，DSP程序中沒有對語音信號作降噪處理，這是影響識別率的原因;另外，不同的人發(fā)同一個音的長度和強弱方面均有差異，這也是影響識別率的原因。

6.結(jié)論

該空調(diào)語音識別系統(tǒng)以TMS320VC5402DSP為核心處理器，采用Mel頻率倒譜參數(shù)為語音特征，基于改進的DTW算法進行模式匹配，算法本身計算量小、速度快、識別率高，能夠進行實時語音識別。此系統(tǒng)平臺具有良好的實用性和穩(wěn)定性，經(jīng)實驗測試表明，系統(tǒng)的特征數(shù)據(jù)傳送穩(wěn)定，壓縮編碼無明顯失真，識別率達(dá)到94%以上，對特定人其識別率可達(dá)97%，達(dá)到了識別的要求。為取得更好的識別效果，今后應(yīng)進一步優(yōu)化系統(tǒng)算法。由于比傳統(tǒng)鍵盤輸入操作具有更多的優(yōu)勢，語音識別技術(shù)在未來的家居生活和商業(yè)應(yīng)用會有更廣闊的應(yīng)用前景。

參考文獻(xiàn)

[1]于志華.基于FPGA的實時固定語音識別系統(tǒng)研究與實現(xiàn)[D].信息工程大學(xué)，2013.

[2]斯蕓蕓.嵌入式語音識別系統(tǒng)的設(shè)計與實現(xiàn)[D].重慶大學(xué)，2012.

第9篇：語音識別范文

1、點擊桌面實用工具文件夾選擇語音助手，可以啟動語音助手。

2、設(shè)置語音助手的快捷方式，打開語音助手，點擊右上角三個點的按鈕設(shè)置勾選從主屏幕鍵上滑啟動，設(shè)置成功之后，向上滑動菜單鍵可以快速啟動語音助手。

（來源：文章屋網(wǎng) ）

語音識別精選(九篇)

第1篇：語音識別范文

第2篇：語音識別范文

第3篇：語音識別范文

第4篇：語音識別范文

第5篇：語音識別范文

第6篇：語音識別范文

第7篇：語音識別范文

第8篇：語音識別范文

第9篇：語音識別范文

相關(guān)文章閱讀

相關(guān)期刊推薦

中國語音學(xué)報

非通用語研究

外語電化教學(xué)

中國語文

中國語言學(xué)報

精選范文推薦