前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的語音識別技術主題范文,僅供參考,歡迎閱讀并收藏。
語音識別是一門交叉學科。語音識別研究經歷了50多年的研究歷程,經過50多年的積累研究,獲得了巨大的進展。特別是近20年來,語音識別技術取得了顯著的進步,并逐步的走向市場。在未來的日子里,語音識別技術將應用更為廣泛。
一、語音識別技術概述
語音識別是解決機器“聽懂”人類語言的一項技術。作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別技術一直受到各國科學界的廣泛關注。如今,隨著語音識別技術研究的突破,其對計算機發展和社會生活的重要性日益凸現出來。以語音識別技術開發出的產品應用領域非常廣泛,如聲控電話交換、信息網絡查詢、家庭服務、賓館服務、醫療服務、銀行服務、工業控制、語音通信系統等,幾乎深入到社會的每個行業和每個方面。
廣泛意義上的語音識別按照任務的不同可以分為4個方向:說話人識別、關鍵詞檢出、語言辨識和語音識別。說話人識別技術是以話音對說話人進行區別,從而進行身份鑒別和認證的技術。關鍵詞檢出技術應用于一些具有特定要求的場合,只關注那些包含特定詞的句子,例如對一些特殊人名、地名的電話監聽等。語言辨識技術是通過分析處理一個語音片斷以判別其所屬語言種類的技術,本質上也是語音識別技術的一個方面。語音識別就是通常人們所說的以說話的內容作為識別對象的技術,它是4個方面中最重要和研究最廣泛的一個方向,也是本文討論的主要內容。
二、語音識別的研究歷史
語音識別的研究工作始于20世紀50年代,1952年Bell實驗室開發的Audry系統是第一個可以識別10個英文數字的語音識別系統。
1959年,Rorgie和Forge采用數字計算機識別英文元音和孤立詞,從此開始了計算機語音識別。
60年代,蘇聯的Matin等提出了語音結束點的端點檢測,使語音識別水平明顯上升;Vintsyuk提出了動態編程,這一提法在以后的識別中不可或缺。60年代末、70年代初的重要成果是提出了信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術,有效地解決了語音信號的特征提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步走向深入:HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。
進入90年代后,語音識別技術進一步成熟,并開始向市場提品。許多發達國家如美國、日本、韓國以及IBM、Apple、AT&;T、Microsoft等公司都為語音識別系統的實用化開發研究投以巨資。同時漢語語音識別也越來越受到重視。IBM開發的ViaVoice和Microsoft開發的中文識別引擎都具有了相當高的漢語語音識別水平。
進入21世紀,隨著消費類電子產品的普及,嵌入式語音處理技術發展迅速[2]?;谡Z音識別芯片的嵌入式產品也越來越多,如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發中得到了廣泛的應用。在軟件上,目前比較成功的語音識別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續語音識別系統。
三、語音識別技術的發展現狀
語音識別技術通過全球科學家的共同努力,經歷半個多世紀的研究,目前已經發展到了接近實用的階段。在實驗室環境下,大詞匯量的朗讀式連續說話的寬帶語音信號的平均識別率可以達到90%以上。正式有了如此高的識別率之后,語音識別技術慢慢地從實驗室演示系統逐步走向實用化商品。以IBM Via Voice和Dragon Dictation為代表的兩個聽寫機系統的出現,使“語音識別”逐步進入大眾視線,引起了廣泛的社會關注。
由于校對和更正識別的錯誤很麻煩和浪費時間,這樣便降低語音識別的優勢。同時,由于使用的環境或講話口音習慣等因素的影響,語音識別的內容大大降低,識別的內容不能達到100%的正確,所以很多人認為目前的語音識別系統還無法滿足實用要求。
目前,AT&T和MIT等將語音識別技術應用在一些有限詞匯的特定任務上,如電話自動轉接、電話查詢、數字串識別的任務中,當講話的內容是系統所存儲的內容存在的,且使用環境的聲學特性與訓練數據的聲學特性相差不太大時,語音識別的正確識別率可以接近100%。但是,在實際使用中如果這些條件被破壞,則會對識別系統造成一定的影響。
我國的語音識別研究一直緊跟國際水平,國家也很重視。國內中科院的自動化所、聲學所以及清華大學等科研機構和高校都在從事語音識別領域的研究和開發。國家863智能計算機專家組為語音識別技術研究專門立項,并取得了高水平的科研成果。我國中科院自動化所研制的非特定人、連續語音聽寫系統和漢語語音人機對話系統,其準確率和系統響應率均可達90%以上。
四、語音識別技術發展趨勢
語音作為當前通信系統中最自然的通信媒介,語音識別技術是非常重要的人機交互技術。隨著計算機和語音處理技術的發展,語音識別系統的實用性將進一步提高。應用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識別產品的應用,如聲控撥號電話、語音記事本等,基于特定任務和環境的聽寫機也已經進入應用階段。這預示著語音識別技術有著非常廣泛的應用領域和市場前景。隨著語音技術的進步和通信技術的飛速發展,語音識別技術將為網上會議、商業管理、醫藥衛生、教育培訓等各個領域帶來極大的便利,其應用和經濟、社會效益前景非常良好.
雖然語音識別在過去的20年里有了很大的發展,但是,仍然存在很多的不足,有待于進一步的探索,具體可分為以下幾個方面:
1.提高可靠性。語音識別技術需要能排除各種聲學環境因素的影響。在比較嘈雜的公共環境中,人的意識會有意識的排除非需要的聲學環境因素,這對語音識別系統而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,并帶有明顯的言語習慣。這同樣會給語音識別系統很大的識別麻煩。目前,在提高語音系統在不同環境中的可靠性,同時要應用現代技術讓語音識別系統更加智能化,掌握人們語言隨意性的部分規律,以達到最佳的識別效果。
2.增加詞匯量。系統可以識別的詞匯的數量是系統能夠做什么事情的一個重要度量。一個語音識別系統使用的聲學模型和語音模型如果太過于局限,當用戶所講的詞匯超出系統已知的范圍時,則語音識別系統不能準確的識別出相應的內容,比如,當突然從中文轉為英文、法文、俄文時,計算機就會常常輸出混亂奇怪的結果。但是,隨著系統建模方法的不斷改進、搜索算法效率的提高以及硬件資源的發展,未來的語音識別系統可能會做到詞匯量無限制和多種語言混合,這樣用戶在使用的時候可以不必在語種之間來回切換,這樣就能大大減少詞匯量的對語音識別系統的限制。
3.應用拓展。語音識別技術可以用于把費腦、費力、費時的機器操作變成一件很容易很有趣味性的事,比如,當人們出現手忙、手不能及以及分身無術的場景時,通過語音識別系統的模型構造,則能夠在象駕駛室、危險的工業場合、遠距離信息獲取、家電控制等各個方面,語音識別技術可能帶動一系列嶄新或更便捷功能的設備出現,更加方便人的工作和生活。其應用的范圍和前景非常廣泛。不僅能夠應用于日常生活,更重要的會帶來生產方式的革命,是下一代智能化控制的基礎。
語音識別技術的應用
與機器進行語音交流,讓機器明白你說什么,這是我們長期以來夢寐以求的事情。而提起語音識別.我們最容易想到的還要數不會講笑話的Siri。
作為世界上第一家上市的語音識別公司,Siri的“娘家”Nuance有著輝煌的歷史,曾經在語音領域一統江湖。蘋果iPhone手機的虛擬語音助手Siri、三星的語音助手S-Voice.各大航空公司和頂級銀行的自動呼叫中心和虛擬在線語音助手,都采用了Nuance的技術。近年來,Nuance的語音識別技術已經從實驗室走向市場,將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。
在智能車載領域,Nuance定制的汽車級語音平臺Dragon Drive獲得了201 5CES創新大獎,通過將車載平臺與手機連接,Nuance可以幫用戶實現語音控制GPS導航、信息收發、電話接打、社交網絡更新等等。
在前一段時間,Nuance在其官方博客上,公布了將發力醫療領域的消息。消息中說,Nuance在醫療領域進軍,不僅僅通過智能手表追蹤運動情況和心率,還將會直接根據人的身體狀況匹配相應的服務,如合適的餐廳或食物等,當然這些大多是基于可穿戴設備的。另外他們還考慮到更多場景.諸如緊急語音求助、醫患對話存檔、呼叫中心的對話聽寫等。
隨著互聯網技術的快速發展,以及手機等移動終端的普及應用,目前可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規模語言模型和聲學模型成為可能。在語音識別中,訓練數據的匹配和豐富性是推動系統性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數據時代的來臨,大規模語料資源的積累將提到戰略高度。從Nuance向醫療領域發力看出,由于醫療領域詞匯庫專業性強演變性弱,只要建立完整的數據庫,就可以做到對疾病名稱、藥品名稱相對精確的識別。
如今國內也有了相應的應用如支持語音搜索功能的病歷夾與珍立拍,致力于為醫生提供一個安全存儲病歷資料的云空間,方便查找病例。而科大訊飛、云知聲、盛大、捷通華聲、中科信利、尚科語音、搜狗語音助手、紫冬口譯、騰訊語音、百度語音等都日漸被用戶習慣的系統,都采用了最新的語音識別技術,市面上其他相關的產品也直接或間接嵌入了類似的技術。
從打字到語音的習慣改變
隨著語音識別在移動終端上的應用越來越火熱,借助機器學習領域深度學習研究的發展,以及大數據語料的積累,語音識別技術得到突飛猛進的發展。
騰訊、百度都建立了自己的語音團隊,在移動搜索領域發力 隨著吳恩達加盟,擔任首席科學家,負責百度研究院,百度看起來更加高大上了許多。吳恩達的研究領域就是機器學習和人工智能,研究重點是深度學習。深度學習被認為是當前的機器學習算法里最接近人腦思維的一種。在語音識別方面,會對互聯網、家用電器帶來很大的改革在百度Big Talk2015年第一期公開課上,吳恩達說,“語音會是改革互聯網的很大一個因素。語音識別會推動物聯網的革命,比如汽車界面、家用設備,以及可穿戴設備。在這方面,特別是在移動互聯網方面,中國其實領先于美國和其他國家很多。”
今天國內的很多用戶都會使用語音搜索,如年幼的用戶、年齡大的用戶,或文化程度不高的用戶,對于他們來說,用語音搜索或許是可以讓我們知道他們需求的唯一方式。因此,語音對話機器人、語音助手互動工具等層出不窮,許多互聯網公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。比如搜狗在移動搜索領域“發聲”,推出“微信頭條”功能宣稱可以根據用戶興趣變化,來智慧地滿足用戶的差異化閱讀需求。
一、簡述移動電子商務存在的安全問題
無線通信網絡在創造移動電子商務時,也帶來一系列不安全的因素,例如黑客竊聽、盜取信息、篡改用戶信息等。同時,有關法律法規的不夠完善也嚴重制約著移動電子商務的快速發展。
1.竊聽用戶信息
過去的電子商務中,入侵者可以運用有線網絡,進一步實施有關的竊聽工作,因此,極易判定入侵者的具置和信息。在無線網絡環境下,進行追蹤比較困難,因此在無線網絡環境下,入侵者如果具備網卡或相關的無線設備從任何地點都能進入無線網絡中。
2.黑客篡改用戶信息
篡改用戶信息的情況在無線電子商務中非常普遍,如果非法用戶采用無線通信網絡獲取用戶的交易信息,可以隨意把篡改或刪除信息發送出去,這會給用戶帶來很大的損失。黑客也可以截取用戶的登陸名稱或密碼,從而竊取用戶的合法賬號。
二、語音識別技術在移動電子商務中的應用
1.創建安全模型
本文設計的安全模式,是以語音識別技術為基礎,創建移動電子商務安全模型。該系統包含移動設備用戶、語音服務提供商、移動電子商務企業三個部分組合而成??蛻舳溯斎氲恼Z音信息先讓移動電子商務企業接收,隨之傳送至語音服務提供商進行處理。設計的模型主要表現在儲存語音信息、進行語音識別、及時更新、傳輸安全四個方面,從而有效保障電子商務交易的安全運行。
2.安全模型的各項功能
(1)存儲語音信息
在無線電子商務實際交易時,全部的語音信息會先存在移動電子商務企業的語音數據庫內,移動電子商務企業把用戶讀入的信息轉換為數字符號,存入專業的語音數據內并標明用戶名稱、時間等信息,從而更好的標識語音信息。移動電子商務企業把新增加的語音信息發送到語音服務提供商,由他們對這一段語音信息給予相應的處理,成功獲取這段語音特征之后,自行把特征信息輸送到移動電子商務企業的語音特征數據庫內,并標明相對應的用戶名稱、時間等信息,隨之進一步展開語音識別。從上述的分析可知,對用戶輸入的語音信號進行去噪、提取特征先是由語音服務提供商進程處理。語音服務提供商把語音信息傳輸給電子商務企業的語音特征數據庫之后,電子商務企業系統會先對語音特征是否已經出現在數據庫中,如果查詢獲知該用戶名存在,表明數據庫已經詳細記錄該用戶的語音信息;隨后把新錄入的語音特征與上一次最新的語音特征展開比較。若兩次語音特征一致,表明該語音順利通過系統識別,證明用戶的身份合法。同時,由于語音并不是獨特或唯一的,進行語音識別時極易受到外界環境的干擾,對確定語音識別發生源非常困難。此時,可以使用相關技術在服務器端設置聲吶裝置,當用戶進行語音識別驗證過程中,憑借超聲波判定發生源體積的大小。但該設備無法安裝在客戶端上,如果這樣非法用戶可以把客戶端的聲吶設備拆卸下來,從而致使發生源可信度降低。
(2)及時更新語音特征
移動電子商務企業不僅僅要接受輸入的語音信息,同時要及時更新語音特征,從而提升語音識別的準確度。具體實施步驟如下:首先必須具備充足的歷史信息才能有效總結新的規律。移動電子商務企業可以建立定時查看用戶語音特征的系統,如果系統檢測到語音特征數據庫共出現30余條相同用戶名的語音特征,系統會自動對語音特征展開比較,從而找尋其中的差別,最后獲取新的語音特征。把新的語音特征作為21條語音特征輸入語音特征數據庫內,之后發送到相關企業數據庫內。若看到某一用戶名下語音特征多于20條,運用這一信息數除以20,如果得出的余數是0,在采用最新的20條信息按照上述的步驟進行處理。運用上述方法對語音特征進行更新。
(3)傳輸語音信息
由于無線網絡具有開放性的特征,因此網絡的通信安全極易受到威脅。不管是移動電子商務企業把語音信息傳輸出去,還是語音服務提供商對語音特征進行處理,把其傳送給無線電子商務企業中,不可避免會遭受黑客的竊聽和篡改,保護語音信息的安全性和完整性顯得尤為重要??梢圆捎眯畔㈦[藏技術對語音信息進行加密操作,用來隱藏的載體可以是圖像或者一段音樂。若使用圖像,要先把圖像轉換為相對應的格式,隨之把語音特征信息或語音信息轉換為該格式,把信息的開頭、結尾、內容信息標記后插入其中,保障圖片信息不會改變。隨后把圖片和經過加密的信息標記格式一次發送給相關的企業或解碼系統,解碼系統在受到信息標記格式之后,把圖片信息的語音特征讀入相對應的數據庫內。同時,解密系統可以依照標記的信息開頭、結判定信息的完整性,有效阻止黑客竊聽和篡改信息。
關鍵詞:語音識別;CHMM模型;特征參數選擇
中圖分類號:TP391.4 文獻標識碼:A
1 引言
在語音識別的三大算法中CHMM算法的高識別率是以大計算量和大存儲量為代價的,在基于嵌入式技術的語音識別系統或具有較強實時性要求的語音識別系統等特殊情況下,系統的資源和計算能力往往受到較大的限制,在保證一定識別率情況下減少識別算法對系統存儲與計算資源的需求,具有重要意義。而語音識別系統的性能與系統所采用的特征參數密切相關,這就為我們利用特征參數的選取來實現系統識別性能與計算資源需求之間的折衷處理成為可能。目前,有很多文獻做了各類特征參數對識別效果影響程度的研究工作,卻沒有討論同一種類參數分量的問題;則通過對相鄰分量的組合,用實驗結果說明了MFCC分量的相對重要性,但他們都僅用實驗結果加以說明,缺乏理論分析。
本文從CHMM模型的特點出發:一方面從理論上給出了選擇特征參數的數學依據,另一方面提出根據特征參數對系統誤識率的影響程度,選擇特征參數的方法。
2 基于CHMM模型特征參數選擇的理論分析
CHMM的Gauss概率密度函數的協方差矩陣本來應該是對稱的滿矩陣,為了降低對計算復雜度和存儲量的要求,一般簡化為對角矩陣。采用對角協方差陣使模型的參數減少,也有利于避免因訓練樣本不足而影響模型參數估計的可靠性。而且實驗結果表明,概率密度函數的個數較多且取對角協方差陣的方案優于概率密度函數較少且取滿元協方差陣的方案。所以,實際中一般使用具有對角協方差陣的Gauss概率密度函數。CHMM計算
的特征矢量。通常,人們使用MFCC+AMFCC或LPCC+ALPCC作為特征矢量,即將MFCC、AMFCC、LPCC、ALPCC作為整體來處理。需要注意的是MFCC和LPCC雖然分別有其完整的物理意義,即Mel刻度聽覺參數的同態變換系數和聲道參數,將他們的各個分量獨立考慮會破壞其物理意義的完整性,但在基于對角協方差陣的CHMM的模型中,各個分量相互獨立,從而使得我們可以根據各個分量的重要性來選擇分量,構成特征矢量以減少計算量。另一方面,由于舍去的是對誤識率影響較小的分量,所以系統的識別效果不會顯著改變,從而充分有效的利用了特征矢量的區分特性。在減少計算量的同時,保證了識別率。
3 CHMM算法計算量與存儲量的分析
3.1 MFCC、AMFCC求取
目前,在語音識別系統中,最常用就是具有較好抗噪性能的MFCC+AMFCC參數。其求取步驟為:1)對預處理后的每一幀語音信號先進行快速傅里葉變換以獲得頻譜分布信息2)然后將頻域信號通過一組三角濾波器,中心頻率在Mel刻度上均勻分布3)求出每個濾波器的輸出對數能量4)對其進行離散余弦變換得MFCC5)對MFCC求差分得AMFCC
3.2 計算量與存儲量的分析
設CHMM模型采用N個狀態、M階混合Gauss概率密度函數的Markov鏈;特征矢量維數為n;訓練數據為l遍語音數據,為方便表示設每遍語音數據幀數為T,模型庫容量為R。訓練:①每次參數迭代前計算
數下降N*M*T*R*K次;模板庫中Gauss概率密度函數參數個數減少N*M*R*2*K個。
4 實驗及其結果分析
實驗數據:6個女性發音,0~9十個數字,每個數字發音50次,其中30次用于建立CHMM模型;實驗模型選擇:采用六個狀態的從左到右的無跨越的4階混合Gauss概率密度函數的CHMM模型,端點檢測方法選擇經典的雙門限方法。
實驗Ⅰ 在MFCC+AMFCC中去掉某一分量找到對誤識率影響較大的分量(見表1)。
實驗Ⅱ 在MFCC+AMFCC中去掉對誤識率影響小的分量,找到最佳(見表2)。
從實驗結果可以看出,在CHMM模型上采用MFCC1、MFCC2、MFCC4、MFCC5、MFCC7、MFCC8、MFCC10、MFCC11、MFCCi(i≠11)組成19維的特征矢量,系統的誤識率僅上升2.75%,即系統的識別率仍有95.75%,可以滿足實際需要。而模板庫參數個數下降2400個;同時在訓練中N(U,σ2)的計算次數減少了41,834,880*K次(K為迭代次數);匹配時N(u,σ2)的計算次數減少1200*T次(T為待識語音幀數)。實驗結果表明:與常規的24維MFCC+MFCC相比,選擇其中對識別率貢獻大的主要分量構成的低維特征矢量,系統在訓練、識別過程中N(u,σ2)的計算次數和模板庫參數個數明顯下降,而系統誤識率僅略微上升。
5 結論
關鍵詞 數字識別;圖像預處理;特征提取;神經網絡
引言
目前,識別技術已經廣泛地應用到了各個領域中。為了達到對一幅圖像中的數字進行識別的目的,我們要對圖像進行一些處理,這些處理工作的好壞直接決定了識別的質量,這些處理技術依次為圖像的讀取、對讀取的圖像進行灰度變換、按照量化指標對灰度變換后的圖像進行二值化、然后對二值化后的圖像中的字符信息進行切分等。在進行完上述預處理工作后進行特征提取,再輸入到已經訓練好的BP網絡進行識別。
1 識別的流程
識別的流程按照引言中的步驟進行,主要分為兩大部分,第一部分為圖像的預處理、第二部分為通過神經網絡進行印刷體數字的識別。預處理部分的流程:圖像輸入-灰度變換-圖像二值化-緊縮重排-歸一化調整-圖像分割-特征提取。神經網絡數字識別的具體流程:樣本訓練-字符特征輸入-識別并給出結果。
2 基于神經網絡的特征提取算法概述
圖像在經過了前期的預處理后,由原來雜亂無章的字符變為了整齊排列的、大小相同的一列字符,在這里圖像歸一化后的寬度為8像素,高度為16像素,這樣就大大方便了對字符特征的提取。我們把提取的特征存儲在特征向量里,然后把特征向量輸入到神經網絡中,這樣就可以對字符進行識別了。由以上的論述我們可以得出結論,特征提取的算法是整個識別過程的關鍵,它的好壞直接決定了識別的成敗。對圖像中的字符進行特征提取的算法有很多,下面對幾種重要的分別進行介紹。
2.1骨架特征提取法
由于圖像的來源不同,這就使得圖像的線條所使用的像素不同,在圖像上表現出來就是線條的粗細的不同,這樣就使得它們的差別很大。如果我們將不同的圖像統一到相同的像素水平,那么它們的差別也就不那么明顯了。我們使用骨架特征提取算法,就會使得識別具有一定的適應廣度和寬度。
2.2逐像素特征提取法
這種圖像的特征提取算法是最為常用的方法,它的特點是能夠保留圖像中的全部特征信息,不過這種特征提取算法對圖像的噪聲較為敏感,對原始圖像的質量要求較高,它采用逐行掃描的辦法,對圖像進行掃描,為整個圖像建立一個以圖像中的像素個數相同的特征向量矩陣。矩陣值為0或1,圖像中的黑色像素記為1,白色像素記為0。
2.3垂直方向數據統計特征提取法
此算法是對逐像素提取算法的改進,他使得特征向量矩陣的維數降低,便于后期的識別。該算法首先對圖像進行水平掃描,在這一過程中,統計沒一列的黑色像素數,然后進行對圖像進行垂直掃描,并記錄每一行上的黑色像素數,對于一個字符寬度和長度為W和H的字符,他的特征向量的維數就為W+H。
2.4特征點提取法
這一特征提取算法首先對字符進行分割,利用實現設定的四條線將字符分為八個部分,分別統計每個部分中黑色像素的數目,可以得到八個特征。然后統計水平和垂直兩個方向上,穿過四條線的黑色像素數,得到四個特征,最后將整個圖像中黑色像素的數目作為一個特征,一共得到十三個特征。該方法具有很強的適應性,但是由于特征點較少,使得在樣本的訓練過程中很難收斂。
可以看出,識別算法各有特點,根據實踐需要,本識別算法中的特征提取算法采用逐像素特征提取法。原因是這種算法的執行效率高,方法簡單容易實現,且對于神經網絡來說有很快的收斂性,具有較好的訓練效果。
3 BP網絡進行數字識別算法設計
BP網中中各層中的節點數是設計BP網絡最基本的一點,對于神經網絡的輸入層而言,其節點數為經過圖像預處理里后特征向量的維數??梢灾苯永妹總€點的像素值作為特征,這里特征提取采用逐像素提取法,歸一化后圖像的寬度為8,高度為16,因此對于輸入樣本來說,每一個樣本都會由128個特征,因此神經網絡的輸入層的特征數為128。
對于神經網絡內部隱藏層的節點數來說,其節點數沒有特別的規定,總的來說,隱藏層的神經元的數目與神經網絡的精度成正比,與訓練時間成反比。如果神經網絡的神經元設置的過多,會對識別率造成較大影響,使得識別率大幅下降。因此在這里根據多年的實踐經驗在神經網絡的隱藏層選取10神經單元。 對于輸出層而言,要根據設定的輸出標準來確定輸入層的節點數。在本算法中采用8421的編碼進行編碼。對于0-9這十個數字,分別對應十個8421碼,例如,0的8421碼為(0,0,0,0),1的8421碼為(0,0,0,1),依次類推,因此神經元的數目選定為4,就可以表示這十個數字,然而,因為神經元的激勵函數(傳輸函數)是S型函數,期望輸出只能是大于0小于1的數,而不能是1或者0,因此用0.1來代表0,0.9代表1,否則算法將不能收斂。
神經網絡搭建好后,要對神經網絡進行訓練,也就是確定神經網絡中各個參數的權值。本程序的訓練樣為圖片。首先將圖片進行預處理,然后提取特征,將特征值輸入到神經網絡中進行訓練。在這里使用10個字符的圖片進行訓練,在圖片里包含了ARIAL字體0-9十個數字。
通過50個相關訓練樣本進行訓練后,BP網絡對于數字字體的識別率能夠達到百分之九十以上。訓練好的神經網絡就可以對數數據進行識別了。
4結論
本文以VC為平臺,運用人工神經網絡的思想(主要采用BP神經網絡),實現了對印刷體數字識別。系統實現分為圖像預處理和神經網絡識別兩大模塊。首先,掃描進入電腦的圖像需保存為256色位圖或者是256級灰度圖像。首先對圖像進行預處理,然后進行特征提取,再輸入BP網絡進行識別。BP神經網絡進行字符識別的過程主要包括網絡的訓練、數據的讀取、字符的判定、結果的輸出等。本系統通過對樣本數據進行學習和訓練,形成了具有良好識別能力的網絡,對印刷體數字進行識別檢測,達到了一定的準確度,滿足了設計要求。
參考文獻
【關鍵詞】語音識別 音頻文字自動提取
一、引言
由于計算機技術近年來發展非常迅速,使人們用語言與計算機進行通信與交流已成為可能,而起草文稿、撰寫文章、準備教案、會議記錄等都需要文字整理,對比傳統的鍵盤和鼠標輸入方式,語音識別技術在速度上要提高2~4倍。
從音頻中自動提取文字是以語音識別系統為核心,對參考文本和對應語音進行強制對準的過程,其目的在于將音頻信息轉換為文本文字。作為語音識別領域中一種常見的預處理技術,音頻文字自動提取廣泛應用在政府機關、企事業單位的會議記錄;網絡文字直播;媒體采訪速記;錄像文字整理;廣播電視媒體;錄音文字整理;大量文字的錄入排版、打印輸出,計算機輔助語言教學等方面,此外,還可為現場直播的新聞、演講、會議等生成字幕;為語言教學、游戲娛樂、電影制作等生成多媒體庫;為歌曲制作同步的歌詞顯示等。
由此可見,音頻中提取文字這項技術的用處很大,而目前能實現自動翻譯的語音識別同生速記系統還正在研究之中。市場上要將錄音轉換成文字的方法就是找專業的速記公司,進行人工翻譯,工作量大,效率慢,而且收費很高,一般每小時錄音收費為200元左右。
二、背景及發展現狀
語音識別技術的研究工作起始于20世紀50年代,貝爾實驗室通過提取語音特征參數,第一個實現了可以識別10個英文數字的語音識別系統。20世紀80年代,人工神經網絡技術引入語音識別,HMM模型和人工神經元網絡ANN被成功應用,進入90年代后語音識別系統從實驗室逐步走向實用。我國語音識別研究工作起步于20世紀80年代,從1987年開始執行國家863計劃后,以清華大學電子工程系與中科院自動化研究所為代表的研究機構,得到了國家自然科學基金重大和重點項目等基金的支持,取得了豐碩的研究成果。目前市場上主要產品有北京陽宸電子技術公司的 VS-99 語音自動識別系統、科大訊飛的 InterVeri 系列等開發的語音自動識別系統等。
三、語音識別原理
自動語音識別技術(Auto Speech Recognize,簡稱ASR),在整個構建過程中包括兩個階段:訓練階段和識別階段。在訓練階段,ASR系統進行語音收集,然后對收集的語音進行降噪處理,消除部分噪音和發音者的個性特點,為了使處理后的信號更清晰,可以將發音者語音中的詞匯內容轉換為數字格式,即計算機可讀的輸入,例如二進制編碼,然后ASR系統將提取的每個語音單位的特征矢量進行一定的處理,然后存入到模板庫中。
在模式匹配(即識別)過程中,ASR系統通過學習算法產生特征矢量,在識別時將輸入語音的特征矢量與模板庫征矢量相比較,找到最匹配的單詞序列。目前最具有代表性的ASR技術有動態時間環繞技術、隱馬爾科夫(markov)模型(HMM)和人工神經網(ANN)模型。其中基于HMM的技術最為流行且語音識別性能最好。
四、 音頻文字自動提取的設計與實現
通常音頻素材所占的容量都比較大,為了節省工作量,在使用素材之前,一般使用goldwave將音頻素材分割成所需要的長度。再配合使用Windows 7系統中的語音識別功能,通過該功能,可以讓我們徹底拋開鼠標和鍵盤,只用語音控制電腦,特別是配合word軟件,還能實現文本的語音輸入,識別的準確性也較高。為了使win7語音識別系統獲得更清晰的語音素材,需要在播放音頻素材的同時使用內錄功能,文本軟件會記錄下提取到的音頻文字內容,創建文本文檔,也可在文檔中進行修改或更正錯誤。
盡管win7系統可以實現音頻文字的自動提取,由于環境噪聲、使用者的語音差別等等因素,所以其最終識別率并不高。所以,我們還需要對win7語音識別系統進行模型訓練。通過不斷糾正其錯誤識別文字,在數據庫中加入生僻名詞,反復使用音頻素材對模型進行訓練,使語音識別系統最終能完全識別音頻素材,以此來優化模型,提高語音系統的識別率。
五、總結和展望
如今計算機語音識別技術作為一股潛在的發展技術極大提高人們的現實生活需要,不僅轉變了人們的生活方式,提高了工作效率,更加推動了社會的進步和文明的發展,所以從音頻中自動提取文字具有廣闊的應用前景,由于語音自動識別的局限性,使得這項技術任重而道遠,。
在今后的科研中,音頻中自動提取文字將被更加廣泛的應用,各種具有音頻自動提取文字的產品也將漸漸在市場上出現,隨著計算機信息技術的不斷發展創新,語音識別系統將會引領我們的信息技術革命到一個新的臺階。
關鍵詞:單片機;LD3320語音識別模塊;智能家居;聲控系統
中圖分類號:TN912.34 文獻標識碼:A 文章編號:2095-1302(2016)11-00-03
0 引 言
智能家居(smart home)的概念很早就被提出來,但是一直沒有在現實中被具體實踐,直到1984年出現的首棟智能型建筑拉開了全人類爭相構建智能家居的帷幕。智能家居不是某一項家庭電器的智能化,而是以住宅為平臺,為實現家居安全舒適、科學環保、健康節能的家居生活環境,依賴綜合布線和網絡通信技術,將家電設備聯系起來,構建高效、流暢的家居設備管理系統,方便人們對家用設備進行操作與管理,為人類提供智能、舒適的生活方式。
1 語音識別的發展歷史及應用領域
從工業革命開始,人類逐漸受益于高速的機器生產,但隨著科技的發展,人類開始夢想著與機器進行交流溝通,讓機器明白人類的命令,然后給予回應,真正實現用機器代替人類進行繁重勞動的目標。語音識別技術為該目標的實現提供了可能,該技術將其接收到的音頻信號轉換為機器可識別的文本或命令后進行進一步處理。現如今,經歷半個多世紀的探索與創新,語音識別技術在各領域都實現了應用,小到兒童玩具、個人家庭電器、電子產品,大到醫療、工業生產等,語音識別系統都發揮著不可替代的作用。從世界上第一個能識別10個英文數字發音的語音識別系統到如今廣泛應用在各行各業的語音識別系統,我們希望語音識別技術在未來取得更大的發展。
語音識別技術的發展離不開研究者們的卓越貢獻,由一開始特定人、小詞匯的識別到如今非特定人、連續發音、大量詞匯的識別,這其中各種技術的更新發展必不可少。廣泛使用的計算機網絡和普遍使用的手機、ipad等提供了大量文本和語音方面的材料資源,多渠道的資源為語音識別中的語言模型和聲學模型的訓練提供了有力支持。語音識別的未來發展令人期待。
2 智能家居聲控系統的方案設計
2.1 系統總體結構圖
圖1所示為系統總體設計結構框圖。該系統的硬件部分包括電源、LD3320芯片、單片機、繼電器等。語音識別由LD3320芯片實現,系統整體控制由MCS-51單片機實現,包括對LD3320芯片的初始化等。用戶語音指令經麥克風送給LD3320語音識別模塊,LD3320識別處理后,把識別結果傳送給單片機,單片機將根據識別結果對外設進行相應控制。若語音指令無法識別,則由單片機控制LD3320語音模塊重新進入新的識別處理過程。
2.2 LD3320語音識別模塊
LD3320芯片是一個專用于語音識別的芯片,該芯片在設計時注重高效與節能,無需外接任何輔助芯片,直接集成了語音識別處理模塊和外部電路,如麥克風接口、語音輸出接口、AD/DA轉換器等,使其可以實現語音識別、聲音控制及人機對話等功能。
2.2.1 主要特征
完成非特定人的語音識別命令。在語音識別技術發展之初,只能由特定的人進行語音命令來完成任務,且需要錄音和練習等,而現在只需用戶使用相同的語言就可以進行識別,且識別效率大大提高,識別率高達95%,無需外接輔助,實現了單芯片語音識別。
由于用戶的語音命令有多種可能,如意思相同但語音命令不同或受到口音語氣的影響等,LD3320芯片中的識別語句是動態可編輯,可修改的,在設計時可根據具體情況考慮多種可能,如設置50條識別語句留作用戶語音命令的候選語音,以提高系統的整體水平。不過設置時需注意識別語句的長度,如果設置漢字則不能超過10個,設置拼音串則不能超過79個。支持串行接口和并行接口,也可設置為休眠狀態,方便激活。
2.2.2 LD3320語音口令識別處理過程
LD3320芯片的語音口令識別處理過程如圖2所示。
2.2.3 LD3320語音識別模塊使用技巧
在一些特別的應用場合,人們希望語音識別系統具有較高的識別精度。本系統設計采用“用戶口令觸發模式”以提高抗干擾能力,避免單片機對外設控制時產生錯誤動作。
程序設計中設置一個短句作為用戶命令的觸發口令。如定義“小明”作為用戶的觸發口令。在等待用戶觸發時,特別是有雜音、噪音的情況下,系統將啟動 “循環識別處理”模式,把觸發口令“小明”和其他幾十個用來吸收錯誤的詞匯設置進LD3320語音識別芯片。如果LD3320芯片中程序檢測到用戶的觸發口令時,則開啟“觸發模式”,用戶給出一級口令,若檢測為正確口令,則芯片將給出指示,即提示燈開始閃爍(大約2 s)后,開啟二級口令的接收檢測即“識別模式”,LD3320識別到預設的二級口令后,如臥室開燈、臥室關燈等,將識別結果送給單片機,由單片機對外設進行控制。在等待口令時,可能會進行誤識別,即在其他聲音干擾下接收到相似的語音片段,程序可以專門對垃圾詞語進行處理或不處理,然后進入循環識別狀態,用戶只需發出新的口令即可觸發。通過二級口令觸發模式,用戶可以更加方便的進行語音操作,且準確率較高。
2.2.3.1 巧妙運用關鍵詞語的ID,提高識別效率
由于用戶的發音習慣不同,可能同一個意思的不同語音命令無法被準確執行。我們將語音命令的關鍵詞語的拼音串設計在LD3320芯片內,例如一級口令“小明”,然后傳入一個ID代表這個詞語,一旦識別成功后,將這個ID作為識別的結果對外輸出。在 LD3320語音芯片中,同一個ID可以對應不同的關鍵詞匯,而且ID不需要連續,編程方式非常簡單。例如“中國”“華夏”,可以設置為同一個ID,之后再進行其他處理步驟。
2.2.3.2 對于關鍵詞ID設置多個可能發音,充分利用50項候選可識別語句
有時用戶可能不會用同一個詞來發出命令,例如“開燈”,用戶可能會說“開大燈”“打開燈”“打開電燈”“把電燈打開”等,其說話的口音、語氣、情緒、習慣是不同的。因此需把用戶的這些發音習慣都考慮到程序設計中,完全利用LD3320芯片的特性,充分利用50條可動態編輯的關鍵識別條目,編輯不同的候選語句并設置到芯片中。這樣用戶在發出命令后,被準確執行的效率增加,完善了系統的功能。
2.2.3.3 用戶通過語音命令后得到語音識別結果的等待時間調節
在本系統中,用戶發出口令后芯片大約有12 s的反應時間,然后才會給出識別反應。通過語音識別芯片的檢測機制來判斷用戶的口令是否全部發出,如監測出一段連續的噪音,就認為用戶口令已發完,之后給出識別結果。
2.2.4 使用過程中應注意的問題
在測試過程中發現,LD3320模塊應用時要注意以下問題:
(1)用戶使用時背景聲音(噪音、雜音等)會造成一定的干擾;
(2)設置語音模塊內識別列表的內容和50個可編輯的候選語句有關;
(3)設置識別列表中各詞匯之間的相似程度;
(4)用戶的發音快慢、大小、口音以及發音是否清晰等;
(5)距離麥克風的位置遠近以及接收語音的外設(麥克風等)質量等。
3 智能家居聲控系統的軟件程序設計
智能家居聲控系統的程序處理過程主要包括單片機初始化;LD3320芯片的初始化;LD3320語音識別結果寄存器的讀取以及單片機對外設的控制等。
3.1 具體軟件功能模塊介紹
(1)單片機初始化函數:void MCU_init()
名稱:void MCU_init()。
功能:單片機初始化。
(2)中斷處理函數:void ExtInt0Handler(void) interrupt 0
名稱:中斷處理函數。
功能:對LD3320的中斷請求進行處理。
其他說明:語音識別模塊接收到音頻信號后進入函數,判斷識別結果,若無結果則設置寄存器開始下次識別。
(3)用戶執行函數:void User_handle(uint8 dat)
名稱:用戶執行函數。
功能:識別結果成功后,MUC進行之后的處理。
(4)LD3320復位函數:void LD_Reset()
功能描述:復位LD模塊。
(5)LD3320初始化函數:void LD_Init_Common()
功能描述:LD模塊命令初始化。
其他說明:該函數一般不需要修改。
(6)LD3320ASR功能初始化函數:void LD_Init_ASR()
功能描述:LD模塊ASR功能初始化。
其他說明:該函數一般不需要修改。
(7)運行ASR識別處理函數uint8 RunASR(void)
功能描述:運行ASR識別流程。
返回值:asrflag:1->啟動成功;0->啟動失敗。
其他說明:識別順序如下:
① RunASR()函數實現一次完整的ASR語音識別流程;
② LD_AsrStart()函數實現了ASR初始化;
③ LD_AsrAddFixed()函數添加關鍵詞語到LD3320中;
④ LD_AsrRun()函數啟動一次ASR語音識別流程。
任何一次ASR識別流程均從初始化開始,皆按照此順序進行。
(8)語音命令添加函數:uint8 LD_AsrAddFixed()
功能描述:向LD模塊添加關鍵詞。
返回值:flag:1->添加成功。
(9)識別結果獲取函數:uint8 LD_GetResult()
功能描述:獲取識別結果。
返回值:LD_ReadReg(0xc5 ),讀取內部寄存器返回的識別碼。
3.2 系統程序流程圖
聲控系統單片機程序流程圖如圖3所示。
4 系統測試
本系統以“小明”為一級指令口令,每次識別時必須先觸發一級口令,才能進行二級口令,如臥室關燈、臥室開燈、客廳開燈、客廳關燈等。
系統加入電源后對麥克風說“小明”一級口令,指示燈閃爍亮燈后,再對著麥克風說:“臥室開燈”二級口令則繼電器控制臥室燈亮。目前該系統能識別的二級口令有5個,分別是“客廳開燈”“客廳關燈”“臥室開燈”“臥室關燈”和“close all”,實際可以根據具體布置需要增加控制節點及相應識別口令。
5 結 語
智能家居聲控系統不僅能為大家帶來舒適的居住環境,還具有系統可靠性高,誤識率低,方便適用的特點,具有廣大的應用前景。
參考文獻
[1]王炳錫.實用語音識別基礎――21世紀高等院校技術優秀教材[M].北京:國防工業出版社,2015.
[2]譚浩強.C程序設計教程[M].北京:清華大學出版社,2007.
[3]金鑫,田,闕大順.基于LD3320的語音控制系統設計實現[J].電腦與信息技術,2011,19(6):22-25.
[4]徐波.語音識別技術發展現狀與展望[Z].中科院自動化研究所,2011.
轉機
讓計算機能夠識別人類的語音,從而使得人們能夠用自己的母語與計算機進行人機交互,一直是計算機學科追求的目標之一。談到語音識別,就不能不談一下李開復。
1983年秋,李開復進入卡內基·梅隆大學,師從羅杰·瑞迪教授,攻讀博士學位。瑞迪建議李開復選擇不特定語者的語音識別系統作為研究方向,并建議采用專家系統的方法,來解決讓電腦聽懂每個人說的話的難題。瑞迪是人工智能領域的權威,后來還獲得1994年圖靈獎。經過近1年的研究,盡管研究有了一些進展,但李開復最終認識到,受技術發展的限制,專家系統相當長時間內難以解決這一難題。在一位同門師兄的提醒下,李開復轉而采用統計模型的研究路徑,終獲成功。1988年,李開復獲得博士學位。時至今日,語音識別技術依舊采用的是李開復開創的統計模型。
1998年,IBM中文語音識別技術Via Voice在國內PC市場掀起了一場中文語音輸入熱潮。第二年,當今國內最大的智能語音識別公司科大訊飛誕生于中國科技大學。
同年,出任微軟中國研究院院長的李開復曾告訴媒體,語音識別需要的計算資源太多,實用化還要走很長的路。
“中文語音識別市場在2000年左右逐漸由熱變冷,這主要是由于當時算法還比較初級,對計算資源的需求很大,產業環境也不成熟。于是,很多人轉去做別的行業。也正是在這個時候,我們團隊的主要成員初涉這個領域,進入研究所和高校讀博讀碩?!绷杭叶骶驮谀莻€時期考入中科院自動化所模式識別國家重點實驗室。模式識別實驗室分為圖像識別和語音識別兩大研究方向,圖像識別領域誕生了漢王公司,而梁家恩則在語音識別領域歷經5年寒窗,完成了碩博連讀。
梁家恩介紹說:“我們這些人一直專注于語音識別和語義理解的研究。到了2010年左右,語音識別技術取得了突破性進展,移動互聯網也得到普及。加之2011年10月蘋果iPhone 4S,作為新產品一大亮點的智能語音助手Siri在市場上再次引爆語音識別熱。我們覺得商業化的機會已經成熟,2012年6月,我們創建了云知聲,并搭建了用于語音識別的公有云平臺。”
突破
雖然現在的語音識別還是采用統計算法,但這十多年來,語音識別技術發展很快。
“首先是數據資源豐富了,以前在實驗室收集幾百個人的語音都非常困難,現在我們有了語音云平臺,吸引了各地不同口音的人們,每天采集上百GB的數據量,樣本非常豐富,這有利于分析和改進我們的系統?,F在的樣本規模比李開復老師當時做的系統的樣本規模擴大了幾個數量級,而且現在的數據都是真實數據,遠非那時模擬數據所能比擬,這在統計算法中至關重要?!绷杭叶鞅硎?。
“二是統計技術和神經網絡學習等關鍵技術取得較大的突破,在環境噪聲處理和對口音識別方面的改進非常明顯,識別率顯著提升。算法上也做了一些優化,以前的算法你要做一系列實驗可能需要一兩年的時間,根本沒法實現?!绷杭逸x說,“再有就是智能手機中CPU技術的進步以及GPU的應用,加之后臺云計算處理能力的提升,為智能語音識別提供了強大的計算資源?!?/p>
語音識別實際上是搜索。梁家恩介紹說,語音識別就是從一句話的聲波中提取語音特征,然后與后臺數據進行匹配,由于現在的數據庫非常大,因此比對的精確度比過去要高得多。雖說都是搜索,但百度搜索是文本檢索,它要求捕獲全網信息的變化,即信息更新要快。而語音識別上,因為語音特征與文本并沒有對應關系,因此,比對精確度就成為語音識別的核心技術所在。
由于面向語音識別這一特定應用,云知聲的公有云平臺與通用的云平臺也有所區別?!拔覀兊讓硬捎玫囊彩羌杭軜?,單臺服務器并發線程數達到100,這已是業界最快的;再通過災備、安全等技術來確保平臺的穩?。蝗缓笫菍⒛壳耙呀浗⒌谋本?、上海和廣州機房的計算資源聯在一起。我們也對虛擬化做了測試,但虛擬化會帶來5%~10%的性能損失,這與我們追求性能最高化的目標不符合。因此,我們采用高性能計算平臺,讓硬件對語音識別這一特定應用進行優化。”
互聯網思維
伴隨著智能手機和平板電腦取代PC成為個人計算市場的主流,人機交互也從傳統的鍵盤操作轉換為觸屏操作。而在注重用戶體驗的移動互聯網時代,智能語音識別將帶來更快更方便的用戶體驗,特別是在車載、可穿戴式電腦等應用上。
梁家恩認為,作為自然高效的交互方式,智能語音技術不僅要識別用戶的話語,而且還要能夠智能地通過屏幕或者TTS(從文本到語音)的方式實現與用戶交流,因而在智能移動設備、廣播電視、呼叫中心、會議記錄、語言學習、知識學習、互動娛樂等領域有著廣闊的應用前景。
“我想查一下今天晚上北京飛上海的航班。”在采訪過程中梁家恩對著手機說,話音剛落,手機屏幕上刷新出北京至上海的航班信息。
這個簡單的演示可以直白地反映出云知聲的商業模式。由于智能手機與機主的對應關系,加之其定位和支付功能,這句話已經包含了這一具有在線支付手同的潛在顧客是誰、在什么地方、具體需求是什么。這對于商家而言,客戶信息已經足夠了,商家甚至還可以通過手機號碼來關聯客戶的信用、過往的消費習慣等,從而做出精準的營銷響應。
“我們不像現在市場有的語音識別公司那樣,通過軟件授權的方式向用戶收費。我們相信互聯網的力量,所有語音用戶需求匯總到后臺后,所蘊含的商業價值要遠遠大于軟件授權帶來的價值?!绷杭叶髡f,“我們承諾將公有云平臺服務的體驗做到極致并且永遠免費,同時云知聲的智能語音技術向合作伙伴完全開放,即不限領域、不限形態、不限商業模式。當后臺數據的商業價值變現時,我們將與合作伙伴分成。”
關鍵詞:語音識別;孤立詞;動態時間規整;朝鮮語
中圖分類號:TP319文獻標識碼:A文章編號文章編號:16727800(2013)0010010304
作者簡介:王曉丹(1981-),女,碩士,延邊大學工學院講師,研究方向為語音識別、模式識別;金國哲(1983-),男,碩士,延邊大學工學院講師,研究方向為游戲軟件。
0引言
語音識別是讓機器自動識別和理解語音信號,并把語音信號轉化為相應的文本或命令的技術[1]。語音識別技術的解決將不僅使計算機成為普通百姓得心應手的工具,而且對于許多機器的操作、生產過程的控制,還有通信、口語機器翻譯等領域來說,語音識別都大有用武之地[2]。目前,信息產業發展迅速,方便、快捷、高效的電子產品越來越受到用戶的青睞。語音識別作為人機交互的一項關鍵技術,具備了這樣的特點,特別在一些特定的環境或是對于一些特定的人,語音識別可以帶來很大的方便。語音識別系統實際上屬于一種模式識別系統,它包括特征提取、模式匹配、參考模式庫等基本單元,其原理如圖1所示。
輸入的模擬語音信號首先進行預處理,包括預加重、分幀處理、數模轉換、自動增益控制等過程。為了從每一個詞條中提取出隨時間變化的語音特征序列,作為一個模型保存為參考模板,就要對預處理后的語音信號進行特征參數提取。待識別的語音信號同樣經過特征參數提取后生成測試模板。對語音的識別過程即是將測試模板與參考模板進行匹配的過程,識別結果即是相似率最高的一個參考模板。對于輸入信號計算測定,再根據若干準則和專家知識,來判決選出最終結果并由識別系統輸出。語音識別系統設計要考慮服務對象、詞表大小、工作環境、發音方式、任務性質等許多因素,不同的應用需要采用不同的方法實現,才能達到理想的效果[3]。本文所采用的朝鮮語緊急呼叫號碼的語音識別系統采用后文所述的幾個步驟和方法。
1預處理
本設計中對語音信號的預處理過程包括預加重、分幀處理及窗化處理。
1.1語音信號的預加重
采用預加重方法處理語音信號能補償語音信號的固有衰落,而且能有效地消除唇輻射的影響[4]。該方法的傳遞函數為:H(z)=1-0.94z-1(1)
設S(n)為輸入的語音信號,經過預加重后得到的信號為:
中找出語音的開始和終止點。確定語音信號的起止點能更好地對語音信號進行識別,從而提高系統識別率和獲取到更好的語音特征參數。端點檢測的常用方法有短時過零率、短時平均能量、基于熵的特征、短時頻域處理等幾種[6]。本文中端點檢測部分選擇短時平均能量和短時過零率相結合的方法。清音的過零率要高于濁音和靜音部分,因此短時過零率可用于確定清音。而濁音和清音的時域能量要高于靜音部分,所以短時時域平均能量可用于確定濁音。在進行語音檢測時,首先找出哪一幀語音的能量超過能量門限,然后往前根據過零率確定語音的起點,同樣方法可確定語音的終點。
2特征提取如何選擇語音特征直接關系到最終的識別效果。每段語音經過特征提取后具有了各自的特征值,特征間的距離量度反映出語音間的相似度。因此特征選擇的標準應使得異音字特征間的距離盡量大,同音字間的距離盡量小。同時,在保持高識別率的情況下,還應盡量減少特征維數,以減小特征參數的計算量。人耳對200Hz到5kHz之間的語音信號最為敏感,高音不容易掩蔽低音,反之則較容易,高頻處的聲音掩蔽的臨界帶寬較低頻端小。因此本文的朝鮮語孤立詞語音識別系統首先采用在Mel頻率軸上均勻分布的三角形濾波器,設
圖3語音識別仿真過程
Step3:對分幀處理后的每幀信號求MFCC系數。Step4:通過DTW算法求出測試模板與參考模板的特征參數,選擇差值最小的作為輸出結果。語音控制器選用“Cool Edit Pro V2.1”進行錄音采樣。Cool Edit Pro 是美國 Adobe Systems 公司開發的一款功能強大、效果出色的多軌錄音和音頻處理軟件。該軟件可提供多種特效為作品增色,如壓縮、擴展、延遲、降噪、回聲、失真等。并且可同時在幾個文件中進行剪切、粘貼、合并、重疊聲音的操作,還可以生成靜音、噪音、低音、電話信號等。本文采樣率為8 000Hz,聲道為單聲道,采樣精度為16位。語音庫需要對朝鮮語的“”、“”、“”、“”、“”這幾個詞進行錄音采樣。采集到的音頻信號,經過Matlab提供的wav文件讀寫函數,以及聲卡的錄音和放音函數,可以實現某些語音信號處理工作。語音工具箱voicebox為實現語音識別提供了許多實用函數。本語音識別系統的文件包含15個模板語音文件,25個語音庫文件和5個處理函數。
以下分別就5種韓國緊急電話號碼進行了識別實驗,并對結果進行了部分截圖,實驗結果包含模板波形圖和測試結果。第一組是天氣預報電話號碼131;第二組是報警電話號碼112;第三組是火警電話號碼119;第四組是電話咨詢號碼114;第五組是海洋咨詢電話號碼。如圖4和圖5是分別對韓國火警電話119的采樣后的語音波形圖和識別結果。
通過對特定人朝鮮語呼叫號碼的語音識別結果的分析,可以得出以下結論:①在語音庫樣本數量足夠,相關被測人數適當的情況下,DTW算法能夠有效地識別語音控制指令;②識別效果與測試內容緊密相關,對于、這類數字,該算法完全可以準確識別出結果;③對
于有連讀發音的號碼、、等,由于個人發音特點的差異,該算法會偶爾出現識別錯誤的現象,但錯誤率在6%以下。
5結語
本文實現了朝鮮語緊急呼叫號碼語音識別系統的軟件算法部分。其過程主要包括:語音預加重處理、短時能量和過零率兩級端點檢測算法進行端點檢測、MFCC算法進行語音特征參數提取等。綜合考慮環境、算法復雜度等因素,DTW算法能夠既簡單又有效地識別朝鮮語緊急呼叫號碼。通過MATLAB仿真實驗,驗證了該算法識別朝鮮語詞匯的準確率較高。出錯的主要原因有:①靜音部分過長和無靜音時的差別;②朝鮮語發音規則決定個人發音特點的差異較大。這些問題都有待進一步研究。
參考文獻:
[1]MOKBEL, CHAFIC E,CHOLLET,et al.Automatic word recognition in cars[J].IEEE Transactions on Speech and Audio Processing,2005:346356.
[2]陳尚勤.近代語音識別[M].成都:電子科技大學出版社,1991.
[3]高宏濤,張德賢.語音識別技術研究及實現[J].光盤技術,2007,(3):2428.