首頁>>廠商>>語音識別與合成>>得意音通

語音識別前景如何?

鄭方 1999/12/06

  鄭方,1967年生于江蘇省,獲清華大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè)學(xué)士、碩士及博士學(xué)位,F(xiàn)為清華大學(xué)副教授,清華-adidsp技術(shù)研究中心主任及語音實(shí)驗(yàn)室主任。鄭方作為主要承擔(dān)者或負(fù)責(zé)人參與了許多語音識別領(lǐng)域的國家重點(diǎn)攻關(guān)項(xiàng)目和863高科技項(xiàng)目并多次獲獎。另外,他還負(fù)責(zé)開發(fā)了若干基于ti和adi的dsp語音識別產(chǎn)品。他的專業(yè)興趣包括信號處理,聲學(xué)/語言模型建模,孤立詞/連續(xù)語音識別,關(guān)鍵詞檢出,語音聽寫,語言理解等,F(xiàn)為ieee會員,中國《中文信息學(xué)報》編委。他已發(fā)表40余篇有關(guān)語音處理的學(xué)術(shù)論文,其中數(shù)篇獲獎。

  在以計算機(jī)或類計算機(jī)為核心的電子產(chǎn)品時代,人機(jī)交互技術(shù)正成為各國研究的重點(diǎn)之一。

  所謂人機(jī)交互技術(shù),就是利用人類自身的語言、文字、圖像等進(jìn)行人機(jī)之間通訊的技術(shù)統(tǒng)稱,人機(jī)自然語言(語音)通訊是其中較具潛能的一種。由于具有理解人類自然語言的計算機(jī)智能是新一代計算機(jī)的重要特征,圍繞人機(jī)自然語言交互技術(shù)有關(guān)課題的研究是當(dāng)今計算機(jī)、人工智能和信號處理研究的前沿?zé)狳c(diǎn)課題,難度很大,既有很強(qiáng)的理論性又有很強(qiáng)的實(shí)驗(yàn)性。

  人機(jī)語音交互的關(guān)鍵技術(shù)包括:語音識別與理解、語音合成和機(jī)器翻譯等。這些關(guān)鍵技術(shù)本身又具有廣闊的應(yīng)用和市場前景,其中尤以語音識別為甚。許多國家都制定了專門計劃大力開展語音識別方面的研究,其中包括美國的darpa、英國的alvy、法國的escep、中國的863和973等計劃。漢語的人機(jī)交互技術(shù)因漢字的計算機(jī)輸入問題而更有著極其廣闊的市場應(yīng)用前景。

  研究領(lǐng)域

  廣義的語音識別應(yīng)該是一個統(tǒng)稱,指與語音數(shù)字信號處理相關(guān)的各種意義上的識別。具體地講,它包括以下幾個方面。

 。1)識別說話的內(nèi)容是什么。按詞表大小分,有小詞表、中詞表和大詞表語音識別;按發(fā)音方式分,有孤立詞、連接詞和連續(xù)語音的語音識別;按說話人適應(yīng)范圍分,有特定人、限定人和非特定人語音識別。隨著語音識別的發(fā)展,派生出的新課題還有關(guān)鍵詞識別或稱關(guān)鍵詞檢出,這在基于內(nèi)容的信息檢索中將會發(fā)揮很大的作用。美國bell實(shí)驗(yàn)室80年代推出的5個關(guān)鍵詞識別系統(tǒng)是一個成功的范例,它目前廣泛用于美國at&t的電話設(shè)備,可以對用連續(xù)語音表述的各種不同付費(fèi)方式通過關(guān)鍵詞檢出進(jìn)行分流,每年為at&t公司節(jié)省數(shù)億美元的接線員人工費(fèi)。

 。2)識別說話人是誰。和內(nèi)容識別不同,內(nèi)容識別是說話人共性的識別,而說話人識別則是個性的識別,即所謂的聲紋識別。該技術(shù)為說話人的身份鑒別和確認(rèn)、個性化環(huán)境配置以及信息安全等提供了一種可選的方案。

 。3)識別說的是什么語言。這就是語種識別。隨著語音識別的多語種化和混合語種化,在把語音分揀到不同語種的識別器之前,語種識別起到了很好的預(yù)分流作用。

 。4)評價說話的標(biāo)準(zhǔn)程度。這是說話發(fā)音評分。其目標(biāo)是給出用戶發(fā)音標(biāo)準(zhǔn)程度百分制得分并指出發(fā)音不標(biāo)準(zhǔn)的地方,供學(xué)習(xí)者參考,可以廣泛用于語言教學(xué)應(yīng)用中。這里的難點(diǎn)是如何給出“百分制得分”和如何指出發(fā)音不標(biāo)準(zhǔn)的地方,有時往往需要綜合利用諸如語音確認(rèn)和拒識、聲調(diào)識別、韻律識別等綜合技術(shù)。

  典型應(yīng)用產(chǎn)品

  從應(yīng)用的角度講,目前在市場上有以下幾種典型的語音識別產(chǎn)品。

 。1)語音命令和控制,這是無論從技術(shù)還是應(yīng)用角度講都已經(jīng)很成熟的中小詞表孤立詞語音識別?梢詮V泛應(yīng)用于諸如語音命令導(dǎo)航、家電語音控制、聲控電話號碼簿和聲控?fù)芴、個人數(shù)字助理等。但是要使其真正好用并被用戶廣泛接受,沒有關(guān)鍵詞檢出技術(shù)是不行的。

 。2)非特定人、大詞表、連續(xù)語音識別,即語音聽寫機(jī),代表了語音識別的最高目標(biāo)。美國ibm公司的voicetype和viavoice、美國dragon公司的naturallyspeaking、我國臺灣聲碩公司的“說亦通”,以及我們實(shí)驗(yàn)室的easytalk等都屬于這類產(chǎn)品。

  這類產(chǎn)品在某種程度上講已經(jīng)取得了很大的成功,但是很多方面的因素卻影響了它的推廣。第一是用戶的語音產(chǎn)品觀念和對語音產(chǎn)品的認(rèn)同程度;第二是產(chǎn)品的識別率;第三是產(chǎn)品的易用性和友好程度。如果說這三個因素可以通過技術(shù)人員和市場人員的努力而逐步得以改善的話,那么下面一個因素將幾乎成為一個先天不足、后天不良的不利因素。由于語音聽寫機(jī)沒有語言理解功能而只能定位在語音打字這樣的應(yīng)用市場上,但在用語音進(jìn)行“打字”時,用戶容易口干舌燥,內(nèi)容容易泄密,“打字聲”會影響周圍同事的工作。這第四個因素是一個只有負(fù)面效果的客觀因素,極大地限制了聽寫機(jī)的推廣。

  但是,對技術(shù)研究人員來說,語音聽寫機(jī)作為連續(xù)語音識別先進(jìn)技術(shù)集成者的體現(xiàn),從技術(shù)積累和探索的角度還是應(yīng)該進(jìn)行深入研究的,因?yàn)樗恼Z音識別核心技術(shù)從聲學(xué)角度講代表了語音識別的最高目標(biāo),也是其他一些重要語音研究和應(yīng)用的基礎(chǔ)。

  (3)說話水平評測。這類產(chǎn)品在很大程度上屬于多媒體教學(xué)軟件。從技術(shù)的角度上講,它包含結(jié)果已知的語音識別、語音確認(rèn)與拒識,以及百分制映射等三部分。該類產(chǎn)品下一步要攻克的問題,除了語音識別本身的問題外,還包括對說話韻律的判別及如何技術(shù)性地指明發(fā)音不準(zhǔn)的地方和如何改進(jìn)的方向。

  仍須努力創(chuàng)新

  語音識別雖然已經(jīng)有比較大的進(jìn)步,但必須有大的創(chuàng)新才可能有大的突破。主要包括以下幾個方面:

  1.提高系統(tǒng)魯棒性和自適應(yīng)能力,包括語音特征提取、聲學(xué)模型、語言模型等諸多方面的魯棒性和自適應(yīng)等。

  語音的特征提取和聲學(xué)模型對含噪語音、不同信道傳輸施加給語音的影響、不同發(fā)音人及其不同方式等要有魯棒性和自適應(yīng)能力;語言模型對各種不同的應(yīng)用領(lǐng)域要有魯棒性和自適應(yīng)能力。

  2.在語音識別中使用語音學(xué)知識和語言學(xué)知識。語音模型的建立仍然是一個基本問題,但對什么樣的發(fā)音建什么樣的模型就不僅是數(shù)學(xué)建模的問題,還需把語音知識和語言知識結(jié)合起來,以高層知識作為建模和識別的引導(dǎo)。這些知識不管在聲學(xué)模型部分還是在語言模型部分都應(yīng)該盡可能應(yīng)用。

  3.重視海量語音庫和語料庫的制作和標(biāo)注。語音庫用以訓(xùn)練語音模型,語料庫則用以訓(xùn)練統(tǒng)計語言模型,它們的制作和標(biāo)注有著舉足輕重的地位。一個海量的、科學(xué)標(biāo)注了的語音庫和語料庫對提高聲學(xué)模型和語言模型是非常重要的。

  4.策略型和多模態(tài)方案。在目前的技術(shù)還不是特別成熟的前提下,可能需要綜合利用各種已有技術(shù)來提高系統(tǒng)的整體性能。比如充分利用各種可以利用的特征、集成各種識別性能互補(bǔ)的若干識別器、結(jié)合語音識別和手寫體文字識別,為用戶提供各種不同應(yīng)用的方案。這些都是有益的解決方案。

  5.窄帶應(yīng)用和口語對話應(yīng)用。語音聽寫機(jī)之所以不能很好推廣,也許是因?yàn)槟壳坝胁簧俪錾臐h字輸入方法,如全拼、雙拼、五筆等。但是有些場合,如通過帶寬很窄的電話線對遠(yuǎn)程的數(shù)據(jù)庫進(jìn)行信息檢索和查詢(如天氣預(yù)報、旅游信息、股市行情、航班信息等)時,語音識別就會發(fā)揮很大的作用,從而會有很大的應(yīng)用前景。這是因?yàn),語音是非常自然的方式,而且由于電話上只有數(shù)字鍵,相對于用數(shù)字鍵進(jìn)行逐級的需求確認(rèn)來說,語音識別更具有競爭力。

  在這種應(yīng)用中,需要解決的技術(shù)難點(diǎn)包括:(一)由于電話信道帶寬窄(只有3.4khz),語音信號的信息損失較大,電話機(jī)和信道質(zhì)量差異大,背景噪音和信道噪音種類繁多,因此必須有性能優(yōu)異的語音增強(qiáng)、特征提取、語音識別與理解等算法。(二)由于說話人的在查詢時使用的都是自然語言,因此必須研究口語現(xiàn)象。(三)必須研究語言理解技術(shù)。聽寫機(jī)只能解決語音到文本的轉(zhuǎn)換,卻不知其意;但口語對話系統(tǒng)必須有語言理解部分才能知道用戶的查詢需求,并有針對性地提供相應(yīng)的信息。

  6.制定軟件開發(fā)工具(sdk)。為了推廣語音產(chǎn)品,制定方便中間開發(fā)人員使用sdk也非常重要。一些知名公司無不在此傾注力量,以期制定工業(yè)標(biāo)準(zhǔn)。如ibm的ibm sdk、微軟的microsoft sapi、dragon公司的dragon sdk、以及l(fā)&h公司的spark等都是用于開發(fā)語音產(chǎn)品的軟件開發(fā)工具。這也是國內(nèi)研發(fā)機(jī)構(gòu)需要學(xué)習(xí)和注意的地方。

得意音通公司供稿 原文《中國計算機(jī)報》,第91期,1999年12月6日



相關(guān)鏈接:
得意珠三角綜合智能信息增值平臺項(xiàng)目中標(biāo) 2009-08-20
北京軟件產(chǎn)品質(zhì)量檢測檢驗(yàn)中心對《海量語音文件的目標(biāo)說話人篩選系統(tǒng)》進(jìn)行測試 2009-06-25
廣東政府和清華大學(xué)舉行了全面開展產(chǎn)學(xué)研合作協(xié)議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開源for Windows Mobile5.0 2009-01-23
得意聲紋識別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息:     技術(shù)_語音識別_文摘
金堂县| 栖霞市| 望城县| 浏阳市| 广元市| 方正县| 卢氏县| 宜宾市| 玉树县| 民和| 南开区| 丰都县| 正阳县| 固镇县| 武宁县| 涿州市| 黔西县| 苍梧县| 阿图什市| 岱山县| 徐州市| 阳城县| 德保县| 泌阳县| 万全县| 贡觉县| 中牟县| 景宁| 历史| 平湖市| 昭通市| 建昌县| 陆丰市| 苍梧县| 大港区| 抚远县| 清远市| 开远市| 通化县| 葵青区| 疏附县|