語(yǔ)音識(shí)別前景如何？

鄭方 1999/12/06

　　鄭方，1967年生于江蘇省，獲清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)學(xué)士、碩士及博士學(xué)位�，F(xiàn)為清華大學(xué)副教授，清華－adidsp技術(shù)研究中心主任及語(yǔ)音實(shí)驗(yàn)室主任。鄭方作為主要承擔(dān)者或負(fù)責(zé)人參與了許多語(yǔ)音識(shí)別領(lǐng)域的國(guó)家重點(diǎn)攻關(guān)項(xiàng)目和863高科技項(xiàng)目并多次獲獎(jiǎng)。另外，他還負(fù)責(zé)開(kāi)發(fā)了若干基于ti和adi的dsp語(yǔ)音識(shí)別產(chǎn)品。他的專業(yè)興趣包括信號(hào)處理，聲學(xué)／語(yǔ)言模型建模，孤立詞／連續(xù)語(yǔ)音識(shí)別，關(guān)鍵詞檢出，語(yǔ)音聽(tīng)寫(xiě)，語(yǔ)言理解等�，F(xiàn)為ieee會(huì)員，中國(guó)《中文信息學(xué)報(bào)》編委。他已發(fā)表40余篇有關(guān)語(yǔ)音處理的學(xué)術(shù)論文，其中數(shù)篇獲獎(jiǎng)。

　　在以計(jì)算機(jī)或類計(jì)算機(jī)為核心的電子產(chǎn)品時(shí)代，人機(jī)交互技術(shù)正成為各國(guó)研究的重點(diǎn)之一。

　　所謂人機(jī)交互技術(shù)，就是利用人類自身的語(yǔ)言、文字、圖像等進(jìn)行人機(jī)之間通訊的技術(shù)統(tǒng)稱，人機(jī)自然語(yǔ)言（語(yǔ)音）通訊是其中較具潛能的一種。由于具有理解人類自然語(yǔ)言的計(jì)算機(jī)智能是新一代計(jì)算機(jī)的重要特征，圍繞人機(jī)自然語(yǔ)言交互技術(shù)有關(guān)課題的研究是當(dāng)今計(jì)算機(jī)、人工智能和信號(hào)處理研究的前沿?zé)狳c(diǎn)課題，難度很大，既有很強(qiáng)的理論性又有很強(qiáng)的實(shí)驗(yàn)性。

　　人機(jī)語(yǔ)音交互的關(guān)鍵技術(shù)包括：語(yǔ)音識(shí)別與理解、語(yǔ)音合成和機(jī)器翻譯等。這些關(guān)鍵技術(shù)本身又具有廣闊的應(yīng)用和市場(chǎng)前景，其中尤以語(yǔ)音識(shí)別為甚。許多國(guó)家都制定了專門(mén)計(jì)劃大力開(kāi)展語(yǔ)音識(shí)別方面的研究，其中包括美國(guó)的darpa、英國(guó)的alvy、法國(guó)的escep、中國(guó)的863和973等計(jì)劃。漢語(yǔ)的人機(jī)交互技術(shù)因漢字的計(jì)算機(jī)輸入問(wèn)題而更有著極其廣闊的市場(chǎng)應(yīng)用前景。

　　研究領(lǐng)域

　　廣義的語(yǔ)音識(shí)別應(yīng)該是一個(gè)統(tǒng)稱，指與語(yǔ)音數(shù)字信號(hào)處理相關(guān)的各種意義上的識(shí)別。具體地講，它包括以下幾個(gè)方面。

　　（1）識(shí)別說(shuō)話的內(nèi)容是什么。按詞表大小分，有小詞表、中詞表和大詞表語(yǔ)音識(shí)別；按發(fā)音方式分，有孤立詞、連接詞和連續(xù)語(yǔ)音的語(yǔ)音識(shí)別；按說(shuō)話人適應(yīng)范圍分，有特定人、限定人和非特定人語(yǔ)音識(shí)別。隨著語(yǔ)音識(shí)別的發(fā)展，派生出的新課題還有關(guān)鍵詞識(shí)別或稱關(guān)鍵詞檢出，這在基于內(nèi)容的信息檢索中將會(huì)發(fā)揮很大的作用。美國(guó)bell實(shí)驗(yàn)室80年代推出的5個(gè)關(guān)鍵詞識(shí)別系統(tǒng)是一個(gè)成功的范例，它目前廣泛用于美國(guó)at＆t的電話設(shè)備，可以對(duì)用連續(xù)語(yǔ)音表述的各種不同付費(fèi)方式通過(guò)關(guān)鍵詞檢出進(jìn)行分流，每年為at＆t公司節(jié)省數(shù)億美元的接線員人工費(fèi)。

　�。�2）識(shí)別說(shuō)話人是誰(shuí)。和內(nèi)容識(shí)別不同，內(nèi)容識(shí)別是說(shuō)話人共性的識(shí)別，而說(shuō)話人識(shí)別則是個(gè)性的識(shí)別，即所謂的聲紋識(shí)別。該技術(shù)為說(shuō)話人的身份鑒別和確認(rèn)、個(gè)性化環(huán)境配置以及信息安全等提供了一種可選的方案。

　�。�3）識(shí)別說(shuō)的是什么語(yǔ)言。這就是語(yǔ)種識(shí)別。隨著語(yǔ)音識(shí)別的多語(yǔ)種化和混合語(yǔ)種化，在把語(yǔ)音分揀到不同語(yǔ)種的識(shí)別器之前，語(yǔ)種識(shí)別起到了很好的預(yù)分流作用。

　�。�4）評(píng)價(jià)說(shuō)話的標(biāo)準(zhǔn)程度。這是說(shuō)話發(fā)音評(píng)分。其目標(biāo)是給出用戶發(fā)音標(biāo)準(zhǔn)程度百分制得分并指出發(fā)音不標(biāo)準(zhǔn)的地方，供學(xué)習(xí)者參考，可以廣泛用于語(yǔ)言教學(xué)應(yīng)用中。這里的難點(diǎn)是如何給出“百分制得分”和如何指出發(fā)音不標(biāo)準(zhǔn)的地方，有時(shí)往往需要綜合利用諸如語(yǔ)音確認(rèn)和拒識(shí)、聲調(diào)識(shí)別、韻律識(shí)別等綜合技術(shù)。

　　典型應(yīng)用產(chǎn)品

　　從應(yīng)用的角度講，目前在市場(chǎng)上有以下幾種典型的語(yǔ)音識(shí)別產(chǎn)品。

　�。�1）語(yǔ)音命令和控制，這是無(wú)論從技術(shù)還是應(yīng)用角度講都已經(jīng)很成熟的中小詞表孤立詞語(yǔ)音識(shí)別�？梢詮V泛應(yīng)用于諸如語(yǔ)音命令導(dǎo)航、家電語(yǔ)音控制、聲控電話號(hào)碼簿和聲控?fù)芴?hào)、個(gè)人數(shù)字助理等。但是要使其真正好用并被用戶廣泛接受，沒(méi)有關(guān)鍵詞檢出技術(shù)是不行的。

　�。�2）非特定人、大詞表、連續(xù)語(yǔ)音識(shí)別，即語(yǔ)音聽(tīng)寫(xiě)機(jī)，代表了語(yǔ)音識(shí)別的最高目標(biāo)。美國(guó)ibm公司的voicetype和viavoice、美國(guó)dragon公司的naturallyspeaking、我國(guó)臺(tái)灣聲碩公司的“說(shuō)亦通”，以及我們實(shí)驗(yàn)室的easytalk等都屬于這類產(chǎn)品。

　　這類產(chǎn)品在某種程度上講已經(jīng)取得了很大的成功，但是很多方面的因素卻影響了它的推廣。第一是用戶的語(yǔ)音產(chǎn)品觀念和對(duì)語(yǔ)音產(chǎn)品的認(rèn)同程度；第二是產(chǎn)品的識(shí)別率；第三是產(chǎn)品的易用性和友好程度。如果說(shuō)這三個(gè)因素可以通過(guò)技術(shù)人員和市場(chǎng)人員的努力而逐步得以改善的話，那么下面一個(gè)因素將幾乎成為一個(gè)先天不足、后天不良的不利因素。由于語(yǔ)音聽(tīng)寫(xiě)機(jī)沒(méi)有語(yǔ)言理解功能而只能定位在語(yǔ)音打字這樣的應(yīng)用市場(chǎng)上，但在用語(yǔ)音進(jìn)行“打字”時(shí)，用戶容易口干舌燥，內(nèi)容容易泄密，“打字聲”會(huì)影響周圍同事的工作。這第四個(gè)因素是一個(gè)只有負(fù)面效果的客觀因素，極大地限制了聽(tīng)寫(xiě)機(jī)的推廣。

　　但是，對(duì)技術(shù)研究人員來(lái)說(shuō)，語(yǔ)音聽(tīng)寫(xiě)機(jī)作為連續(xù)語(yǔ)音識(shí)別先進(jìn)技術(shù)集成者的體現(xiàn)，從技術(shù)積累和探索的角度還是應(yīng)該進(jìn)行深入研究的，因?yàn)樗恼Z(yǔ)音識(shí)別核心技術(shù)從聲學(xué)角度講代表了語(yǔ)音識(shí)別的最高目標(biāo)，也是其他一些重要語(yǔ)音研究和應(yīng)用的基礎(chǔ)。

　�。�3）說(shuō)話水平評(píng)測(cè)。這類產(chǎn)品在很大程度上屬于多媒體教學(xué)軟件。從技術(shù)的角度上講，它包含結(jié)果已知的語(yǔ)音識(shí)別、語(yǔ)音確認(rèn)與拒識(shí)，以及百分制映射等三部分。該類產(chǎn)品下一步要攻克的問(wèn)題，除了語(yǔ)音識(shí)別本身的問(wèn)題外，還包括對(duì)說(shuō)話韻律的判別及如何技術(shù)性地指明發(fā)音不準(zhǔn)的地方和如何改進(jìn)的方向。

　　仍須努力創(chuàng)新

　　語(yǔ)音識(shí)別雖然已經(jīng)有比較大的進(jìn)步，但必須有大的創(chuàng)新才可能有大的突破。主要包括以下幾個(gè)方面：

　　1．提高系統(tǒng)魯棒性和自適應(yīng)能力，包括語(yǔ)音特征提取、聲學(xué)模型、語(yǔ)言模型等諸多方面的魯棒性和自適應(yīng)等。

　　語(yǔ)音的特征提取和聲學(xué)模型對(duì)含噪語(yǔ)音、不同信道傳輸施加給語(yǔ)音的影響、不同發(fā)音人及其不同方式等要有魯棒性和自適應(yīng)能力；語(yǔ)言模型對(duì)各種不同的應(yīng)用領(lǐng)域要有魯棒性和自適應(yīng)能力。

　　2．在語(yǔ)音識(shí)別中使用語(yǔ)音學(xué)知識(shí)和語(yǔ)言學(xué)知識(shí)。語(yǔ)音模型的建立仍然是一個(gè)基本問(wèn)題，但對(duì)什么樣的發(fā)音建什么樣的模型就不僅是數(shù)學(xué)建模的問(wèn)題，還需把語(yǔ)音知識(shí)和語(yǔ)言知識(shí)結(jié)合起來(lái)，以高層知識(shí)作為建模和識(shí)別的引導(dǎo)。這些知識(shí)不管在聲學(xué)模型部分還是在語(yǔ)言模型部分都應(yīng)該盡可能應(yīng)用。

　　3．重視海量語(yǔ)音庫(kù)和語(yǔ)料庫(kù)的制作和標(biāo)注。語(yǔ)音庫(kù)用以訓(xùn)練語(yǔ)音模型，語(yǔ)料庫(kù)則用以訓(xùn)練統(tǒng)計(jì)語(yǔ)言模型，它們的制作和標(biāo)注有著舉足輕重的地位。一個(gè)海量的、科學(xué)標(biāo)注了的語(yǔ)音庫(kù)和語(yǔ)料庫(kù)對(duì)提高聲學(xué)模型和語(yǔ)言模型是非常重要的。

　　4．策略型和多模態(tài)方案。在目前的技術(shù)還不是特別成熟的前提下，可能需要綜合利用各種已有技術(shù)來(lái)提高系統(tǒng)的整體性能。比如充分利用各種可以利用的特征、集成各種識(shí)別性能互補(bǔ)的若干識(shí)別器、結(jié)合語(yǔ)音識(shí)別和手寫(xiě)體文字識(shí)別，為用戶提供各種不同應(yīng)用的方案。這些都是有益的解決方案。

　　5．窄帶應(yīng)用和口語(yǔ)對(duì)話應(yīng)用。語(yǔ)音聽(tīng)寫(xiě)機(jī)之所以不能很好推廣，也許是因?yàn)槟壳坝胁簧俪錾臐h字輸入方法，如全拼、雙拼、五筆等。但是有些場(chǎng)合，如通過(guò)帶寬很窄的電話線對(duì)遠(yuǎn)程的數(shù)據(jù)庫(kù)進(jìn)行信息檢索和查詢（如天氣預(yù)報(bào)、旅游信息、股市行情、航班信息等）時(shí)，語(yǔ)音識(shí)別就會(huì)發(fā)揮很大的作用，從而會(huì)有很大的應(yīng)用前景。這是因?yàn)�，語(yǔ)音是非常自然的方式，而且由于電話上只有數(shù)字鍵，相對(duì)于用數(shù)字鍵進(jìn)行逐級(jí)的需求確認(rèn)來(lái)說(shuō)，語(yǔ)音識(shí)別更具有競(jìng)爭(zhēng)力。

　　在這種應(yīng)用中，需要解決的技術(shù)難點(diǎn)包括：（一）由于電話信道帶寬窄（只有3．4khz），語(yǔ)音信號(hào)的信息損失較大，電話機(jī)和信道質(zhì)量差異大，背景噪音和信道噪音種類繁多，因此必須有性能優(yōu)異的語(yǔ)音增強(qiáng)、特征提取、語(yǔ)音識(shí)別與理解等算法。（二）由于說(shuō)話人的在查詢時(shí)使用的都是自然語(yǔ)言，因此必須研究口語(yǔ)現(xiàn)象。（三）必須研究語(yǔ)言理解技術(shù)。聽(tīng)寫(xiě)機(jī)只能解決語(yǔ)音到文本的轉(zhuǎn)換，卻不知其意；但口語(yǔ)對(duì)話系統(tǒng)必須有語(yǔ)言理解部分才能知道用戶的查詢需求，并有針對(duì)性地提供相應(yīng)的信息。

　　6．制定軟件開(kāi)發(fā)工具（sdk）。為了推廣語(yǔ)音產(chǎn)品，制定方便中間開(kāi)發(fā)人員使用sdk也非常重要。一些知名公司無(wú)不在此傾注力量，以期制定工業(yè)標(biāo)準(zhǔn)。如ibm的ibm sdk、微軟的microsoft sapi、dragon公司的dragon sdk、以及l(fā)＆h公司的spark等都是用于開(kāi)發(fā)語(yǔ)音產(chǎn)品的軟件開(kāi)發(fā)工具。這也是國(guó)內(nèi)研發(fā)機(jī)構(gòu)需要學(xué)習(xí)和注意的地方。

得意音通公司供稿原文《中國(guó)計(jì)算機(jī)報(bào)》，第91期，1999年12月6日

北京軟件產(chǎn)品質(zhì)量檢測(cè)檢驗(yàn)中心對(duì)《海量語(yǔ)音文件的目標(biāo)說(shuō)話人篩選系統(tǒng)》進(jìn)行測(cè)試 2009-06-25

廣東政府和清華大學(xué)舉行了全面開(kāi)展產(chǎn)學(xué)研合作協(xié)議簽約儀式 2009-06-25

得意中文整句輸入法V1.0開(kāi)源for Windows Mobile5.0 2009-01-23

得意聲紋識(shí)別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息: 技術(shù)_語(yǔ)音識(shí)別_文摘
通江县| 巴林右旗| 吕梁市| 达日县| 澎湖县| 沈丘县| 阿瓦提县| 临海市| 新丰县| 伊通| 大兴区| 舟曲县| 天峻县| 新田县| 嘉禾县| 句容市| 平乡县| 手游| 宣化县| 香格里拉县| 栖霞市| 阜新| 巩留县| 龙里县| 广元市| 历史| 丹巴县| 昌都县| 芦山县| 黔西县| 荃湾区| 灵寿县| 临城县| 乌鲁木齐县| 榆中县| 江川县| 历史| 江口县| 尚志市| 武鸣县| 行唐县|