首頁>>廠商>>語音識別與合成>>科大訊飛

語音界面設(shè)計(jì)感想一二

陳焱 2004/08/31

  作為一家專業(yè)的語音及語言技術(shù)提供商,科大訊飛公司專門成立了一個(gè)部門進(jìn)行語音應(yīng)用的嘗試性開發(fā)和應(yīng)用跟蹤。用戶體驗(yàn)作為一個(gè)重要的環(huán)節(jié)貫穿每一個(gè)新的CTI應(yīng)用系統(tǒng)從最初的開發(fā)設(shè)計(jì)到最后走向最終用戶的全過程。在眾多的用戶體驗(yàn)中,我們注意到語音界面的設(shè)計(jì)直接影響到了整個(gè)系統(tǒng)的易用性、高效性和用戶對系統(tǒng)服務(wù)的直觀感受即系統(tǒng)的親切性。在這里,我們將一些關(guān)于語音界面設(shè)計(jì)的感想表述出來和CTI界的朋友們一同分享,希望更多的CTI系統(tǒng)設(shè)計(jì)者們能共同推動人性化語音應(yīng)用環(huán)境的發(fā)展。

  語音界面是用戶為了獲取信息和自動應(yīng)答系統(tǒng)進(jìn)行的對話過程。畢竟是同機(jī)器的對話,用戶并不想和機(jī)器聊天,獲取信息才是最終目的。因而,語音界面最基本的要求應(yīng)該是通過簡潔易懂的對話讓用戶最快最準(zhǔn)確的獲取其需要的信息。在此基礎(chǔ)上,再通過語言的不同表達(dá)方式、配合符合對話場景的音樂音效等手段創(chuàng)造出更自然更親切的對話環(huán)境,使用戶感受到體貼的服務(wù)。

  對話設(shè)計(jì)中最容易碰到的就是易懂和易用之間的矛盾。有些語音界面用戶要和系統(tǒng)進(jìn)行七八次對答才能實(shí)現(xiàn)某個(gè)功能,但又覺得如果不問這么多問題無法收集全客戶的查詢條件。這中間的矛盾似乎很難協(xié)調(diào),但設(shè)計(jì)者往往忽略了當(dāng)前所處的語言環(huán)境,而不能通過最簡潔有效的對答獲取信息。結(jié)合所處的語言環(huán)境,可以縮減掉很多冗余的信息,順著對話的語勢,不僅可以設(shè)計(jì)出簡短的對話,也能營造出一個(gè)很自然的對話氛圍,讓使用者減少與機(jī)器對話的抵觸感。

  在措辭表達(dá)方面,應(yīng)該盡量避免拖沓冗長的句式,盡量用短句來表達(dá)意思。若需要表達(dá)信息的句子確實(shí)很長,建議將最有用的信息放在最後。因?yàn)槁犝邔Χ叹浔葘﹂L句的理解容易;對聽到的最近的語音印象較深。

  語音界面的自然、親切在錄好的提示音而言比較容易實(shí)現(xiàn),只要在發(fā)音人的音色和發(fā)音風(fēng)格上加以注意就可以達(dá)到令人滿意的效果。

  音色的選擇主要考慮的是在電話信道中的傳播效果。過于低沉或音域窄而尖銳的聲音轉(zhuǎn)成8k或6k的時(shí)候損失較大,一些音頭或音尾會缺失掉,導(dǎo)致某些提示音在電話中聽的不是很清楚。發(fā)音悅耳,擲地有聲的音色,可以讓聽眾很輕松的聽清內(nèi)容,且不易產(chǎn)生疲勞感。
發(fā)音風(fēng)格的選擇是要根據(jù)語音服務(wù)的內(nèi)容和面向的聽眾而定的。娛樂節(jié)目和信息服務(wù)系統(tǒng)在報(bào)讀風(fēng)格上就有較大的差異,前者需要活潑夸張的語言來表達(dá),而后者則要清晰、流暢、平穩(wěn)中突出強(qiáng)調(diào)用戶查詢的結(jié)果。體育節(jié)目面對的是體育愛好者,需要快節(jié)奏的風(fēng)格,而幼兒教育類節(jié)目面對的是年齡較小的孩子,要采用親切的循循善誘的發(fā)音風(fēng)格等。因此,在定風(fēng)格的時(shí)候要根據(jù)內(nèi)容和服務(wù)群體樂于接受的基調(diào)來確定。

  錄制提示音的時(shí)候,也有一些需要注意的地方。錄音環(huán)境要保持安靜,錄音時(shí),播音員應(yīng)始終維持相同的狀態(tài),最好能夠一次錄完所有的提示音,如果不能一次錄完,則需對錄音設(shè)備、錄音音量、噪聲范圍等進(jìn)行量化規(guī)定,以防止多次錄音的效果不一致。錄音的數(shù)據(jù)應(yīng)該進(jìn)行降噪、去雜音、能量規(guī)整和預(yù)留靜寂段等處理,以保證使用時(shí)的效果。

  除了錄好提示音之外,語音合成和語音識別技術(shù)的應(yīng)用,在語音界面的設(shè)計(jì)中也占了重要的部分。合成系統(tǒng)代替了動態(tài)信息和海量信息的報(bào)讀,由于是機(jī)器的聲音,很容易讓人產(chǎn)生不自然的感覺。其實(shí),有些很不自然的合成效果是因?yàn)闆]有能正確的使用合成系統(tǒng)而導(dǎo)致的,并不能體現(xiàn)出合成系統(tǒng)真正應(yīng)該達(dá)到的自然度。那在使用合成系統(tǒng)時(shí)怎樣發(fā)揮出合成系統(tǒng)真正的水平,盡可能提升合成的自然度呢?

  合成文本是合成語音的基礎(chǔ),因此合成文本是否規(guī)范可直接影響到合成的效果。首先文本內(nèi)容中應(yīng)該沒有錯(cuò)別字,也沒有不合理的標(biāo)點(diǎn)符號。因?yàn)闈h語的分詞斷句是憑借字詞和標(biāo)點(diǎn)符號來完成的,如果出現(xiàn)錯(cuò)誤就會導(dǎo)致不合理的停連。其次,合成的文本應(yīng)該是連續(xù)的句子,而不是單獨(dú)的字詞或詞組分別合成再進(jìn)行拼接。有些查詢結(jié)果可能是固定文本和動態(tài)文本結(jié)合的,設(shè)計(jì)者會認(rèn)為固定文本使用提示音效果會更好,就將固定文本和動態(tài)文本剝離開,單獨(dú)合成動態(tài)信息再和固定語音相拼接,導(dǎo)致動態(tài)文本合成效果很差,拼接起來效果就會更差。例如:"您有500元可消費(fèi)"被分成了"您有"、"500元"、"可消費(fèi)"單獨(dú)合成再拼接的效果就會不如直接合成"您有500元可消費(fèi)"的效果好。因?yàn)樽鳛樽衷~的合成和作為句子中的一部分合成出的語音,其與前后語音的環(huán)境是不一樣的,因而輕重長短等韻律也是不一樣的。

  合成的語音和提示音一起使用時(shí),往往因?yàn)槎叩膮^(qū)別較大而引起聽感上的差異,使合成音顯得不自然。這種差異可以通過與提示音的互相調(diào)節(jié)而有所改善。最好可以做到提示音和合成音的發(fā)音人相同,這樣二者間的過渡在音色上不會有太大的出入。如果不能做到同一發(fā)音人,那要盡量讓二者在音色上相接近,語速要保持一致。此外,由于錄音的自然度比合成音高,容易引起聽者的注意,可以適當(dāng)調(diào)高合成音的音量,使合成音能夠引起聽感上的關(guān)注。在科大訊飛最新推出的InterPhonic 3.0系統(tǒng)中就提供了提示音資源管理工具,可以方便的在合成系統(tǒng)的實(shí)時(shí)合成中添加提示音,并可對提示音進(jìn)行音量調(diào)整使之與合成語音的銜接自然流暢。

  此外,我們還可通過一些參數(shù)設(shè)置和規(guī)則的約束調(diào)整合成的韻律,科大訊飛的合成系統(tǒng)提供了語速、音量、音高、停頓等多種參數(shù)的設(shè)置,這些設(shè)置可通過CSSML(中文語音標(biāo)記語言)對句子進(jìn)行韻律風(fēng)格的控制。例如,當(dāng)需要強(qiáng)調(diào)某個(gè)句子中的特定信息的時(shí)候,可以調(diào)整語速、音高、停頓等韻律控制參數(shù),在金額查詢、選擇問句、信息確認(rèn)中都可以使用參數(shù)調(diào)節(jié)來突出強(qiáng)調(diào)。

  通過添加背景音樂和特殊音效的方式,也可以提高語音服務(wù)的親切度和自然度。經(jīng)過測試表明,音樂可以轉(zhuǎn)移人們對合成音中的一些微瑕的注意力,因而在大段的合成信息播報(bào)時(shí)配上風(fēng)格相近的背景音樂,可以明顯的改善合成語音的自然度。而在一些重要信息的播報(bào)時(shí)配上音效可以提高人們對音效后播報(bào)信息的注意力。而且,在和機(jī)器對話時(shí)間過長時(shí),人們的注意力就會分散,背景音樂和音效都可以有效的緩解聽覺疲勞。

  識別技術(shù)的應(yīng)用可以省卻大量的查詢選擇,因而是語音界面設(shè)計(jì)中一個(gè)簡化菜單層次的有效手段。一般來說提高識別的準(zhǔn)確率的方法是這樣,首先結(jié)合應(yīng)用地理環(huán)境、實(shí)際場景、客戶群進(jìn)行語法優(yōu)化,其次使用N_best、置信度等技術(shù)提高識別結(jié)果準(zhǔn)確度,最后進(jìn)行全面的tuning來對識別效果進(jìn)行調(diào)優(yōu)。語法優(yōu)化是根據(jù)識別使用區(qū)域的語言習(xí)慣,對語法進(jìn)行的調(diào)整,可以增加常用的詞匯擴(kuò)大識別的范圍,例如北方人"俺"也可識別成"我"。使用N_best技術(shù),識別系統(tǒng)會給出多個(gè)選擇,然后讓用戶進(jìn)行按鍵確認(rèn),這樣對于比較相似的選項(xiàng)造成的識別率問題可以得到很好的解決。設(shè)置置信度評分管理機(jī)制對識別結(jié)果進(jìn)行劃分并進(jìn)入不同的應(yīng)答流程,既可以提高識別率也可以節(jié)省反復(fù)的詢問流程。當(dāng)分?jǐn)?shù)過低時(shí)可直接排除,達(dá)到一定的分?jǐn)?shù)可通過詢問獲取使用者更多的信息進(jìn)行確認(rèn),如果分?jǐn)?shù)高過設(shè)置的范圍可直接認(rèn)為識別正確。當(dāng)系統(tǒng)使用一段時(shí)間后,我們還可以收集前期用戶使用過程的全部錄音數(shù)據(jù)進(jìn)行參數(shù)的調(diào)整試驗(yàn),直到計(jì)算出最合適的參數(shù)設(shè)置。

  優(yōu)化語音合成的效果,提高語音識別的準(zhǔn)確率,再將提示音和二者配合的恰到好處,就可以構(gòu)成一個(gè)貼近自然交流狀態(tài)的人性化的語音應(yīng)用界面。科大訊飛公司以專業(yè)的態(tài)度在應(yīng)用中不斷的完善其語音應(yīng)用系統(tǒng),并致力于語音應(yīng)用標(biāo)準(zhǔn)化工作的推動和實(shí)施,為語音界面設(shè)計(jì)者提供更便捷更實(shí)用的效果優(yōu)化和系統(tǒng)管理工具,讓語音界面設(shè)計(jì)工作變得更加輕松有效。

科大訊飛公司供稿 原文刊登在《客戶世界》



相關(guān)鏈接:
訊飛暢言語音教具系統(tǒng)榮獲“創(chuàng)新軟件產(chǎn)品” 2009-09-08
科大訊飛嵌入式語音新產(chǎn)品發(fā)布會在深圳舉行 2009-09-07
“會說話”的顯示屏提升居民小區(qū)信息服務(wù)水平 2009-09-07
訊飛語音助力太平人壽客服中心 2009-08-28
訊飛語音助力CDMA手機(jī)競爭終端市場 2009-08-14

分類信息:     文摘   技術(shù)_語音合成_文摘
乐陵市| 冀州市| 稷山县| 道孚县| 安徽省| 东海县| 福清市| 理塘县| 黎城县| 噶尔县| 长子县| 泗水县| 涟源市| 临海市| 新余市| 定州市| 揭东县| 绥化市| 义马市| 东宁县| 济阳县| 龙游县| 城市| 广水市| 安西县| 探索| 宁津县| 洪泽县| 通州区| 柳林县| 盐山县| 峨山| 尚义县| 扎鲁特旗| 绥江县| 陆丰市| 宝兴县| 赤峰市| 西安市| 莒南县| 怀安县|