
LiveVideoStack:左俊你好,能否先向LiveVideoStack的讀者介紹下自己,以及你目前主要的工作以及關注的技術方向?
左俊:我目前主要的負責是華為云。通信云服務整個解決方案的架構和技術。華為云。通信云服務目前包括如下四個服務:視頻通話服務、隱私保護通話服務、語音通話服務、短信服務。當下,我主要關注的有以下兩點:
- 音視頻方案中的效果及質量問題,這個是整個音視頻解決方案最為基礎的部分,華為在運營商市場實時音視頻的成功實踐,為解決互聯(lián)網視頻通話的效果和質量問題,提供有效的借鑒和支撐,這也是華為云。視頻通話服務快速孵化的基礎。
- 解決方案中的安全韌性及合法合規(guī)問題,雖然這不是基礎業(yè)務的一部分,但是這個是客戶能夠獲取持久保障的前提,華為很看重這一塊,也能夠保證向客戶持續(xù)地提供可靠可信的服務。
此外還有系統(tǒng)的開放性靈活性,成本管理,客戶的個性化服務等,也都是整個解決方案中不可或缺的一環(huán)。
LiveVideoStack:作為在運營商話音解決方案系統(tǒng)方面有超過15年經驗的高級架構師,你如何看待近幾年音視頻通話技術的發(fā)展?
左俊:近些年通過開源技術以及整個通信技術棧遷移到IP上,音視頻通話的整個技術棧發(fā)展的速度很快,基于開源軟件的創(chuàng)新解決方案層出不窮,這是整個行業(yè)技術水平提升的一個重要表現(xiàn)。但是開源軟件面向的目標是提供普遍服務,對于極致的音視頻效果和質量仍然需要各家使用自己的十八般武藝去不斷的追求,這個需要長期的技術積累與投入。舉一個編解碼方面的例子,得益于在音視頻編解碼標準、算法、創(chuàng)新場景的長期投入,華為HW265編碼器包攬了世界視頻編碼器大賽全部三條賽道第一,并毫無懸念地獲得總成績第一名。繼2018年奪冠后,成功衛(wèi)冕,蟬聯(lián)2019年大賽冠軍,這些基礎技術是華為視頻通信效果及質量的基礎。
此外,AI加持后的音視頻也變得越來越有趣,這個也是近些年來一個重要的變化。AI不僅僅上能做人臉檢測,下能做表情疊加,還能在音視頻技術的其他環(huán)節(jié)都產生一些顯著的效果。一個小小的實時音視頻通信僅媒體面就涉及前前后后二十多個環(huán)節(jié),可喜的是如今已經看到不少的環(huán)節(jié)已經在用新技術去優(yōu)化體驗效果了,如華為云。視頻通話中的實時超分辨率技術,強化學習的抗丟包方法。相信未來這塊會有越來越多的實質性進展,會給我們帶來各種增強的效果。
LiveVideoStack:作為運營商出身的華為,在互聯(lián)網實時音視頻與傳統(tǒng)話音關系是什么?關于兩者的結合華為云是如何思考的?
左。首先,互聯(lián)網實時音視頻的主要技術基礎都是來源于在運營商業(yè)務中的積累,當然也吸收了部分互聯(lián)網開源的好組件。舉個例子,運營商業(yè)務在極致的可靠性及并發(fā)處理上有著獨特的技術要求,這也催生了華為云。通信云服務的極致可靠性與高質量,我們在視頻通話設計的時候就在各個層級做到了跨Region級別的容災,對于關鍵節(jié)點,甚至考慮了異網備份:實際數據表明,自上線運行以來,華為云。視頻通話可用性超過4個9,這個是一個比較優(yōu)異的成績。
其次,技術的共享是雙向的,新的技術點也使得運營商網絡煥發(fā)新的機會,比如一些海外先進運營商也在逐步認可通過華為云服務為他們的客戶提供一攬子話音解決方案,不但快速的部署了業(yè)務(東南亞某客戶部署中,本身設備1個月以內完成上線,運營商側預計3個月內集成),還降低了25%成本。我們也在將線上先進的技術引入到運營商網絡的同時,也在將線上的流量導入到線下,一方面讓運營商通過網絡能力開放獲得更多的收益,另一方面也使得線上客戶連接線下客戶更加的方便與便捷。
第三,運營商網絡音視頻在一開始就關注全球一張網的互聯(lián)互通,包括不同制式,不同運營商,不同國家之間都是可以無縫互通,這是運營商音視頻網絡天然的優(yōu)勢,不像互聯(lián)網技術的音視頻往往都是各自獨立的自成體系網絡,往往比較難滿足市場多樣化的互通需求。華為的音視頻解決方案在一開始就考慮了相關的互聯(lián)互通需求,能夠實現(xiàn)手機,平板,電視,音箱,固話等所有可能的終端之間的互聯(lián)互通。
LiveVideoStack:華為云。視頻通話服務與其他廠商相比有哪些獨到的方案與技術?
左。華為云。視頻通話服務目前主要在自研編解碼,AI處理,可靠性與韌性,線上線下網絡互通性,全球覆蓋就近接入網絡,合規(guī)運營,用戶隱私與保護等方面是有比較大的優(yōu)勢的。舉幾個例子:
- 編解碼與音視頻質量,2019年莫斯科國立大學舉辦的MSU世界視頻編碼器大賽上,HW265在Fast快速編碼場景下以62%的編碼壓縮率領先第二名5個百分點的成績獲得第一名;在其他一些方面,華為云。視頻通話服務在比如ROI感知編碼,弱網條件下視頻自動超分辨率,E2E時延優(yōu)化,全球覆蓋就近接入網絡,網絡適應性的強化學習的網絡帶寬預估,視頻長期參考幀均有應用,使得整體的效果不管是網絡正常還是網絡丟包網絡帶寬受限場景都有優(yōu)異的表現(xiàn),視頻U-vMOS(華為視頻體驗衡量體系評價標準)相比較不帶這些效果提升0.6分以上。
- DFx,可靠性,華為云。視頻通話服務在各個層級做到了跨Region級別的容災,對于關鍵節(jié)點,考慮了異網備份,與此同時,華為依賴ICT領域多年在故障模式的積累,提前對六十多種典型的故障場景在現(xiàn)網進行提前的故障注入演練,確保了典型故障場景業(yè)務無中斷,上線以來的數據表明實際可用性超過4個9。
- 用戶隱私與保護方面,華為運營平臺也是最為合規(guī)的用戶數據保護平臺,在數據存儲、傳輸、使用等各個方面均滿足當地國家的法律法規(guī),包括GDPR要求的各項規(guī)定。華為堅持“上不碰應用、下不碰數據”,對用戶自身產生的數據全部交給用戶進行加密處理,這里面就包括用戶提出的錄音存儲等訴求。
LiveVideoStack:目前華為云。視頻通話服務都覆蓋到了哪些行業(yè)場景?為匹配多種商業(yè)場景,你們團隊在編碼、轉碼、網絡等方面又有哪些儲備?
左俊:目前我們主要面向行業(yè)包括“在線教育”、“智能終端”、“社交娛樂”三個場景,這里拿智能終端舉例說明。在今年8月上旬華為開發(fā)者大會上發(fā)布的暢連通話背后的服務支持就是來自于華為云。視頻通話服務,這里面包含幾點關鍵技術:
解決方案層面:
- 全場景互聯(lián)互通:支持手機、平板、電視、音箱、手表的全場景互聯(lián)互通
- 音視頻技術層面:
- H265 720P:首次將H.265 720P應用于大規(guī)模實時通信系統(tǒng),碼率降低到傳統(tǒng)系統(tǒng)的60%。(軟硬結合,華為手機專項優(yōu)化)
- 動態(tài)感知的視頻超分技術+ROI感知編碼:網絡不佳,畫質下降時,自動提升畫質體驗,結合ROI感知編碼技術,讓最終用戶的體驗更加清晰流暢
網絡路由及適應性方面:
- 感知切換:支持WIFI與無線分組的無感知切換(軟硬結合,華為手機專項優(yōu)化雙連接+網絡側首包學習)
- 基于網絡適應性強化學習的網絡帶寬預估:實時準確預測網絡帶寬,作為編碼器的輸入,形成聯(lián)動,保證視頻效果
- 承載網絡優(yōu)化:基于華為在IP網絡以及華為云在網絡接入方面的積累和儲備,華為視頻云服務實現(xiàn)了在全國任何接入網絡條件下的IP路徑最優(yōu),提升了用戶體驗
LiveVideoStack:計算服務具有高效、便捷、節(jié)約成本等諸多優(yōu)勢,隨著云服務市場的快速發(fā)展,越來越多的運營商和行業(yè)客戶開始采用實時通信云服務產品,那么在數據存儲方面華為云。視頻通話服務是如何保障數據安全、保護用戶隱私的?
左俊:的確,你說的這點正是許許多多客戶有所顧慮的。華為云。視頻通話服務在設計之初就已經考慮了數據存儲、傳輸、使用的過程中滿足當地各個國家的法律法規(guī),直接考慮的是面向的是全球化運營場景。華為云。視頻通話服務遵循華為云的“上不碰應用、下不碰數據,不做股權投資”原則,高度重視用戶隱私保護,切實貫徹適用法律法規(guī)的要求,內部也有一套相應的管理辦法,保證華為公有云上的數據完全滿足GDPR的要求。對于一般的多流轉發(fā)音視頻通信,RTP媒體在路徑中是不被存儲的,各個節(jié)點只是基于最優(yōu)路徑的轉發(fā),類似基于路由表的路由器;再舉用戶錄音存儲訴求來說,這類的媒體都會由客戶自行管理的密鑰進行加密或者是存儲在客戶指定的存儲資源上,這些數據從解決方案上已經設計為無法被第三方獲取。
LiveVideoStack:實時通信更強調低延時和接通率,華為云。視頻通話服務在這方面都做了哪些工作?
左。低時延實際是一個相對的概念,ITU-T G.114建議的值是400ms以內的單向時延,基于這個值絕大多數用戶語音通信是可以接受的。但是在某些特殊場景,比如雙方著急說話形成的雙講場景,遠程K歌,VR/AR互動等場景,這個值的要求就得嚴格許多。針對網絡質量較好的的視頻通信場景,統(tǒng)計值95%的情況下從采集到屏幕呈現(xiàn)基本維持在300ms以內,這里的軟件優(yōu)化點還是很多很細的,比如Cache的調整,網絡路徑的優(yōu)化,網絡側復制轉發(fā)的優(yōu)化等等。
另外,在弱網情況下,時延常?赡艹揭曨l質量成為通信第一要素(寧可沒有視頻,也要保證有音頻實時)。一般情況下,視頻的處理往往是后處理模塊使用FEC進行冗余,但是這往往會因為增大buffer而增大時延。我們敏銳的感覺到,單調的修改網絡適應性模塊是不夠的,必須要在編碼器與網絡適應性模塊間形成聯(lián)動,通過反饋環(huán)才能從E2E角度去降低冗余和時延。為此,華為研發(fā)的網絡適應性強化學習模塊能夠實時準確預測網絡帶寬,作為編碼器的輸入,實時調整編碼器比特率輸出,避免整個系統(tǒng)陷入越是帶寬不夠->越要抗丟包->越要冗余增加帶寬的惡性循環(huán)。當然這一招不會是銀彈,整個通信視頻中低時延處理是一個系統(tǒng)工程,我相信各個廠家在這方面都有自己的看門絕技,也歡迎大家一起交流。
LiveVideoStack:視頻質量對于實時通信來說也非常重要,華為云在這方面都做了哪些工作來提升用戶的使用體驗?
左。
- 選擇一個好的編解碼器,華為視頻通信選擇的是自研的HW265
- 有一個好的冗余及抗網絡抖動算法
- 優(yōu)化無止境,通過照鏡子的方式匿名統(tǒng)計用戶質量數據來進行有針對性的改進,比如故障樹分析。
LiveVideoStack:云上的海量視頻如果僅靠人工審核遠遠無法滿足需求,針對視頻質量審核華為云有哪些獨到的審核方案?
左。我這里先大膽的解下題,假定是針對視頻質量的審核,而不是針對內容是否合規(guī)的檢查。
實時通信中的質量審核的確非常的重要,比如在教育場景,就有諸多的監(jiān)課員負責課堂質量審核。在一方面提升系統(tǒng)應對各種網絡質量的同時,一個自我認知的“照鏡子”系統(tǒng)也是關鍵手段,不僅能夠讓服務運營發(fā)現(xiàn)共性問題,還能幫助客戶去定位最終用戶的各種使用問題。華為云。視頻通話服務的“鏡子”系統(tǒng)通過自研的U-vMOS算法自動實時計算當前會話各路的音視頻質量,并上報給Ops系統(tǒng),在客戶界面就可以準實時觀察到當前正在進行的多方通話的質量情況。此外,我們還實施了故障樹智能分析功能,可以幫助客戶管理員自動的定位問題,緩解了很多人對音視頻基礎知識匱乏的問題。
LiveVideoStack:隨著5G時代的來臨,網絡傳輸延遲將變得更低,這會引發(fā)哪些更實時的音視頻交互體驗?網絡帶寬變大對實時通信來說是否會出現(xiàn)新的交互模式?
左。5G有三個大的場景,增強型移動寬帶eMBB,大規(guī)模物聯(lián)網mMTC和高可靠低時延URLLC。目前可見的360 VR全景通信由于涉及360度的視頻傳遞,這里面對帶寬的需求就有很大了,當然,這個里面有很多的技術手段可以去壓縮&動態(tài)調整視頻傳輸碼率,如基于Tiled的編碼方案,基于當前視角的FoV視頻傳遞等。此外,對于普通的視頻通信,一般還用不上5G的超低時延,但是在一些特殊場景上,比如在線K歌,AR遠程指導都需要很低的時延,否則就會形成滯后感。這些在5G的SA階段肯定會有相應的應用場景。
目前,全球范圍來看,5G的絕大多數興建都是以NSA為主的方案(中國三大運營商預計會在2020年啟動部署SA方案),也就是說僅僅在無線側實現(xiàn)了5G基站的接入,這一段的實現(xiàn)還無法完全釋放5G定義的三大場景的對應能力,目前較成熟的也就是eMBB增強型移動大寬帶場景。單純的大帶寬對通信視頻的影響還是有限的,未來的創(chuàng)新場景還需要更多的在接入端側有顛覆性的變化,此外,對于端側的算力及功耗問題,還需要網絡側有一定邊緣計算解決方案配合。
舉個例子來說,AR遠程協(xié)助場景,首先是基于通信的,再者由于指導端到被指導端的視頻環(huán)回以及指導端可能的自由視角需求,需要將媒體路徑盡可能放低(傳輸網絡時延、QoS暫時無法保證),這就衍生出邊緣計算的場景(邊緣就近接入及媒體處理),目前這塊還在研究的過程中,有成果了再給大家匯報。
硬派多媒體技術方案沙龍·2019深圳
從WebRTC、低延遲直播到邊緣計算,從編解碼Codec到AI加速,從全景視頻到沉浸式音頻,從5G到超高清,從金融、教育、制造等行業(yè)應用場景優(yōu)化到QoE用戶體驗……硬派多媒體技術方案沙龍(The Future Impact of Multimedia Technology & Solutions Forum)旨在甄選技術領先、成熟的方案與案例,推動技術傳播,連接多媒體技術生態(tài)上下游。來源:<span style="color: rgb(51, 51, 51); font-family: -apple-system-font, BlinkMacSystemFont, " helvetica="" neue",="" "pingfang="" sc",="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" arial,="" sans-serif;="" font-size:="" 0px;="" letter-spacing:="" 0.544px;"=""> LiveVideoStack