<menuitem id="ft5nf"><delect id="ft5nf"></delect></menuitem>

    <span id="ft5nf"></span>

      <menuitem id="ft5nf"></menuitem>

      <menuitem id="ft5nf"></menuitem>

          <p id="ft5nf"></p>

          雷鋒網 | CCF-GAIR 俞凱:端到端與半監督語音識別的技術進展

            2020-08-29 11:44:49

          8月7日—9日,由中國計算機學會主辦,香港中文大學(深圳)、雷鋒網聯合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協辦的CCF-GAIR 2020全球人工智能與機器人峰會,在深圳舉行。
           

          思必馳首席科學家、聯合創始人俞凱受邀出席大會,帶來了題為《端到端與半監督語音識別的技術進展》的分享。


          與此同時,在CCF-GAIR 2020晚宴的2020年度AI最佳成長榜頒獎典禮環節,思必馳成功攬獲“AI+智慧城市”最佳壁壘成長獎。

           

          CCF-GAIR 2020大會現場


          邁步“AI新基建”,榮登“AI最佳成長榜”
           

          2020年的人工智能圈,接受了疫情的洗禮,同時也迎來了十年一遇的時代機遇“新基建”,為本屆CCF-GAIR 2020的舉行賦予了全新的意義。
           

          作為本次大會的承辦方和最早一批關注人工智能的行業媒體之一,雷鋒網于今年5月重磅啟動了第三屆「AI最佳成長榜」評選計劃。最終被提名和申請榜單的AI創業公司達452家,經過專家評審團長達一個月的集中評審,最終評選出60家在產品能力、技術能力、商用價值、數字化改革以及新基建背景下最具成長潛力的代表性AI企業。
           

          思必馳捧杯“AI+智慧城市”最佳壁壘成長獎

           

          作為國內領先的對話式AI平臺型公司,思必馳提供端到端的口語交互系統,擁有全鏈路的智能語音語言技術,是國內極少數擁有原始創新能力和基礎創新團隊支撐的AI公司。目前,思必馳已擁有各項知識產權1200余項,其中專利700余項。


          在智能家居、智能車載、企業信息服務等優勢領域穩健增長的同時,思必馳在智慧城市領域,正依托智慧信息服務機器人與智能硬件產品化能力,加速向政務、醫療、地產、酒店、金融等行業場景落地應用,并已取得亮眼成果。
           

          以政務為例,思必馳對話式人工智能技術目前已在基層社會治理、司法警務、醫療衛生等政務工作中落地應用,并在本次新冠肺炎疫情防控期間為全國121個地市的600多個社區提供服務,將基層一線防控工作數據化、智能化、精準化,成為社會治理的“新基建”。

           

          俞凱:端到端與半監督語音識別的技術進展


          俞凱在8月8日的CCF-GAIR 2020「前沿語音技術」專場中壓軸出場,從語音識別的研究走向問題出發,探討了“端到端及半監督語音識別技術的進展”,深入闡述了大數據驅動的自然場景語音識別的新挑戰及技術進展——從高精度系統到高效率系統;從海量標注數據到高質量精準數據。
           


          思必馳首席科學家、聯合創始人俞凱

           

          以下演講內容,來自雷鋒網:
           

          俞凱指出,在深度學習發展以來,語音識別研究領域現在所面臨的問題,除了在工程技巧和數據對接上做一些工作之外,最重要的事情是長尾的非配合語音識別。


          其中,具備高效率的高精度系統和高質量的精準大數據構建是兩個比較重要的進展和趨勢。


          一是具備高效率的高精度系統。高精度語音識別在前幾年已經超過人的識別,但是高精度語音識別在長尾上仍有很多工作值得研究。很重要的一點是,現在大家的關注點由一般意義的高精度語音識別變成高效率的語音識別。如何在保持高精度的同時,還要保證系統構建和復雜度、響應速度、規?;芰挽`活性都必須同等提高,這是目前端到端語音識別引起很大興趣的原因。


          二是高質量精準大數據。大數據很有用,但有了大數據,精度就能提高嗎?其實并非如此,越來越多的人發現真正的大數據應該是結構上的大,而不僅僅是數量上的大,也就是要在聲學因素的分布、監督信號獲取和識別系統適配方面,有高質量的精準數據。于是,也就出現了很多半監督、生成式的數據擴充方法。

           

          何為端到端,以及為什么需要端到端?


          在俞凱看來,傳統的識別框架是結構不同的模型模塊組成,稱之為異構識別系統。首先,它本質上不是統一的參數化模型,中間需要WFST解碼器,對各個模塊分別建模訓練;其次,聲學、語言、字典等模型的類型和結構本質上完全不同,且解碼器是不可缺少的連接模塊信息的核心,需要構建復雜的搜索網絡。


          端到端識別框架不同之處在于,在大數據的背景下,能通過完整神經網絡實現聲學信號到識別結果的直接映射,各個組成部分是“同構”的。今天報告中談到的端到端更多指的是,直接或簡單轉換后輸出結果是“詞序列”。


          從優勢上講,端到端能夠降低復雜度,減少參數量(不是聲學上的減少,有神經網絡語言模型的參數來描述語言空間),從而使得訓練的流水線得以簡化。其次,大數據資源的使用更為簡單,數據驅動更為友好;此外,搜索解碼速度加快,但是否真的需要構建搜索網絡,俞凱指出,這項研究目前存在爭議。


          端到端的定義與分


          端到端主要分為兩類,一類是同步框架,另一類是異步框架,主要解決語音識別的兩個基本問題:分類與對齊。解決“對齊”問題通常采用的思路包括:馬爾可夫模型(HMM)、標簽填充、序列解碼網絡等方法。其中,后兩種是端到端中比較常用的方法。


          同步端到端框架采用的是,與輸入同步逐幀輸出,通過引入blank標簽實現變長序列對齊;異步端到端框架采用的是,輸入與輸出使用兩個網絡分別處理,使用attention(注意力機制)解決對齊問題。


          同步端到端框架最典型的就是CTC和RNN-T:前者通過引入相應的標簽填充,同時在條件獨立性假設上,每一幀輸出之間條件獨立,而后者沒有條件獨立性的假設。


          隨后,俞凱詳細討論了異步端到端存在的研究價值和爭議。


          俞凱表示,異步端到端最大的特點是輸出與輸入沒有統一的時鐘,是兩個不同的網絡。


          在encoder-decoder架構上,encoder對整體輸入序列提取所有信息,然后根據輸出的要求再進行輸出,時鐘和輸出標簽是逐詞進行的。這時,會通過attention的方式處理對齊。一般情況下,輸出序列的個數會遠遠小于時間幀的個數,這種情況下,輸出序列信息速率會遠低于輸入信息速率,beam搜索效率會變得很高。


          不少研究指出,異步端到端的識別精度會優于同步端到端模型(上文講到的CTC 、RNN-T),但這目前也是存在爭議的。


          端到端的問題與挑戰


          即便端到端存在一定優勢,但問題在于,類似于encoder-decoder這樣的架構,實時響應遲延可能會變長;同時,端到端的提出主要是在聲學數據上的訓練,對語言數據使用的討論不夠充分,直到最近才有一些新的工作。那么,端到端具體會有怎樣的挑戰?


          一是在線編碼的遲延問題。這種情況下雙向的神經網絡無法使用,只能用單向網絡,這就造成輸入的信息變少。這時,如果通過注意力機制進行在線化解碼,從而得到即時的、短遲延識別結果,就會變得非常有挑戰性。


          二是文本資源及語言空間的約束問題。端到端模型需要有標注語音數據,而最開始研究端到端時,用到的是聲學模型的數據,并沒有用到大規模文本語料。


          為此,俞凱指出,當下解決端到端的在線解碼遲延問題,已有的思路主要有三類:一是固定短時窗口預測(Neural Transducer);二是基于單幀觸發的變長窗口方法(MoChA,Triggered Attention);三是基于多幀累計觸發閾值的方法(Adaptive Computing Steps)。其本質都是只用歷史信息或非常小的前探信息。


          再回來上文所提到的,早期的端到端模型是融合聲學語料文本的超大聲學模型,它并不包括語言模型,那么海量的文本數據如何使用?


          當前端到端框架下的文本數據使用的解題思路主要有三種:一是模型融合(Fusion)——將文本數據訓練的神經網絡LM,在decoder輸出層進行插值融合;二是語言模型模塊嵌入——將端到端系統的部分網絡作為LM建模,允許額外文本數據訓練更新;三是半監督訓練——利用文本數據做端到端模型訓練的數據擴充(無顯示的語言空間建模)。


          從海量數據到高質量精準大數據


          想要從海量數據中提取到高質量、精準的大數據,最大的挑戰在于沒有監督信號、標注起來也很難。解決該問題主要會運用到三個思想:一是自監督預訓練,二是半監督訓練,三是使用生成數據訓練。


          首先是自監督預訓練,這種思路下數據自身就是標注,不需要額外標注,這與自然語言處理使用詞序列作為標注,設計一些訓練任務使得能夠提取比較好的預訓練特征是比較一致的方法。比較典型的是wav2vec或結合了預訓練模型BERT的方法,以及重構任務DecoAR。


          其次是半監督訓練,可以是海量無標注音頻或海量文本加適量有標注音頻的方式。大體思路也有三種:置信度選擇、先驗知識蒸餾、音頻文本一致性訓練。


          在報告最后,俞凱還表達了對精準的環境數據擴充及語音合成研究方向的看好。對于語音合成,俞凱認為合成語音數據的難點在于,不同于語音識別,語音合成是一個信息增加的過程,這個過程需要解決的問題會更為復雜,往往這種“無中生有”的過程基本上是通過引入生成模型進行解決。比方說,在低資源數據下使用VAE建模說話人空間,或者不使用句子級的VAE,而是通過逐個phone的音頻提取隱變量序列z。這些都是當下比較主流的解決問題的思路。

           

          aV男人天堂