2019 年,技術(shù)進(jìn)展方面主要體現(xiàn)在預(yù)訓(xùn)練語(yǔ)言模型、跨語(yǔ)言 NLP/無(wú)監(jiān)督機(jī)器翻譯、知識(shí)圖譜發(fā)展 + 對(duì)話技術(shù)融合、智能人機(jī)交互、平臺(tái)廠商整合AI產(chǎn)品線。
1 預(yù)訓(xùn)練語(yǔ)言模型
隨著 2018 年底 Google 提出預(yù)訓(xùn)練語(yǔ)言模型 BERT,在多項(xiàng) NLP 任務(wù)上獲得更優(yōu)效果,預(yù)訓(xùn)練語(yǔ)言模型的研究與應(yīng)用被學(xué)術(shù)界和工業(yè)界視為 NLP 領(lǐng)域的一項(xiàng)重大突破,將 NLP 問(wèn)題的解決方式從以往的為每個(gè)任務(wù)單獨(dú)設(shè)計(jì)復(fù)雜的模型逐漸演變成了預(yù)訓(xùn)練 + 微調(diào)的范式,讓眾多 NLP 應(yīng)用能夠享受到大語(yǔ)料預(yù)訓(xùn)練模型帶來(lái)的紅利,在通用的預(yù)訓(xùn)練模型的基礎(chǔ)上加入簡(jiǎn)單的任務(wù)層,并結(jié)合自己場(chǎng)景的少量語(yǔ)料就可以獲得一個(gè)不錯(cuò)的領(lǐng)域 NLP 模型。
至此開(kāi)啟了自然語(yǔ)言處理的新篇章。
在 2019 年,各個(gè)研究機(jī)構(gòu)和公司在 BERT 的基礎(chǔ)上進(jìn)一步創(chuàng)新,紛紛提出了自己的預(yù)訓(xùn)練模型,如:Facebook 發(fā)布的 RoBERTa,CMU 發(fā)布的 XLNet,Stanford 發(fā)布的 ELECTRA,還有百度的 ERNIE 模型,阿里的 structBERT 模型, 華為的 NEZHA,哈工大和科大訊飛也都提出了自己的模型,不斷刷新 NLP 任務(wù)的最好成績(jī)。
這新的工作總結(jié)起來(lái),主要來(lái)自訓(xùn)練任務(wù)設(shè)計(jì)和訓(xùn)練算法兩個(gè)方面。
訓(xùn)練任務(wù)設(shè)計(jì)
進(jìn)行更加精細(xì)的語(yǔ)義粒度建模,包括引入更細(xì)粒度的建模對(duì)象和更加精細(xì)的刻畫(huà)語(yǔ)義關(guān)聯(lián)。
比如 “全詞 Mask” 或者 “Knowledge Masking”,技術(shù)在 MLM 預(yù)訓(xùn)練任務(wù)中 Mask 整個(gè)詞而不是單個(gè) Token,進(jìn)而提升了任務(wù)難度使得 BERT 學(xué)到更多語(yǔ)義信息,哈工大和科大訊飛聯(lián)合發(fā)布的中文 BERT 模型以及 NEZHA 模型中得到了應(yīng)用;再比如引入更多類型的句間關(guān)系,從而能夠更加準(zhǔn)確描述語(yǔ)義關(guān)聯(lián)性,進(jìn)而提升語(yǔ)義匹配等方面能力,這在阿里和螞蟻團(tuán)隊(duì)的 BERT 模型中得到體現(xiàn)。
利用新的機(jī)器學(xué)習(xí)方法建模
包括 CMU 和 Google 聯(lián)合發(fā)布的 XLNet 使用了 Autoencoder 和 Auto-regressive 兩種方案;斯坦福大學(xué)提出的 ELECTRA 模型,引入對(duì)抗機(jī)制來(lái)進(jìn)行更好的 MLM 學(xué)習(xí)。華盛頓大學(xué)和 Facebook 聯(lián)合發(fā)布的 SpanBERT 模型還引入了 Span 預(yù)測(cè)任務(wù)。這些方案應(yīng)用更學(xué)習(xí)方法來(lái)建模文字之間的聯(lián)系,從而提升模型效果。
訓(xùn)練算法設(shè)計(jì)
針對(duì)模型的易用性的問(wèn)題,減少模型參數(shù),或者降低模型的復(fù)雜度,包括 Google 發(fā)布的 ALBERT 使用了詞表 embedding 矩陣的分解與中間層的共享。
提高訓(xùn)練速度的優(yōu)化
包括混合精度訓(xùn)練,用 FP16 來(lái)進(jìn)行權(quán)重,激活函數(shù)和梯度等的表示;LAMB 優(yōu)化器通過(guò)一個(gè)自適應(yīng)式的方式為每個(gè)參數(shù)調(diào)整 learning rate,模型訓(xùn)練能夠采用很大的 Batch Size; 這些方法極大地提高了訓(xùn)練速度。
阿里的 structBERT 模型通過(guò)引入更多模型和任務(wù)結(jié)構(gòu)化信息,提升語(yǔ)言表示能力。在Gluebench mark 上多次名列前矛和保持領(lǐng)先位置。通過(guò)蒸餾和 CPU 加速,RT 提高了 10x,finetuned 的模型給多個(gè)業(yè)務(wù)場(chǎng)景帶來(lái)了明顯提升,上線了 AliNLP 平臺(tái)。
預(yù)訓(xùn)練語(yǔ)言模型在大規(guī)模無(wú)監(jiān)督文本上進(jìn)行預(yù)訓(xùn)練,將得到的詞和句子的表示遷移到廣泛的下游任務(wù)上,包括文本匹配,文本分類,文本抽取,閱讀理解,機(jī)器問(wèn)答等不同的場(chǎng)景。如阿里語(yǔ)言模型在 MS MARCO 問(wèn)答評(píng)測(cè),TREC Deep Learning 評(píng)測(cè)上都取得了第一名的好成績(jī)。
下游的任務(wù)可以在低資源的情況下快速獲得一個(gè)不錯(cuò)的解決方案,極大的提升了 NLP 算法的應(yīng)用落地能力。
2 跨語(yǔ)言 NLP/無(wú)監(jiān)督機(jī)器翻譯
作為預(yù)訓(xùn)練語(yǔ)言模型的擴(kuò)展,F(xiàn)acebook 的研究人員提出了跨語(yǔ)言的語(yǔ)言模型預(yù)訓(xùn)練 “Cross-lingual Language Model Pretraining”,僅使用單語(yǔ)數(shù)據(jù)的無(wú)監(jiān)督訓(xùn)練和使用平行語(yǔ)料的有監(jiān)督訓(xùn)練的條件下,模型有效學(xué)習(xí)了跨語(yǔ)言文本表征,在多語(yǔ)言分類和無(wú)監(jiān)督機(jī)器學(xué)習(xí)等任務(wù)上,都比之前的最優(yōu)結(jié)果有顯著的提升。
繼 2018 年 Google 預(yù)訓(xùn)練語(yǔ)言模型 BERT 橫掃 主流 NLP 任務(wù)之后,2019 年 Facebook 發(fā)布了新型跨語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型 XLM,實(shí)現(xiàn)不同語(yǔ)言在統(tǒng)一嵌入空間的表征共享,并在無(wú)監(jiān)督機(jī)器翻譯任務(wù)上帶來(lái)顯著的質(zhì)量提升。在探索大規(guī)模、多語(yǔ)言神經(jīng)機(jī)器翻譯方向上,Google、阿里巴巴等進(jìn)行了有效探索,通過(guò)同時(shí)在數(shù)十乃至數(shù)百種語(yǔ)向的平行語(yǔ)料上訓(xùn)練一個(gè)模型,而不是對(duì)各個(gè)語(yǔ)向分別建模,實(shí)現(xiàn)語(yǔ)義映射關(guān)系共享,不僅壓縮了模型數(shù)量,同時(shí)普遍提升了小語(yǔ)種翻譯效果。
過(guò)去一年來(lái),多語(yǔ)言 NLP 技術(shù)的研究成果主要集中在機(jī)器翻譯(特別是無(wú)監(jiān)督的機(jī)器翻譯),跨語(yǔ)言詞向量,多語(yǔ)言 NER,依存句法分析,詞對(duì)齊和多語(yǔ)言詞典生成等方向。
由于跨語(yǔ)言詞向量的學(xué)習(xí)/映射是其中的關(guān)鍵步驟,目前的無(wú)監(jiān)督/跨語(yǔ)言的 NLP 任務(wù)在相近的語(yǔ)言之間(如英語(yǔ)/法語(yǔ),英語(yǔ)/西班牙語(yǔ)等)效果最好,在不同的語(yǔ)言家族間(如英語(yǔ)/越南語(yǔ))效果還是有較大提升空間。
3 知識(shí)圖譜發(fā)展+對(duì)話技術(shù)融合
隨著數(shù)據(jù)量的積累和應(yīng)用對(duì)數(shù)據(jù)質(zhì)量和結(jié)構(gòu)要求的提升,近幾年知識(shí)圖譜又成為一項(xiàng)熱點(diǎn)技術(shù)開(kāi)始被關(guān)注。
知識(shí)圖譜技術(shù)領(lǐng)域在 2019 年的發(fā)展,包括領(lǐng)域知識(shí)圖譜的構(gòu)建和整合(金融、企業(yè)等)、圖譜平臺(tái)化標(biāo)準(zhǔn)能力的建設(shè)(schema 定義 + 構(gòu)建 + 調(diào)用)、圖譜應(yīng)用算法建設(shè)(基于圖譜數(shù)據(jù)的圖模型 + 規(guī)則推理等);并基于構(gòu)建的圖譜數(shù)據(jù)和能力,開(kāi)始在更多的業(yè)務(wù)場(chǎng)景得到應(yīng)用(搜索推薦內(nèi)容理解和挖掘、金融風(fēng)控和決策、對(duì)話理解和內(nèi)容生成等)。
在知識(shí)圖譜和對(duì)話結(jié)合的技術(shù)方向,對(duì)話技術(shù)在問(wèn)答和任務(wù)式對(duì)話近幾年已形成了一定的技術(shù)框架和業(yè)務(wù)覆蓋,開(kāi)始需要解決一些對(duì)知識(shí)理解 + 答案專業(yè)性要求更高的領(lǐng)域場(chǎng)景(理財(cái)助理等)。
對(duì)話技術(shù)結(jié)合知識(shí)圖譜的領(lǐng)域知識(shí)完整度 + 結(jié)構(gòu)化質(zhì)量?jī)?yōu)勢(shì)來(lái)進(jìn)行覆蓋,可以解決相應(yīng)場(chǎng)景下語(yǔ)料標(biāo)注(意圖理解)和專家配置(對(duì)話流程 + 響應(yīng)生成)上的不足,進(jìn)一步提升對(duì)話覆蓋和響應(yīng)質(zhì)量。融合知識(shí)圖譜對(duì)話這個(gè)方向,在 2020 年會(huì)有更多的真實(shí)場(chǎng)景落地和覆蓋。
4 智能人機(jī)交互
自然語(yǔ)言理解和深度問(wèn)答匹配技術(shù)在學(xué)術(shù)和工業(yè)界持續(xù)發(fā)發(fā)展,并且已經(jīng)在全域業(yè)務(wù)和場(chǎng)景有了大規(guī)模應(yīng)用,基于預(yù)訓(xùn)練語(yǔ)言模型進(jìn)一步帶來(lái)性能的提升。
機(jī)器閱讀理解成為低成本通用技術(shù),圍繞百科、政策法規(guī)、商品詳情頁(yè)、說(shuō)明書(shū)等場(chǎng)景構(gòu)建應(yīng)用中臺(tái)能力,接入效率有了很大提升。結(jié)合圖-文的多模態(tài) VQA 問(wèn)答技術(shù)在行業(yè)中率先孵化,理解商品詳情頁(yè)長(zhǎng)圖進(jìn)行問(wèn)答成為一項(xiàng)新的競(jìng)爭(zhēng)力。
對(duì)話(Dialog)技術(shù)能力進(jìn)一步發(fā)展,但是在端到端的基于數(shù)據(jù)驅(qū)動(dòng)的對(duì)話狀態(tài)跟蹤和對(duì)話策略還是只能在限定范圍內(nèi)進(jìn)行探索,工業(yè)場(chǎng)景基于對(duì)話平臺(tái)構(gòu)建的任務(wù)型機(jī)器人成為了主流的實(shí)現(xiàn)方案。
多語(yǔ)言技術(shù)實(shí)現(xiàn)新語(yǔ)言的快速拓展,基于 Cross-Lingual 構(gòu)建多語(yǔ)言語(yǔ)言模型,在遠(yuǎn)距離語(yǔ)言對(duì)在英 -> 中、英 -> 泰遠(yuǎn)距離語(yǔ)言對(duì)上超越 Google,拓展一個(gè)新語(yǔ)言從去年的 2 個(gè)月縮短到 2 周。
對(duì)話生成技術(shù)開(kāi)始取得突破,基于結(jié)構(gòu)化知識(shí)的引入提升生成的可控性,賣點(diǎn)的生成帶來(lái)導(dǎo)購(gòu)轉(zhuǎn)化率的提升。
5 平臺(tái)廠商整合AI產(chǎn)品線
隨著 AI 技術(shù)發(fā)展和 AI 應(yīng)用的需求,AI 技術(shù)框架的成熟(Tensorflow、PyTorch等),AI 技術(shù)能力逐漸被標(biāo)準(zhǔn)化為一系列 AI 平臺(tái)類產(chǎn)品,面向企業(yè)和開(kāi)發(fā)者,提供更低門(mén)檻和更高效率的 AI 應(yīng)用支持。
對(duì)話類平臺(tái),Google 從 2016 年開(kāi)始發(fā)布 Assistant 對(duì)話助手,這幾年陸續(xù)發(fā)布了 Google Home(現(xiàn)在整合到 Nest 智能家居品牌),Duplex 語(yǔ)音電話,以及收購(gòu)了 API.AI 對(duì)話開(kāi)發(fā)平臺(tái);今年 Google 已基本整合這些對(duì)話產(chǎn)品線,基本布局了對(duì)話現(xiàn)有的平臺(tái) + 終端,現(xiàn)成一個(gè)整體的對(duì)話產(chǎn)品線。
AI 類平臺(tái)方面,Amazon 自 2017 年發(fā)布 SageMaker 機(jī)器學(xué)習(xí)平臺(tái)產(chǎn)品,今年進(jìn)一步基于 SageMaker 整合 AI 開(kāi)發(fā)過(guò)程,同時(shí)打通下游技術(shù)框架和上游 AI 應(yīng)用,整合 AI 產(chǎn)品線。類似阿里的機(jī)器學(xué)習(xí)平臺(tái) PAI,定位成面向企業(yè)和開(kāi)發(fā)者的一站式機(jī)器學(xué)習(xí)平臺(tái)。
2019 年,應(yīng)用與產(chǎn)品方面主要體現(xiàn)在機(jī)器翻譯、對(duì)話系統(tǒng)、多輪對(duì)話智能服務(wù)、智能語(yǔ)音應(yīng)用持續(xù)發(fā)展。
6 機(jī)器翻譯
機(jī)器翻譯的產(chǎn)品發(fā)展延續(xù)了之前的趨勢(shì),在通用領(lǐng)域(新聞),特定領(lǐng)域(電商,醫(yī)療等)擴(kuò)展了更多的語(yǔ)言方向,支持了更豐富的業(yè)務(wù)場(chǎng)景,并持續(xù)帶來(lái)商業(yè)價(jià)值。阿里巴巴在翻譯干預(yù)和智能泛化方向進(jìn)行了卓有成效的探索,把業(yè)務(wù)知識(shí)更好地融合到神經(jīng)網(wǎng)絡(luò)翻譯框架中,大大提升了垂直場(chǎng)景下關(guān)鍵信息的翻譯準(zhǔn)確率。
高價(jià)值和高敏感內(nèi)容的翻譯目前仍離不開(kāi)人工,因此在計(jì)算機(jī)輔助翻譯(CAT)引入智能算法實(shí)現(xiàn)人機(jī)協(xié)同翻譯,以及機(jī)器翻譯后編輯(MTPE)等新型生產(chǎn)模式,也受到越來(lái)越多的關(guān)注。阿里巴巴、騰訊在自動(dòng)后編輯(APE)、交互式翻譯(IMT)都開(kāi)始有產(chǎn)品推出,并在實(shí)際業(yè)務(wù)中落地。
除了文本翻譯之外,更多的多模態(tài)翻譯應(yīng)用場(chǎng)景出現(xiàn),如語(yǔ)音翻譯在會(huì)議同傳,雙語(yǔ)字幕,翻譯機(jī)硬件上的嘗試(阿里二十周年年會(huì)上馬老師和逍遙子演講也以實(shí)時(shí)雙語(yǔ)字幕的形式展示)。
結(jié)合 OCR,機(jī)器翻譯和合圖技術(shù)的圖片翻譯在支付寶掃一掃,微信,搜狗翻譯機(jī)上得到應(yīng)用。隨著賣家直播的興起,直播視頻翻譯的場(chǎng)景和需求也會(huì)越來(lái)越多。但是受限于直播場(chǎng)景中復(fù)雜的領(lǐng)域,專業(yè)的術(shù)語(yǔ),快速的語(yǔ)速和有時(shí)嘈雜的背景環(huán)境,直播翻譯對(duì)于語(yǔ)音識(shí)別和機(jī)器翻譯的挑戰(zhàn)也是非常巨大。
7 對(duì)話系統(tǒng)
對(duì)話系統(tǒng)的語(yǔ)言覆蓋進(jìn)一步提升,基于多語(yǔ)言遷移能力快速拓展了法語(yǔ)、阿拉伯語(yǔ)、臺(tái)灣話的對(duì)話系統(tǒng),目前已支持 11 個(gè)語(yǔ)種,及馬來(lái)語(yǔ)-英語(yǔ)和泰語(yǔ)-英語(yǔ)的混合語(yǔ)言理解,為 Lazada 和 AE 帶來(lái)解決率的大幅提升。
對(duì)話系統(tǒng)支持了更大規(guī)模的商家和企業(yè),支撐了超過(guò) 50+ 的集團(tuán)經(jīng)濟(jì)體客戶,店小蜜拓展了通用包、行業(yè)包、店鋪包的知識(shí)定位能力,累計(jì)承載百萬(wàn)級(jí)活躍商家,日均千萬(wàn)級(jí)對(duì)話輪次。釘釘小蜜基于企業(yè)智能助理承載了 40W 日均活躍企業(yè)。
對(duì)話系統(tǒng)的交互形式進(jìn)一步豐富,直播小蜜實(shí)現(xiàn)了從商品相關(guān)問(wèn)題的被動(dòng)回答,到主動(dòng)和用戶展開(kāi)開(kāi)放式對(duì)話的轉(zhuǎn)變,帶來(lái) cdau 破百萬(wàn)。
VQA 等多模態(tài)理解能力落地店小蜜及經(jīng)濟(jì)體小蜜,提升用戶交互體驗(yàn)的同時(shí)大幅降低商家配置成本。
熱線小蜜的語(yǔ)音交互能力作為典型案例獲 2019MIT Technology Reviewer 十大突破技術(shù)提名,并沉淀了面向多領(lǐng)域的外呼場(chǎng)景,并在多個(gè)生態(tài)輸出。
8 多輪對(duì)話智能服務(wù)
多輪交互在智能服務(wù)場(chǎng)景(客服機(jī)器人)在解決用戶模糊問(wèn)題,提高用戶使用體驗(yàn)方面起到的重要的作用。模糊問(wèn)題指用戶問(wèn)題描述不完整,如 “怎么開(kāi)通” ,這句話沒(méi)有說(shuō)明是哪個(gè)業(yè)務(wù),這類問(wèn)題占客服機(jī)器人總提問(wèn)量的 30%。
螞蟻智能服務(wù)團(tuán)隊(duì)設(shè)計(jì)了基于標(biāo)簽的多輪交互方案,首先離線挖掘標(biāo)簽,并審核,標(biāo)簽包括業(yè)務(wù)標(biāo)簽(花唄,備用金...)和訴求標(biāo)簽(怎么開(kāi)通,如何還款...),通過(guò)向用戶反問(wèn)標(biāo)簽列表的形式澄清用戶問(wèn)題。
已有的問(wèn)題澄清方法主要通過(guò)直接推薦完整澄清問(wèn)題的方案,但定義什么是好的澄清問(wèn)題仍然不明確,螞蟻團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于強(qiáng)化學(xué)習(xí)推薦標(biāo)簽列表的方案做問(wèn)題澄清,整個(gè)標(biāo)簽推薦是一個(gè)序列決策的過(guò)程,在用戶點(diǎn)擊了標(biāo)簽之后,我們會(huì)把點(diǎn)擊的標(biāo)簽和原始的用戶問(wèn)題一起作為澄清后的問(wèn)題。
整個(gè)優(yōu)化的目標(biāo)是,目標(biāo)是最大化整個(gè)標(biāo)簽列表對(duì)潛在澄清問(wèn)題的覆蓋率,同時(shí)保持不同標(biāo)簽對(duì)潛在澄清問(wèn)題集合的有效劃分,因此,在強(qiáng)化學(xué)習(xí)過(guò)程中,相應(yīng)設(shè)計(jì)了基于信息增益的獎(jiǎng)勵(lì)(Reward)。
基于強(qiáng)化學(xué)習(xí)方法的多輪交互上線后,螞蟻客服機(jī)器人場(chǎng)景共解決了 33% 的模糊問(wèn)題,機(jī)器人綜合場(chǎng)景轉(zhuǎn)人工率絕對(duì)下降 1.2%。
9 人機(jī)對(duì)話構(gòu)建新的交互入口
場(chǎng)景驅(qū)動(dòng)的個(gè)性化多輪對(duì)話技術(shù),助推人機(jī)對(duì)話場(chǎng)景擴(kuò)充,同時(shí)語(yǔ)音語(yǔ)義一體化的上下文語(yǔ)義理解技術(shù),持續(xù)提升多輪對(duì)話達(dá)成率。
天貓精靈在過(guò)去一年中,將人機(jī)對(duì)話能力擴(kuò)充到二哈電話助手,語(yǔ)音購(gòu)物,新人使用引導(dǎo)等復(fù)雜的交互場(chǎng)景,更是在雙十一期間,創(chuàng)造了語(yǔ)音購(gòu)物 100 萬(wàn)訂單的記錄。
天貓精靈在去年的 315 推出了防騷擾電話助手 “二哈”,開(kāi)啟了全新的人機(jī)對(duì)話交互場(chǎng)景:作為用戶的替身完成對(duì)話。“二哈” 的對(duì)話場(chǎng)景是在垂直領(lǐng)域內(nèi)的開(kāi)放式多輪對(duì)話,目的是通過(guò)對(duì)話來(lái)識(shí)別來(lái)電意圖,并代替用戶來(lái)獲取必要信息。在 “二哈” 中我們提出了基于多輪對(duì)話上下文的機(jī)器閱讀理解技術(shù),用以理解來(lái)電意圖和關(guān)鍵信息;基于對(duì)于來(lái)電內(nèi)容的理解,我們基于 Transformer 構(gòu)建了對(duì)話策略模型,用以選擇策略和生成對(duì)話。針對(duì) “二哈” 的對(duì)話場(chǎng)景,我們提出使用圖靈測(cè)試通過(guò)率來(lái)衡量對(duì)話的質(zhì)量,亦即當(dāng)來(lái)電在整個(gè)對(duì)話中都沒(méi)有意識(shí)到是機(jī)器在與其通話時(shí),可以認(rèn)為 “二哈” 通過(guò)了圖靈測(cè)試!岸 目前的圖靈測(cè)試通過(guò)率達(dá)到了 87%,有效的幫助了用戶應(yīng)對(duì)陌生來(lái)電,節(jié)省用戶時(shí)間。
通過(guò)人機(jī)對(duì)話的方式去完成復(fù)雜的任務(wù),比如點(diǎn)咖啡、購(gòu)物等,往往需要機(jī)器和用戶進(jìn)行多次對(duì)話交互,同時(shí)在不同的任務(wù)場(chǎng)景下,對(duì)話機(jī)器人需要掌握各自領(lǐng)域的知識(shí),才能和用戶對(duì)答如流。比如在語(yǔ)音購(gòu)物場(chǎng)景,天貓精靈具備跨行業(yè)的智能導(dǎo)購(gòu)員能力,吸收各行業(yè)導(dǎo)購(gòu)員的銷售經(jīng)驗(yàn),在用戶進(jìn)行語(yǔ)音購(gòu)物的時(shí)候,以最終的成交轉(zhuǎn)化為目標(biāo),像商場(chǎng)的銷售員一樣主動(dòng)進(jìn)行多輪對(duì)話形式的購(gòu)物引導(dǎo),深入挖掘用戶購(gòu)物需求并結(jié)合用戶畫(huà)像進(jìn)行精準(zhǔn)推薦。且對(duì)不同的用戶,天貓精靈可以采用最適合 TA 的對(duì)話方式,做到個(gè)性化多輪對(duì)話。
多輪對(duì)話的達(dá)成,是建立在一系列的單輪交互都達(dá)成的基礎(chǔ)上的,而如果整體任務(wù)的達(dá)成率是簡(jiǎn)單的單輪達(dá)成率的乘積關(guān)系的話,多輪對(duì)話的達(dá)成率將很難提升。而打破簡(jiǎn)單乘積關(guān)系的關(guān)鍵在于,每一輪對(duì)話理解的時(shí)候,需要充分利用上下文信息。
在天貓精靈上,我們進(jìn)行了上下文語(yǔ)音語(yǔ)義理解的探索。首先在語(yǔ)音解碼的環(huán)節(jié),我們將多輪對(duì)話中,上文提到的實(shí)體信息構(gòu)建成 memory,通過(guò) attention 機(jī)制讓解碼器網(wǎng)絡(luò)感知到這些對(duì)話場(chǎng)景信息,顯著提升了多輪對(duì)話場(chǎng)景的語(yǔ)音識(shí)別精度,然后在語(yǔ)義理解環(huán)節(jié),我們獨(dú)創(chuàng)了具備跨輪 attention 能力的端到端上下文繼承模型,實(shí)現(xiàn)更高效的對(duì)話場(chǎng)景恢復(fù)的能力。從而讓線上多輪對(duì)話的錯(cuò)誤率下降了 58.5%,有效保障了復(fù)雜多輪對(duì)話場(chǎng)景的擴(kuò)充。
10 智能語(yǔ)音應(yīng)用持續(xù)發(fā)展
智能音箱,近幾年基本上國(guó)內(nèi)外大玩家都已陸續(xù)進(jìn)入市場(chǎng)(Amazon Alexa、Google Home/Nest、天貓精靈、小米小愛(ài)、百度小度),2019 年進(jìn)入競(jìng)爭(zhēng)格局;2019 年智能音箱出貨量仍然在增加,但增速下降。
智能音箱仍然以音樂(lè)播放等軟件類服務(wù)為主,但進(jìn)一步應(yīng)用創(chuàng)新仍依賴智能家居和 IoT 設(shè)備的進(jìn)一步普及。
智能語(yǔ)音電話,2018 年 Google I/O 大會(huì)展示了 Duplex 的語(yǔ)音電話助手 demo。2019 年智能語(yǔ)音電話開(kāi)始更多地應(yīng)用到真實(shí)業(yè)務(wù)領(lǐng)域,包括電銷、金融、政務(wù)等領(lǐng)域的應(yīng)用都在增長(zhǎng),以提升用戶服務(wù)覆蓋+降低人工成本。
螞蟻智能語(yǔ)音電話 2019 年也在安全(核身)、金融(保險(xiǎn)回訪、微貸催收)、支付(客戶激活)等更多金融場(chǎng)景應(yīng)用和落地。
智能語(yǔ)音類應(yīng)用,所面向的用戶場(chǎng)景強(qiáng)依賴對(duì)話語(yǔ)音交互,推動(dòng)了 NLP 技術(shù)和語(yǔ)音技術(shù)的發(fā)展;隨著技術(shù)和產(chǎn)品的發(fā)展成熟,以及用戶接受度的提高,2020 年的應(yīng)用規(guī)模和領(lǐng)域會(huì)進(jìn)一步擴(kuò)大。
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤(pán) 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤(pán) 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤(pán) 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書(shū)館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤(rùn)機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |