創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
2019 年,技術(shù)進(jìn)展方面主要體現(xiàn)在預(yù)訓(xùn)練語(yǔ)言模型、跨語(yǔ)言 NLP/無(wú)監(jiān)督機(jī)器翻譯、知識(shí)圖譜發(fā)展 + 對(duì)話技術(shù)融合、智能人機(jī)交互、平臺(tái)廠商整合AI產(chǎn)品線。
1 預(yù)訓(xùn)練語(yǔ)言模型
隨著 2018 年底 Google 提出預(yù)訓(xùn)練語(yǔ)言模型 BERT,在多項(xiàng) NLP 任務(wù)上獲得更優(yōu)效果,預(yù)訓(xùn)練語(yǔ)言模型的研究與應(yīng)用被學(xué)術(shù)界和工業(yè)界視為 NLP 領(lǐng)域的一項(xiàng)重大突破,將 NLP 問(wèn)題的解決方式從以往的為每個(gè)任務(wù)單獨(dú)設(shè)計(jì)復(fù)雜的模型逐漸演變成了預(yù)訓(xùn)練 + 微調(diào)的范式,讓眾多 NLP 應(yīng)用能夠享受到大語(yǔ)料預(yù)訓(xùn)練模型帶來(lái)的紅利,在通用的預(yù)訓(xùn)練模型的基礎(chǔ)上加入簡(jiǎn)單的任務(wù)層,并結(jié)合自己場(chǎng)景的少量語(yǔ)料就可以獲得一個(gè)不錯(cuò)的領(lǐng)域 NLP 模型。
至此開(kāi)啟了自然語(yǔ)言處理的新篇章。
在 2019 年,各個(gè)研究機(jī)構(gòu)和公司在 BERT 的基礎(chǔ)上進(jìn)一步創(chuàng)新,紛紛提出了自己的預(yù)訓(xùn)練模型,如:Facebook 發(fā)布的 RoBERTa,CMU 發(fā)布的 XLNet,Stanford 發(fā)布的 ELECTRA,還有百度的 ERNIE 模型,阿里的 structBERT 模型, 華為的 NEZHA,哈工大和科大訊飛也都提出了自己的模型,不斷刷新 NLP 任務(wù)的最好成績(jī)。
這新的工作總結(jié)起來(lái),主要來(lái)自訓(xùn)練任務(wù)設(shè)計(jì)和訓(xùn)練算法兩個(gè)方面。
訓(xùn)練任務(wù)設(shè)計(jì)
進(jìn)行更加精細(xì)的語(yǔ)義粒度建模,包括引入更細(xì)粒度的建模對(duì)象和更加精細(xì)的刻畫(huà)語(yǔ)義關(guān)聯(lián)。
比如 “全詞 Mask” 或者 “Knowledge Masking”,技術(shù)在 MLM 預(yù)訓(xùn)練任務(wù)中 Mask 整個(gè)詞而不是單個(gè) Token,進(jìn)而提升了任務(wù)難度使得 BERT 學(xué)到更多語(yǔ)義信息,哈工大和科大訊飛聯(lián)合發(fā)布的中文 BERT 模型以及 NEZHA 模型中得到了應(yīng)用;再比如引入更多類(lèi)型的句間關(guān)系,從而能夠更加準(zhǔn)確描述語(yǔ)義關(guān)聯(lián)性,進(jìn)而提升語(yǔ)義匹配等方面能力,這在阿里和螞蟻團(tuán)隊(duì)的 BERT 模型中得到體現(xiàn)。
利用新的機(jī)器學(xué)習(xí)方法建模
包括 CMU 和 Google 聯(lián)合發(fā)布的 XLNet 使用了 Autoencoder 和 Auto-regressive 兩種方案;斯坦福大學(xué)提出的 ELECTRA 模型,引入對(duì)抗機(jī)制來(lái)進(jìn)行更好的 MLM 學(xué)習(xí)。華盛頓大學(xué)和 Facebook 聯(lián)合發(fā)布的 SpanBERT 模型還引入了 Span 預(yù)測(cè)任務(wù)。這些方案應(yīng)用更學(xué)習(xí)方法來(lái)建模文字之間的聯(lián)系,從而提升模型效果。
訓(xùn)練算法設(shè)計(jì)
針對(duì)模型的易用性的問(wèn)題,減少模型參數(shù),或者降低模型的復(fù)雜度,包括 Google 發(fā)布的 ALBERT 使用了詞表 embedding 矩陣的分解與中間層的共享。
提高訓(xùn)練速度的優(yōu)化
包括混合精度訓(xùn)練,用 FP16 來(lái)進(jìn)行權(quán)重,激活函數(shù)和梯度等的表示;LAMB 優(yōu)化器通過(guò)一個(gè)自適應(yīng)式的方式為每個(gè)參數(shù)調(diào)整 learning rate,模型訓(xùn)練能夠采用很大的 Batch Size; 這些方法極大地提高了訓(xùn)練速度。
阿里的 structBERT 模型通過(guò)引入更多模型和任務(wù)結(jié)構(gòu)化信息,提升語(yǔ)言表示能力。在Gluebench mark 上多次名列前矛和保持領(lǐng)先位置。通過(guò)蒸餾和 CPU 加速,RT 提高了 10x,finetuned 的模型給多個(gè)業(yè)務(wù)場(chǎng)景帶來(lái)了明顯提升,上線了 AliNLP 平臺(tái)。
預(yù)訓(xùn)練語(yǔ)言模型在大規(guī)模無(wú)監(jiān)督文本上進(jìn)行預(yù)訓(xùn)練,將得到的詞和句子的表示遷移到廣泛的下游任務(wù)上,包括文本匹配,文本分類(lèi),文本抽取,閱讀理解,機(jī)器問(wèn)答等不同的場(chǎng)景。如阿里語(yǔ)言模型在 MS MARCO 問(wèn)答評(píng)測(cè),TREC Deep Learning 評(píng)測(cè)上都取得了第一名的好成績(jī)。
下游的任務(wù)可以在低資源的情況下快速獲得一個(gè)不錯(cuò)的解決方案,極大的提升了 NLP 算法的應(yīng)用落地能力。
2 跨語(yǔ)言 NLP/無(wú)監(jiān)督機(jī)器翻譯
作為預(yù)訓(xùn)練語(yǔ)言模型的擴(kuò)展,F(xiàn)acebook 的研究人員提出了跨語(yǔ)言的語(yǔ)言模型預(yù)訓(xùn)練 “Cross-lingual Language Model Pretraining”,僅使用單語(yǔ)數(shù)據(jù)的無(wú)監(jiān)督訓(xùn)練和使用平行語(yǔ)料的有監(jiān)督訓(xùn)練的條件下,模型有效學(xué)習(xí)了跨語(yǔ)言文本表征,在多語(yǔ)言分類(lèi)和無(wú)監(jiān)督機(jī)器學(xué)習(xí)等任務(wù)上,都比之前的最優(yōu)結(jié)果有顯著的提升。
繼 2018 年 Google 預(yù)訓(xùn)練語(yǔ)言模型 BERT 橫掃 主流 NLP 任務(wù)之后,2019 年 Facebook 發(fā)布了新型跨語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型 XLM,實(shí)現(xiàn)不同語(yǔ)言在統(tǒng)一嵌入空間的表征共享,并在無(wú)監(jiān)督機(jī)器翻譯任務(wù)上帶來(lái)顯著的質(zhì)量提升。在探索大規(guī)模、多語(yǔ)言神經(jīng)機(jī)器翻譯方向上,Google、阿里巴巴等進(jìn)行了有效探索,通過(guò)同時(shí)在數(shù)十乃至數(shù)百種語(yǔ)向的平行語(yǔ)料上訓(xùn)練一個(gè)模型,而不是對(duì)各個(gè)語(yǔ)向分別建模,實(shí)現(xiàn)語(yǔ)義映射關(guān)系共享,不僅壓縮了模型數(shù)量,同時(shí)普遍提升了小語(yǔ)種翻譯效果。
過(guò)去一年來(lái),多語(yǔ)言 NLP 技術(shù)的研究成果主要集中在機(jī)器翻譯(特別是無(wú)監(jiān)督的機(jī)器翻譯),跨語(yǔ)言詞向量,多語(yǔ)言 NER,依存句法分析,詞對(duì)齊和多語(yǔ)言詞典生成等方向。
由于跨語(yǔ)言詞向量的學(xué)習(xí)/映射是其中的關(guān)鍵步驟,目前的無(wú)監(jiān)督/跨語(yǔ)言的 NLP 任務(wù)在相近的語(yǔ)言之間(如英語(yǔ)/法語(yǔ),英語(yǔ)/西班牙語(yǔ)等)效果最好,在不同的語(yǔ)言家族間(如英語(yǔ)/越南語(yǔ))效果還是有較大提升空間。
3 知識(shí)圖譜發(fā)展+對(duì)話技術(shù)融合
隨著數(shù)據(jù)量的積累和應(yīng)用對(duì)數(shù)據(jù)質(zhì)量和結(jié)構(gòu)要求的提升,近幾年知識(shí)圖譜又成為一項(xiàng)熱點(diǎn)技術(shù)開(kāi)始被關(guān)注。
知識(shí)圖譜技術(shù)領(lǐng)域在 2019 年的發(fā)展,包括領(lǐng)域知識(shí)圖譜的構(gòu)建和整合(金融、企業(yè)等)、圖譜平臺(tái)化標(biāo)準(zhǔn)能力的建設(shè)(schema 定義 + 構(gòu)建 + 調(diào)用)、圖譜應(yīng)用算法建設(shè)(基于圖譜數(shù)據(jù)的圖模型 + 規(guī)則推理等);并基于構(gòu)建的圖譜數(shù)據(jù)和能力,開(kāi)始在更多的業(yè)務(wù)場(chǎng)景得到應(yīng)用(搜索推薦內(nèi)容理解和挖掘、金融風(fēng)控和決策、對(duì)話理解和內(nèi)容生成等)。
在知識(shí)圖譜和對(duì)話結(jié)合的技術(shù)方向,對(duì)話技術(shù)在問(wèn)答和任務(wù)式對(duì)話近幾年已形成了一定的技術(shù)框架和業(yè)務(wù)覆蓋,開(kāi)始需要解決一些對(duì)知識(shí)理解 + 答案專(zhuān)業(yè)性要求更高的領(lǐng)域場(chǎng)景(理財(cái)助理等)。
對(duì)話技術(shù)結(jié)合知識(shí)圖譜的領(lǐng)域知識(shí)完整度 + 結(jié)構(gòu)化質(zhì)量?jī)?yōu)勢(shì)來(lái)進(jìn)行覆蓋,可以解決相應(yīng)場(chǎng)景下語(yǔ)料標(biāo)注(意圖理解)和專(zhuān)家配置(對(duì)話流程 + 響應(yīng)生成)上的不足,進(jìn)一步提升對(duì)話覆蓋和響應(yīng)質(zhì)量。融合知識(shí)圖譜對(duì)話這個(gè)方向,在 2020 年會(huì)有更多的真實(shí)場(chǎng)景落地和覆蓋。
4 智能人機(jī)交互
自然語(yǔ)言理解和深度問(wèn)答匹配技術(shù)在學(xué)術(shù)和工業(yè)界持續(xù)發(fā)發(fā)展,并且已經(jīng)在全域業(yè)務(wù)和場(chǎng)景有了大規(guī)模應(yīng)用,基于預(yù)訓(xùn)練語(yǔ)言模型進(jìn)一步帶來(lái)性能的提升。
機(jī)器閱讀理解成為低成本通用技術(shù),圍繞百科、政策法規(guī)、商品詳情頁(yè)、說(shuō)明書(shū)等場(chǎng)景構(gòu)建應(yīng)用中臺(tái)能力,接入效率有了很大提升。結(jié)合圖-文的多模態(tài) VQA 問(wèn)答技術(shù)在行業(yè)中率先孵化,理解商品詳情頁(yè)長(zhǎng)圖進(jìn)行問(wèn)答成為一項(xiàng)新的競(jìng)爭(zhēng)力。
對(duì)話(Dialog)技術(shù)能力進(jìn)一步發(fā)展,但是在端到端的基于數(shù)據(jù)驅(qū)動(dòng)的對(duì)話狀態(tài)跟蹤和對(duì)話策略還是只能在限定范圍內(nèi)進(jìn)行探索,工業(yè)場(chǎng)景基于對(duì)話平臺(tái)構(gòu)建的任務(wù)型機(jī)器人成為了主流的實(shí)現(xiàn)方案。
多語(yǔ)言技術(shù)實(shí)現(xiàn)新語(yǔ)言的快速拓展,基于 Cross-Lingual 構(gòu)建多語(yǔ)言語(yǔ)言模型,在遠(yuǎn)距離語(yǔ)言對(duì)在英 -> 中、英 -> 泰遠(yuǎn)距離語(yǔ)言對(duì)上超越 Google,拓展一個(gè)新語(yǔ)言從去年的 2 個(gè)月縮短到 2 周。
對(duì)話生成技術(shù)開(kāi)始取得突破,基于結(jié)構(gòu)化知識(shí)的引入提升生成的可控性,賣(mài)點(diǎn)的生成帶來(lái)導(dǎo)購(gòu)轉(zhuǎn)化率的提升。
5 平臺(tái)廠商整合AI產(chǎn)品線
隨著 AI 技術(shù)發(fā)展和 AI 應(yīng)用的需求,AI 技術(shù)框架的成熟(Tensorflow、PyTorch等),AI 技術(shù)能力逐漸被標(biāo)準(zhǔn)化為一系列 AI 平臺(tái)類(lèi)產(chǎn)品,面向企業(yè)和開(kāi)發(fā)者,提供更低門(mén)檻和更高效率的 AI 應(yīng)用支持。
對(duì)話類(lèi)平臺(tái),Google 從 2016 年開(kāi)始發(fā)布 Assistant 對(duì)話助手,這幾年陸續(xù)發(fā)布了 Google Home(現(xiàn)在整合到 Nest 智能家居品牌),Duplex 語(yǔ)音電話,以及收購(gòu)了 API.AI 對(duì)話開(kāi)發(fā)平臺(tái);今年 Google 已基本整合這些對(duì)話產(chǎn)品線,基本布局了對(duì)話現(xiàn)有的平臺(tái) + 終端,現(xiàn)成一個(gè)整體的對(duì)話產(chǎn)品線。
AI 類(lèi)平臺(tái)方面,Amazon 自 2017 年發(fā)布 SageMaker 機(jī)器學(xué)習(xí)平臺(tái)產(chǎn)品,今年進(jìn)一步基于 SageMaker 整合 AI 開(kāi)發(fā)過(guò)程,同時(shí)打通下游技術(shù)框架和上游 AI 應(yīng)用,整合 AI 產(chǎn)品線。類(lèi)似阿里的機(jī)器學(xué)習(xí)平臺(tái) PAI,定位成面向企業(yè)和開(kāi)發(fā)者的一站式機(jī)器學(xué)習(xí)平臺(tái)。
2019 年,應(yīng)用與產(chǎn)品方面主要體現(xiàn)在機(jī)器翻譯、對(duì)話系統(tǒng)、多輪對(duì)話智能服務(wù)、智能語(yǔ)音應(yīng)用持續(xù)發(fā)展。
6 機(jī)器翻譯
機(jī)器翻譯的產(chǎn)品發(fā)展延續(xù)了之前的趨勢(shì),在通用領(lǐng)域(新聞),特定領(lǐng)域(電商,醫(yī)療等)擴(kuò)展了更多的語(yǔ)言方向,支持了更豐富的業(yè)務(wù)場(chǎng)景,并持續(xù)帶來(lái)商業(yè)價(jià)值。阿里巴巴在翻譯干預(yù)和智能泛化方向進(jìn)行了卓有成效的探索,把業(yè)務(wù)知識(shí)更好地融合到神經(jīng)網(wǎng)絡(luò)翻譯框架中,大大提升了垂直場(chǎng)景下關(guān)鍵信息的翻譯準(zhǔn)確率。
高價(jià)值和高敏感內(nèi)容的翻譯目前仍離不開(kāi)人工,因此在計(jì)算機(jī)輔助翻譯(CAT)引入智能算法實(shí)現(xiàn)人機(jī)協(xié)同翻譯,以及機(jī)器翻譯后編輯(MTPE)等新型生產(chǎn)模式,也受到越來(lái)越多的關(guān)注。阿里巴巴、騰訊在自動(dòng)后編輯(APE)、交互式翻譯(IMT)都開(kāi)始有產(chǎn)品推出,并在實(shí)際業(yè)務(wù)中落地。
除了文本翻譯之外,更多的多模態(tài)翻譯應(yīng)用場(chǎng)景出現(xiàn),如語(yǔ)音翻譯在會(huì)議同傳,雙語(yǔ)字幕,翻譯機(jī)硬件上的嘗試(阿里二十周年年會(huì)上馬老師和逍遙子演講也以實(shí)時(shí)雙語(yǔ)字幕的形式展示)。
結(jié)合 OCR,機(jī)器翻譯和合圖技術(shù)的圖片翻譯在支付寶掃一掃,微信,搜狗翻譯機(jī)上得到應(yīng)用。隨著賣(mài)家直播的興起,直播視頻翻譯的場(chǎng)景和需求也會(huì)越來(lái)越多。但是受限于直播場(chǎng)景中復(fù)雜的領(lǐng)域,專(zhuān)業(yè)的術(shù)語(yǔ),快速的語(yǔ)速和有時(shí)嘈雜的背景環(huán)境,直播翻譯對(duì)于語(yǔ)音識(shí)別和機(jī)器翻譯的挑戰(zhàn)也是非常巨大。
7 對(duì)話系統(tǒng)
對(duì)話系統(tǒng)的語(yǔ)言覆蓋進(jìn)一步提升,基于多語(yǔ)言遷移能力快速拓展了法語(yǔ)、阿拉伯語(yǔ)、臺(tái)灣話的對(duì)話系統(tǒng),目前已支持 11 個(gè)語(yǔ)種,及馬來(lái)語(yǔ)-英語(yǔ)和泰語(yǔ)-英語(yǔ)的混合語(yǔ)言理解,為 Lazada 和 AE 帶來(lái)解決率的大幅提升。
對(duì)話系統(tǒng)支持了更大規(guī)模的商家和企業(yè),支撐了超過(guò) 50+ 的集團(tuán)經(jīng)濟(jì)體客戶,店小蜜拓展了通用包、行業(yè)包、店鋪包的知識(shí)定位能力,累計(jì)承載百萬(wàn)級(jí)活躍商家,日均千萬(wàn)級(jí)對(duì)話輪次。釘釘小蜜基于企業(yè)智能助理承載了 40W 日均活躍企業(yè)。
對(duì)話系統(tǒng)的交互形式進(jìn)一步豐富,直播小蜜實(shí)現(xiàn)了從商品相關(guān)問(wèn)題的被動(dòng)回答,到主動(dòng)和用戶展開(kāi)開(kāi)放式對(duì)話的轉(zhuǎn)變,帶來(lái) cdau 破百萬(wàn)。
VQA 等多模態(tài)理解能力落地店小蜜及經(jīng)濟(jì)體小蜜,提升用戶交互體驗(yàn)的同時(shí)大幅降低商家配置成本。
熱線小蜜的語(yǔ)音交互能力作為典型案例獲 2019MIT Technology Reviewer 十大突破技術(shù)提名,并沉淀了面向多領(lǐng)域的外呼場(chǎng)景,并在多個(gè)生態(tài)輸出。
8 多輪對(duì)話智能服務(wù)
多輪交互在智能服務(wù)場(chǎng)景(客服機(jī)器人)在解決用戶模糊問(wèn)題,提高用戶使用體驗(yàn)方面起到的重要的作用。模糊問(wèn)題指用戶問(wèn)題描述不完整,如 “怎么開(kāi)通” ,這句話沒(méi)有說(shuō)明是哪個(gè)業(yè)務(wù),這類(lèi)問(wèn)題占客服機(jī)器人總提問(wèn)量的 30%。
螞蟻智能服務(wù)團(tuán)隊(duì)設(shè)計(jì)了基于標(biāo)簽的多輪交互方案,首先離線挖掘標(biāo)簽,并審核,標(biāo)簽包括業(yè)務(wù)標(biāo)簽(花唄,備用金...)和訴求標(biāo)簽(怎么開(kāi)通,如何還款...),通過(guò)向用戶反問(wèn)標(biāo)簽列表的形式澄清用戶問(wèn)題。
已有的問(wèn)題澄清方法主要通過(guò)直接推薦完整澄清問(wèn)題的方案,但定義什么是好的澄清問(wèn)題仍然不明確,螞蟻團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于強(qiáng)化學(xué)習(xí)推薦標(biāo)簽列表的方案做問(wèn)題澄清,整個(gè)標(biāo)簽推薦是一個(gè)序列決策的過(guò)程,在用戶點(diǎn)擊了標(biāo)簽之后,我們會(huì)把點(diǎn)擊的標(biāo)簽和原始的用戶問(wèn)題一起作為澄清后的問(wèn)題。
整個(gè)優(yōu)化的目標(biāo)是,目標(biāo)是最大化整個(gè)標(biāo)簽列表對(duì)潛在澄清問(wèn)題的覆蓋率,同時(shí)保持不同標(biāo)簽對(duì)潛在澄清問(wèn)題集合的有效劃分,因此,在強(qiáng)化學(xué)習(xí)過(guò)程中,相應(yīng)設(shè)計(jì)了基于信息增益的獎(jiǎng)勵(lì)(Reward)。
基于強(qiáng)化學(xué)習(xí)方法的多輪交互上線后,螞蟻客服機(jī)器人場(chǎng)景共解決了 33% 的模糊問(wèn)題,機(jī)器人綜合場(chǎng)景轉(zhuǎn)人工率絕對(duì)下降 1.2%。
9 人機(jī)對(duì)話構(gòu)建新的交互入口
場(chǎng)景驅(qū)動(dòng)的個(gè)性化多輪對(duì)話技術(shù),助推人機(jī)對(duì)話場(chǎng)景擴(kuò)充,同時(shí)語(yǔ)音語(yǔ)義一體化的上下文語(yǔ)義理解技術(shù),持續(xù)提升多輪對(duì)話達(dá)成率。
天貓精靈在過(guò)去一年中,將人機(jī)對(duì)話能力擴(kuò)充到二哈電話助手,語(yǔ)音購(gòu)物,新人使用引導(dǎo)等復(fù)雜的交互場(chǎng)景,更是在雙十一期間,創(chuàng)造了語(yǔ)音購(gòu)物 100 萬(wàn)訂單的記錄。
天貓精靈在去年的 315 推出了防騷擾電話助手 “二哈”,開(kāi)啟了全新的人機(jī)對(duì)話交互場(chǎng)景:作為用戶的替身完成對(duì)話!岸 的對(duì)話場(chǎng)景是在垂直領(lǐng)域內(nèi)的開(kāi)放式多輪對(duì)話,目的是通過(guò)對(duì)話來(lái)識(shí)別來(lái)電意圖,并代替用戶來(lái)獲取必要信息。在 “二哈” 中我們提出了基于多輪對(duì)話上下文的機(jī)器閱讀理解技術(shù),用以理解來(lái)電意圖和關(guān)鍵信息;基于對(duì)于來(lái)電內(nèi)容的理解,我們基于 Transformer 構(gòu)建了對(duì)話策略模型,用以選擇策略和生成對(duì)話。針對(duì) “二哈” 的對(duì)話場(chǎng)景,我們提出使用圖靈測(cè)試通過(guò)率來(lái)衡量對(duì)話的質(zhì)量,亦即當(dāng)來(lái)電在整個(gè)對(duì)話中都沒(méi)有意識(shí)到是機(jī)器在與其通話時(shí),可以認(rèn)為 “二哈” 通過(guò)了圖靈測(cè)試!岸 目前的圖靈測(cè)試通過(guò)率達(dá)到了 87%,有效的幫助了用戶應(yīng)對(duì)陌生來(lái)電,節(jié)省用戶時(shí)間。
通過(guò)人機(jī)對(duì)話的方式去完成復(fù)雜的任務(wù),比如點(diǎn)咖啡、購(gòu)物等,往往需要機(jī)器和用戶進(jìn)行多次對(duì)話交互,同時(shí)在不同的任務(wù)場(chǎng)景下,對(duì)話機(jī)器人需要掌握各自領(lǐng)域的知識(shí),才能和用戶對(duì)答如流。比如在語(yǔ)音購(gòu)物場(chǎng)景,天貓精靈具備跨行業(yè)的智能導(dǎo)購(gòu)員能力,吸收各行業(yè)導(dǎo)購(gòu)員的銷(xiāo)售經(jīng)驗(yàn),在用戶進(jìn)行語(yǔ)音購(gòu)物的時(shí)候,以最終的成交轉(zhuǎn)化為目標(biāo),像商場(chǎng)的銷(xiāo)售員一樣主動(dòng)進(jìn)行多輪對(duì)話形式的購(gòu)物引導(dǎo),深入挖掘用戶購(gòu)物需求并結(jié)合用戶畫(huà)像進(jìn)行精準(zhǔn)推薦。且對(duì)不同的用戶,天貓精靈可以采用最適合 TA 的對(duì)話方式,做到個(gè)性化多輪對(duì)話。
多輪對(duì)話的達(dá)成,是建立在一系列的單輪交互都達(dá)成的基礎(chǔ)上的,而如果整體任務(wù)的達(dá)成率是簡(jiǎn)單的單輪達(dá)成率的乘積關(guān)系的話,多輪對(duì)話的達(dá)成率將很難提升。而打破簡(jiǎn)單乘積關(guān)系的關(guān)鍵在于,每一輪對(duì)話理解的時(shí)候,需要充分利用上下文信息。
在天貓精靈上,我們進(jìn)行了上下文語(yǔ)音語(yǔ)義理解的探索。首先在語(yǔ)音解碼的環(huán)節(jié),我們將多輪對(duì)話中,上文提到的實(shí)體信息構(gòu)建成 memory,通過(guò) attention 機(jī)制讓解碼器網(wǎng)絡(luò)感知到這些對(duì)話場(chǎng)景信息,顯著提升了多輪對(duì)話場(chǎng)景的語(yǔ)音識(shí)別精度,然后在語(yǔ)義理解環(huán)節(jié),我們獨(dú)創(chuàng)了具備跨輪 attention 能力的端到端上下文繼承模型,實(shí)現(xiàn)更高效的對(duì)話場(chǎng)景恢復(fù)的能力。從而讓線上多輪對(duì)話的錯(cuò)誤率下降了 58.5%,有效保障了復(fù)雜多輪對(duì)話場(chǎng)景的擴(kuò)充。
10 智能語(yǔ)音應(yīng)用持續(xù)發(fā)展
智能音箱,近幾年基本上國(guó)內(nèi)外大玩家都已陸續(xù)進(jìn)入市場(chǎng)(Amazon Alexa、Google Home/Nest、天貓精靈、小米小愛(ài)、百度小度),2019 年進(jìn)入競(jìng)爭(zhēng)格局;2019 年智能音箱出貨量仍然在增加,但增速下降。
智能音箱仍然以音樂(lè)播放等軟件類(lèi)服務(wù)為主,但進(jìn)一步應(yīng)用創(chuàng)新仍依賴(lài)智能家居和 IoT 設(shè)備的進(jìn)一步普及。
智能語(yǔ)音電話,2018 年 Google I/O 大會(huì)展示了 Duplex 的語(yǔ)音電話助手 demo。2019 年智能語(yǔ)音電話開(kāi)始更多地應(yīng)用到真實(shí)業(yè)務(wù)領(lǐng)域,包括電銷(xiāo)、金融、政務(wù)等領(lǐng)域的應(yīng)用都在增長(zhǎng),以提升用戶服務(wù)覆蓋+降低人工成本。
螞蟻智能語(yǔ)音電話 2019 年也在安全(核身)、金融(保險(xiǎn)回訪、微貸催收)、支付(客戶激活)等更多金融場(chǎng)景應(yīng)用和落地。
智能語(yǔ)音類(lèi)應(yīng)用,所面向的用戶場(chǎng)景強(qiáng)依賴(lài)對(duì)話語(yǔ)音交互,推動(dòng)了 NLP 技術(shù)和語(yǔ)音技術(shù)的發(fā)展;隨著技術(shù)和產(chǎn)品的發(fā)展成熟,以及用戶接受度的提高,2020 年的應(yīng)用規(guī)模和領(lǐng)域會(huì)進(jìn)一步擴(kuò)大。
機(jī)器人招商 Disinfection Robot 機(jī)器人公司 機(jī)器人應(yīng)用 智能醫(yī)療 物聯(lián)網(wǎng) 機(jī)器人排名 機(jī)器人企業(yè) 機(jī)器人政策 教育機(jī)器人 迎賓機(jī)器人 機(jī)器人開(kāi)發(fā) 獨(dú)角獸 消毒機(jī)器人品牌 消毒機(jī)器人 合理用藥 地圖 |