文本相似度計(jì)算旨在識別兩段文本在語義上是否相似，是自然語言處理領(lǐng)域的一個(gè)重要研究方向，其在智能問答、信息檢索等領(lǐng)域都發(fā)揮重要作用，具有很高的商業(yè)價(jià)值。

　　近期，思必馳知識服務(wù)團(tuán)隊(duì)在中文文本相似度計(jì)算方向投入研究，并取得階段性成果：

　　1）在第十四屆全國知識圖譜與語義計(jì)算大會(huì)（CCKS: China Conference on Knowledge Graph and Semantic Computing）[1]上發(fā)表相關(guān)論文一篇《Neural Fusion Model for Chinese Semantic Matching》。

　　該會(huì)議是國內(nèi)知識圖譜、語義技術(shù)、鏈接數(shù)據(jù)等領(lǐng)域的核心學(xué)術(shù)會(huì)議，聚集了知識表示、自然語言理解、知識獲取、智能問答、鏈接數(shù)據(jù)、圖數(shù)據(jù)庫、圖計(jì)算、自動(dòng)推理等相關(guān)技術(shù)領(lǐng)域的和研究人員的學(xué)者和研究人員。

　　2）在“千言數(shù)據(jù)集：文本相似度”評測[2]中取得階段性進(jìn)展。該評測的文本相似度數(shù)據(jù)集包括公開的三個(gè)文本相似度數(shù)據(jù)集，分別為哈工大（深圳）LCQMC、BQCorpus和谷歌的PAWS-X（中文）。目前，思必馳知識服務(wù)團(tuán)隊(duì)在三個(gè)數(shù)據(jù)集上均暫列第一。

　　針對中文文本相似度計(jì)算的魯棒性和泛化性問題，思必馳知識服務(wù)團(tuán)隊(duì)在以下幾個(gè)方面開展了技術(shù)研究：

　　1）針對中文特點(diǎn)的字、詞融合編碼器；

　　2）基于預(yù)訓(xùn)練模型的領(lǐng)域自適應(yīng)訓(xùn)練；

　　3）目標(biāo)應(yīng)用領(lǐng)域?qū)虻亩嚯A段模型微調(diào)。

　　相關(guān)技術(shù)實(shí)現(xiàn)在上述公開評測中得到了應(yīng)用和驗(yàn)證。

　　語言智能常被稱為人工智能皇冠上的一顆明珠。在未來，思必馳知識服務(wù)團(tuán)隊(duì)將繼續(xù)深耕認(rèn)知智能領(lǐng)域，在面向通用領(lǐng)域的文本相似度計(jì)算基礎(chǔ)上，打造領(lǐng)域自適應(yīng)的文本相似度計(jì)算系統(tǒng)，推動(dòng)文本相似度在垂直領(lǐng)域的應(yīng)用和發(fā)展。

　　參考文獻(xiàn)：

　　[1]第十四屆全國知識圖譜與語義計(jì)算大會(huì)（CCKS: China Conference on Knowledge Graph and Semantic Computing）

　　http://sigkg.cn/ccks2020/

　　[2]千言數(shù)據(jù)集：閱讀理解公開評測

　　https://aistudio.baidu.com/aistudio/competition/detail/45

中文字幕在线视频第一页,黄色毛片在线看,日本爱爱网站,亚洲系列中文字幕一区二区

思必馳在中文文本相似度計(jì)算任務(wù)上的探索與進(jìn)展

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)