Sobot 智齒科技:AIGC給「構(gòu)建企業(yè)知識庫」帶來的改變

智能客服機(jī)器人的核心是企業(yè)知識,而企業(yè)知識獲取的核心步驟,是企業(yè)知識庫的構(gòu)建。

構(gòu)建邏輯是:結(jié)構(gòu)化企業(yè)數(shù)據(jù),存入企業(yè)問答知識庫。之后,根據(jù)知識庫進(jìn)行線上的FAQ問答(基于常見問答對的)、MRC問答(基于機(jī)器閱讀的)等,對應(yīng)構(gòu)建形成 {問題:答案}、{文檔}等知識庫。

過往,這種企業(yè)知識庫的構(gòu)建,都是離線的、耗時的、需要人工反復(fù)校驗的。尤其是上線后,為了提高機(jī)器人的問答準(zhǔn)確率,就需要運營人員基于具體業(yè)務(wù)去持續(xù)做優(yōu)化,如用戶關(guān)鍵詞抽取、實體抽取、同義詞理解等等,耗時很多。

AIGC時代,這一切都將改變。

構(gòu)建知識庫的速度和問答準(zhǔn)確率,都將極大提升。主要是因為數(shù)據(jù)來源更容易無限擴(kuò)展,不再局限于結(jié)構(gòu)化、半結(jié)構(gòu)化的企業(yè)文檔,說明書,文字、語音、圖片、視頻等都可以被快速提取出有效信息,輸入給大型預(yù)訓(xùn)練語言模型理解后問答,或者直接存儲到知識庫中,搜索后推出,也可二者結(jié)合。

1. FAQ文本知識庫

FAQ(Frequently Asked Questions),即常見問題解答,是指整理和歸納常見問題及其對應(yīng)答案的文檔或資源集合。這些問題通常是某個業(yè)務(wù)場景下,客戶會經(jīng)常遇到的問題,可以幫助客服機(jī)器人快速、準(zhǔn)確地解決常見問題,提升客戶滿意度。

FAQ文本知識庫的創(chuàng)建、擴(kuò)寫對運營崗位的消耗較大。舉個簡單的例子:

query: “工作過多個城市,現(xiàn)在如何查詢自己的公積金是屬于哪個公積金中心?”。

我們需要對這個query擴(kuò)展相似問,自動生成多個相似問。通過這種方式快速豐富知識庫問題,同時提高實際線上問答的語義搜索結(jié)果可靠性。

1686636378259040440.jpg

就在這個過程中,擴(kuò)展生成的相似問,需要經(jīng)過多步自動化校驗,包括答案一致性校驗、口語化校驗、相似性校驗、屬性分類校驗等等。

答案一致性校驗是指“從擴(kuò)展的相似問題中,那些與原始query的標(biāo)準(zhǔn)答案相關(guān),且該標(biāo)準(zhǔn)答案能對其進(jìn)行解答的問題”。這樣,它們有可能組成標(biāo)準(zhǔn)問題-相似問題對,答案也相同。

下面是通過答案一致性校驗的相似問:

圖片2.jpg

通過答案一致性校驗后,還是會有很多問題。例如:

很多問題是有效問題,卻不是該業(yè)務(wù)下的常見表述,簡單來說就是不夠口語化。這些問題,不僅會增加知識庫的冗余,還會影響其他業(yè)務(wù)的搜索結(jié)果。針對這類問題還需要進(jìn)行口語化校驗,校驗后保留如下:

圖片3.jpg

經(jīng)過上述校驗的問答對,往往還會存在一個問題,就是相似性過高。這些問題,往往只是簡單換了個詞匯,存儲知識庫的必要性低。因此,我們還需要做一輪相似性校驗,具體來說,就是根據(jù)業(yè)務(wù)特性設(shè)定去除和保留比例,通過聚類、相似度計算去除冗余部分。校驗后保留如下:

圖片4.jpg

可以看到,經(jīng)過系列校驗后,保留下來的相似問已經(jīng)有很高的質(zhì)量了。

在知識庫的的構(gòu)建方面,除了標(biāo)準(zhǔn)問、相似問的生成,還必須關(guān)注業(yè)務(wù)覆蓋率這個指標(biāo),一般來說,業(yè)務(wù)覆蓋率越高,知識庫的質(zhì)量也越高。

例如,“公積金”查詢會涉及地點、時間、金額、查詢方式、繳費方式等問題維度,維度越多,覆蓋率就越高。

舉個例子:可對“公積金歸屬地查詢”這個原始問題拓展出的所有相似問題,進(jìn)行分類,進(jìn)一步發(fā)現(xiàn)更多有價值的句子。從下面分類結(jié)果看到,其中的類別1和原始問題答案相同,其他類別下的問題,是“公積金”相關(guān)的其他維度的業(yè)務(wù)問題,只是答案和原始問題的可能不同。那么,這些句子如果能加入知識庫,就拓展了“公積金”相關(guān)的業(yè)務(wù)覆蓋率。

對上面初始拓展的39個問題,分類如下:

類別1:公積金歸屬地的基本查詢。

詢問如何查詢公積金的歸屬地,包括城市、地區(qū)、省份、縣、區(qū)等,關(guān)注點尋找基本的位置信息。

分類結(jié)果包含:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 16, 18, 19, 21, 22, 24, 25, 27, 28, 30, 31, 33, 34, 37。

類別2:公積金歸屬地查詢的具體步驟和流程

關(guān)注查詢公積金歸屬地的步驟、流程,關(guān)注點是更詳細(xì)的查詢指導(dǎo)。

分類結(jié)果包含:11, 23。

類別3:公積金歸屬地查詢的工具和平臺

詢問關(guān)于查詢公積金歸屬地的工具、軟件、系統(tǒng)、平臺、網(wǎng)址等,關(guān)注點是查詢工具和平臺的選擇。

分類結(jié)果包含:14, 17, 20, 26, 29, 32, 35, 38。

類別4:公積金歸屬地的詳細(xì)信息查詢

詢問如何查詢公積金歸屬地的具體地址、郵編、電話號碼、郵寄地址等詳細(xì)信息,關(guān)注點獲取更具體的信息。

分類結(jié)果包含:15, 24, 27, 30, 33, 36, 39。

上面分類后的類別2、類別3、類別4,是經(jīng)過答案一致性校驗后,被排除的。查詢知識庫如果有相似query或答案,可進(jìn)入到下一輪的自動化校驗,對符合條件的可人工校驗入庫。另外,新增的這些問題,還可做預(yù)測性的FAQ (PFAQ),預(yù)測用戶可能會遇到的問題,并提前提供問答。

2. MRC文本知識庫

MRC問答,也就是機(jī)器閱讀理解(Machine Reading Comprehension)的問答,系統(tǒng)通過閱讀和理解自然語言文本,并根據(jù)這些文本回答給定的問題。在我們的機(jī)器人中,是將query和與它最相關(guān)的文本塊給與LLM,輸出answer。

通過文檔上傳,文檔切片分塊,向量化存儲后,即可語義搜索。問答時,根據(jù)文檔搜索結(jié)果和query一起加入Prompt,輸入LLM理解后回答。

1686636545474099554.jpg

受限于語言模型的理解能力,過往的MRC的問答效果一般?,F(xiàn)在,結(jié)合LLM模型, 文檔理解和問答的準(zhǔn)確性,已經(jīng)能解決常見問題。

在智能問答客服機(jī)器人中,為進(jìn)一步提高問答效果,對于分塊文檔,還可增加問答對的抽取。一方面結(jié)合原始的分塊文檔,可以提高query理解的準(zhǔn)確性,另一方面,對于文檔切片后引起的塊內(nèi)知識不完全,是個很好的補充。

常用的tricks,比如在原有的文檔切片的基礎(chǔ)上,提取摘要、關(guān)鍵詞、關(guān)鍵句等信息,作為補充,也可提取問答對作為補充。

問答對的提取如下,例如分塊后的文檔如下:

1686636569868001543.jpg

進(jìn)行問答對抽取,得到如下:

1686636585808050450.jpg

通過對切片后的文檔進(jìn)行問答對抽取,可以快速完成多源數(shù)據(jù)的知識庫構(gòu)建。

更重要的是,這種文檔的直接切片分塊,知識構(gòu)建,在文檔上傳后,即可進(jìn)行智能問答。好處是,快速更新的企業(yè)知識,也能夠快速應(yīng)用在業(yè)務(wù)中。

以上方法構(gòu)建的企業(yè)知識庫,生成校驗極快。并且在機(jī)器人的問答準(zhǔn)確性上,結(jié)合模型強大的理解能力,語義搜索后的多個潛在答案通過LLM進(jìn)一步加工,答案準(zhǔn)確性極高。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )