跨語言檢索、檢索增強生成……一文看懂最火大模型AI搜索技術

2023年11月29日 17:45:22 來源：

　　引言：2023年，大模型技術迎來顛覆性突破，新興AI應用不斷涌現，重塑著人類、機器與智能的關系。一場人工智能風暴，席卷世界。為此，昆侖萬維天工團隊重磅推出「天工一刻」系列內容，對大模型上下游技術進行一次全面解讀，涵蓋學術熱點、技術創新、應用案例等。希望我們的內容能為所有關注大模型技術的讀者，提供一些借鑒與參考。

　　問：把大模型放進AI搜索里，要做哪幾步?

　　答：搜索里的每一步。

　　對于廣大用戶而言，大模型的能力最直觀體現在答案生成上。用戶向“天工”AI搜索提問后，大模型將直接結合搜索內容生成答案，無需用戶在紛繁冗雜的鏈接集合中親自尋找。

　　但事實上，大模型在“天工”AI搜索里發揮的作用，可遠不僅僅在此。

　　數據搜集、索引建立、檢索算法設計、排序算法設計、向量數據庫、檢索增強生成、搜索結果生成……大模型的能力貫穿了“天工”AI搜索的幾乎每一個環節。

　　對于用戶而言，大模型加持的新一代搜索引擎，能夠讓搜索結果更精準、更高效、更可信;

　　而對于搜索引擎的設計者而言，大模型加持，能讓開發人員投入更少的重復工作、更快的開發速度、得到更好的搜索效果。

　　本文將從以下方向介紹與AI搜索引擎相關的大模型技術：

　　1.為什么搜索引擎這么難做?

　　2.搜索三大環節：數據、檢索、匹配

　　3.大模型AI搜索關鍵技術有哪些?

　　01 搜索引擎的歷史和萬維網一樣長

　　很少人知道，搜索引擎的歷史，和萬維網(www)一樣長。

　　1990年，萬維網之父蒂姆·伯納斯-李(Tim Berners-Lee)剛剛將WorldWideWeb瀏覽器和Web服務器的源代碼發布到了互聯網上，HTTP協議還要數年之后才會出現。

　　當時，FTP(文件傳輸協議)仍是網絡文件共享的主要工具。但不同的FTP文件零星儲存在互聯網的各個角落，沒有具體的文件地址就無法訪問。

　　為了解決這個問題，三名加拿大蒙特利爾的大學生聚在一起，發明了一款用于FTP文件資源檢索的工具——Archie。使用Archie，用戶只需要知道文件名稱，就能夠查詢文件所在FTP地址。

　　這三名年輕人沒有意識到，他們隨手的一個舉動，竟揭開了互聯網歷史上全新的一頁——搜索引擎。

　　自此，全球第一款互聯網搜索引擎誕生，互聯網搜索概念迎來大爆發。

　　3年后，世界上第一個互聯網互聯網爬蟲程序誕生;

　　4年后，世界上第一個既可搜索又可瀏覽的分類目錄誕生、基于網站索引的門戶網站雅虎誕生、日后名噪一時的 Infoseek搜索引擎誕生;

　　此后，全球搜索引擎層出不窮;

　　8年之后，谷歌誕生。

　　從1990年至今，三十多年間，搜索技術已經逐漸滲透到了我們電子生活的方方面面。除了傳統意義的搜索引擎外，社交軟件、電商平臺、視頻APP、職場APP、甚至外賣APP中，搜索技術都扮演著重要的角色。

　　02 238萬億億粒沙子

　　設計一個搜索引擎，大致需要以下步驟：收集及處理數據、建立索引、設計檢索算法、信息匹配與排序、返回結果并呈現搜索答案。

　　這些環節又可以大致分為三步：數據、檢索、匹配。

　　第一步，把互聯網上海量的數據(如網頁、文檔、內容等)收集起來，并對它們進行初步的處理。

　　第二步，給每個數據打上合適的“標簽”，再分門別類地儲存到數據庫里，并設計一套精妙的檢索方案，讓自己隨時能夠找到合適的數據。

　　第三步，收到用戶發出的搜索指令后，對該指令進行拆解分析、提取核心信息，然后把與這一指令有關的眾多數據按照相關性進行排序，最終匹配呈現最佳答案。

　　聽上去似乎不難，但如果你考慮到全球范圍內究竟有多少數據，這事就遠不簡單了。

　　根據IDC Global DataSphere 2023數據，2022年，全球范圍內的數據總量達到了103.66ZB，其中中國數據總量達到了23.88ZB，年均增長速度高達26.3%。

　　如果你對這幾個天文數字沒什么概念的話，打個比方：1ZB數據是10萬億億字節，而整個地球上所有沙子加起來，大概也就56萬億億粒。

　　也就是說，2022年，全中國的數據總量超過了238萬億億字節——比四個地球的沙子加起來還多。

　　在四個地球的沙子里，找到一粒符合要求的沙子，難度可想而知。

　　03 把大模型裝進AI搜索里

　　自1990年至今的三十多年間，搜索技術經歷了多番迭代升級，逐漸變成了一個復雜的系統性工程——涵蓋數據庫、索引、檢索、自然語言處理、甚至計算機視覺等諸多交叉學科。

　　近年間，預訓練Transformer模型橫空出世，在人工智能領域掀起革命，此后，以GPT為代表的大語言模型(LLM, Large Language Model)席卷全球，沖擊著各行各業。

　　搜索也不例外。

　　大模型對于搜索技術的重塑，貫穿每一個環節。

　　首先是數據。在搜索技術的諸多環節之中，數據的收集與處理是被討論得最少的環節，卻也是最重要的環節之一。

　　數據收集處理之于搜索引擎，相當于地基之于摩天大樓。

　　沒有數據的積累，再好的檢索算法也是巧婦難為無米之炊。然而，數據質量也分優良中差。

　　上文提到，2022年，全中國的數據總量超過了238萬億億字節，這其中包含的可能是千億級別的網頁內容、百億級別的音視頻內容。

　　這其中，又充斥著海量重復信息、虛假新聞、廣告內容……傳統的搜索引擎需要大量的資源對這些信息進行初步的篩選與處理，但耗時長、效率低、成本高。

　　而在昆侖萬維“天工”AI搜索的設計之初，就在數據收集與索引環節引入了大模型技術，對互聯網上海量內容進行識別和篩選，屏蔽虛假廣告內容，再引入網站權威性、可靠性等其他影響因子，初步清洗出較為純凈、高質量的搜索結果。

　　目前，昆侖萬維“天工”AI搜索團隊已經累計索引了上百億優質數據資源，用戶使用天工AI搜索時，將會顯著地體會到搜索結果質量更高，冗余信息更少。但是，這還不夠。

　　根據W3Techs數據，截止至2020年，全球前100萬網頁中，英文網站內容占比59.3%，中文網站內容占比僅為1.3%。在當前全球信息版圖中，英文信息數量幾乎是中文的45倍。即便拋開中文APP的信息孤島因素，全網英文信息數量至少也是中文的10倍以上。特別是在人工智能、生物醫學等前沿科技領域，最新、最快、最“硬核”的內容幾乎全部來自英文網站。

　　這個問題，大模型能解決嗎?

　　能。

　　為了解決這一問題，昆侖萬維“天工”AI搜索團隊在搜索引擎中引入了當今最前沿的跨語言檢索技術(Cross-Language Information Retrieval，CLIR)。

　　利用大模型的跨語言理解能力，跨語言檢索技術能夠讓用戶在使用一種語言(如中文)查詢時，搜索引擎依然能在全球范圍內，深入英文知識庫和學術文獻進行檢索，并將有用的信息翻譯整合，最終生成全面、安全、準確的中文回答。

　　有了大模型技術“加持”，即便用戶只用中文進行查詢，天工AI搜索也能提供來自全球的最新信息，大大擴展了答案的知識邊界。

　　除此之外，理解用戶搜索指令(Query)也是大模型技術發揮作用的環節。如果把搜索比作下館子，數據處理是廚師買菜洗菜，理解用戶指令是看懂用戶“點的菜”，檢索和答案呈現就是炒菜和上菜。你以為用戶在點菜的時候會說“給我來盤宮保雞丁”，但實際上，用戶說的往往是“今天想吃個糊辣口的東西，最好有雞肉，要川派做法，不要京派的。最好帶點甜，不甜也沒關系。”沒想到吧?讀懂用戶指令也是個大難題。

　　因此，昆侖萬維“天工”AI搜索團隊在用戶搜索指令理解環節就加入了大模型技術，對用戶搜索指令做Query改寫，深入挖掘用戶真實意圖，并敏銳地捕捉到查詢語句中的上下文關系，從而得到更精確、更相關、更合心意的搜索結果。

　　而在檢索與匹配環節中，大模型可發揮的用處則更多。在搜索引擎的設計中，最核心的兩項技術是“召回(Match)”和“排序(Rank)”。

　　召回指的是從數據庫的全量信息集合中觸發盡可能多的正確結果，并將結果返回。排序又分為“粗排”和“精排”，指的是根據用戶搜索內容的相關性，對召回結果進行排序。在召回與排序環節里，“相關性”是最重要的目標之一。

　　傳統搜索引擎花了海量的資源投入在“人工相關性”中，需要大量人力資源去充分理解用戶搜索指令跟目標內容之間相匹配的特征、頻次、距離、長短等等，幾乎每個抽象算子都需要有專人去做人工分析，實時調校算法參數。面對海量的互聯網信息，這種做法必然難度大、成本高、耗時長、效率低。大模型在此時發揮了它的作用。

　　昆侖萬維“天工”AI搜索的召回與排序環節中，大量引入了大模型能力。訓練好的大模型能夠模仿人類的識別判斷能力，判斷搜索指令(Query)和被搜索文檔(Doc)是否具有相關性，并將這些匹配好的相關性樣本當作“教科書案例”讓搜索引擎學習，進而提升搜索引擎的召回、排序性能，并且實現模型側的端對端迭代。

　　除了效率更高、耗時更短外，更重要的是，由于人類存在個體差異、認知差異、判斷差異，即便是同一個人在不同時刻的評估結果都會有所不同。相較于人工評估，大模型能夠提供更加穩定的輸出結果。除了上述對搜索技術的重塑、優化、改良外，但在更前沿的科研領域，大模型還在顛覆著搜索引擎的核心架構。

　　比如，在昆侖萬維“天工”AI搜索中，引入了當前大模型學術界、產業界最火的研究方向之一——檢索增強生成(RAG)技術。

　　RAG將信息檢索與答案生成這兩個環節結合在了一起，其技術路徑可以簡化理解為：用戶提問——在數據庫中檢索相關答案——系統將用戶的提問及檢索出的相關答案一起合成Prompt——將Prompt提交給大模型——大模型返回提問結果。

　　(RAG技術原理圖，來自論文《Retrieval-Augmented Generation for Knowledge-intensive NLP Tasks》)

　　引入了檢索環節，RAG技術能夠顯著提高搜索答案質量，還能為答案輸出提供可解釋性，一定程度避免了大模型“胡說八道”的傾向。尤其是在面對復雜的、需要深度理解的知識檢索場景時，RAG技術的效果非常優秀，在準確率、召回率等關鍵指標上都超越了不少傳統檢索方法。

　　結語

　　在海量信息面前，人類對于信息精準匹配的需求日益強烈。搜索，變得越來越重要。

　　與此同時，搜索的形態，也在悄然發生改變。

　　大模型時代，隨著各類“GPT”的不斷涌現，信息檢索和生成的界限日趨模糊。2023年2月，微軟發布集成ChatGPT的AI搜索引擎New Bing，2023年5月，谷歌推出試驗版AI搜索引擎Search Generative Experience，2023年8月，昆侖萬維推出國內第一款大模型搜索引擎天工AI搜索，越來越多的融合與變革正在發生。

　　在搜索引擎誕生的三十余年里，搜索技術曾不止一次地來到技術創新的奇點時刻，陳舊的體驗被顛覆，用戶認知被重塑。大模型不是搜索引擎的第一次革命，也不會是最后一次。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...