成人免费看黄网站无遮挡,caowo999,se94se欧美综合色,a级精品九九九大片免费看,欧美首页,波多野结衣一二三级,日韩亚洲欧美综合

搜索引擎的研究論文

時(shí)間:2021-04-16 15:05:55 論文 我要投稿

關(guān)于搜索引擎的研究論文

  摘要:搜索引擎的出現, 把互聯(lián)網(wǎng)產(chǎn)品的技術(shù)水平提高到了一個(gè)新的高度。本文首先介紹搜索引擎技術(shù)的發(fā)展歷程, 其次簡(jiǎn)要介紹了搜索引擎關(guān)鍵技術(shù)和產(chǎn)品;隨著(zhù)移動(dòng)終端智能化和互聯(lián)網(wǎng)用戶(hù)個(gè)性化以及社交化為中心的融合趨勢下的發(fā)展, 催生了很多新型應用。結合目前管理信息系統互聯(lián)網(wǎng)化的發(fā)展方向, 詳細介紹了搜索引擎在管理信息系統中的一整套應用案例。

關(guān)于搜索引擎的研究論文

  關(guān)鍵詞:搜索引擎; 搜索引擎技術(shù); 搜索引擎產(chǎn)品; 搜索引擎在管理信息系統中案例; 搜索引擎發(fā)展趨勢;

  Discussion on search engine

  Abstract:The emergence of search engine takes the Internet product technology to a new level. This article first introduces the development of search engine technology, then introduces search engine's key technologies and products.With the intelligent mobile terminals, services users personalized services, and social network integration as the center of the trend, a lot of new applications have emerged. Combined with the development direction of the current management MIS system, this article introduces the application case of search engine in MIS system.

  Keyword:search engine; search engine technology; search engine product; search engine in management information system case; search engine development trend;

  1、引言

  搜索引擎的誕生源自互聯(lián)網(wǎng)最根本的用途之一:信息獲取。

  在搜索引擎出現之前, 互聯(lián)網(wǎng)缺少入口, 用戶(hù)往往需要自己記住有用的網(wǎng)站和網(wǎng)頁(yè)。為了滿(mǎn)足這種需求, 最早的“搜索引擎”, 即分類(lèi)目錄瀏覽式的引擎便出現了, Yahoo就是其中的代表。最初只是采用把一些有用的網(wǎng)站通過(guò)分類(lèi)的方式手工組織起來(lái), 便于用戶(hù)找到有用的信息。能夠手工組織也是基于早年整個(gè)互聯(lián)網(wǎng)的網(wǎng)站數量也非常少, 可以通過(guò)人工方式實(shí)現組織。

  隨著(zhù)互聯(lián)網(wǎng)的壯大, 網(wǎng)頁(yè)網(wǎng)站數量越來(lái)越多, 手工組織的方式變?yōu)椴豢尚校?于是由機器實(shí)現的全文檢索引擎便出現了。用戶(hù)可以通過(guò)關(guān)鍵字查詢(xún)來(lái)獲取相關(guān)的網(wǎng)頁(yè)。又隨著(zhù)網(wǎng)頁(yè)數量的不斷增多, 任何關(guān)鍵字查詢(xún)都會(huì )返回大量的相關(guān)網(wǎng)頁(yè), 如果對網(wǎng)頁(yè)進(jìn)行評分和排序, 返回給用戶(hù)真正有價(jià)值的網(wǎng)頁(yè)便成為重點(diǎn);诰W(wǎng)頁(yè)之間的鏈接關(guān)系為網(wǎng)頁(yè)進(jìn)行評分, 成為很多搜索引擎的網(wǎng)頁(yè)排序算法基礎, Google的Page Rank算法便是其中的代表者。

  Google也以此為基礎成為搜索引擎產(chǎn)品中的領(lǐng)先者, 為用戶(hù)提供了更好的搜索結果相關(guān)性,F代搜索引擎基本上也由此基本成型, 雖然后來(lái)的技術(shù)創(chuàng )新和改進(jìn)很多, 但主要的思路基本上沒(méi)有變。

  搜索引擎發(fā)展到今天, 基礎架構和算法在技術(shù)上都已經(jīng)基本成型和成熟。搜索引擎已經(jīng)發(fā)展成為根據一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息, 在對信息進(jìn)行組織和處理后, 為用戶(hù)提供檢索服務(wù), 將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統。

  2、搜索引擎技術(shù)

  搜索引擎所涉及和涵蓋的技術(shù)范圍非常廣, 涉及到了系統架構和算法設計等許多方面?梢哉f(shuō)由于搜索引擎的出現, 把互聯(lián)網(wǎng)產(chǎn)品的技術(shù)水平提高到了一個(gè)新的高度;搜索引擎無(wú)論是在數據和系統規模, 還是在算法技術(shù)的研究應用深度上, 都遠超之前簡(jiǎn)單的互聯(lián)網(wǎng)產(chǎn)品。

  搜索引擎涉及的關(guān)鍵技術(shù)點(diǎn)包含:爬蟲(chóng) (Crawling) 、索引結構 (Inverted Index) 、檢索模型 (VSM&TF-IDF) 、搜索排序 (Relevance Ranking&Evaluation) 、鏈接分析 (Link Analysis) 、分類(lèi) (Document&Query Classification) 、自然語(yǔ)言處理 (NLP:Tokenization, Lemmatization, POS Tagging, NER, etc.) 、分布式系統 (Distributed Processing&Storage) .

  雖然搜索引擎涉及的技術(shù)方方面面, 但歸結起來(lái)最關(guān)鍵的幾點(diǎn)在于:

  ●系統:大規模分布式系統, 支撐大規模的數據處理容量和在線(xiàn)查詢(xún)負載。

  ●數據:數據處理和挖掘能力。

  ●算法:搜索相關(guān)性排序、查詢(xún)分析、分類(lèi)等。

  由此可見(jiàn)搜索引擎系統是一個(gè)由許多模塊組成的復雜系統, 核心模塊通常包括爬蟲(chóng)、索引、檢索和排序, 除了必需的核心模塊之外, 通常還需要一些支持輔助模塊, 常見(jiàn)的有鏈接分析、去重、反垃圾、查詢(xún)分析等。搜索引擎中各關(guān)鍵功能模塊功能簡(jiǎn)介如下:

 。1) 爬蟲(chóng):從互聯(lián)網(wǎng)爬取原始網(wǎng)頁(yè)數據, 存儲于文檔知識庫服務(wù)器。

 。2) 文檔知識庫服務(wù)器:存儲原始網(wǎng)頁(yè)數據, 通常是分布式Key-Value數據庫, 能根據URL/UID快速獲取網(wǎng)頁(yè)內容。

 。3) 索引:讀取原始網(wǎng)頁(yè)數據, 解析網(wǎng)頁(yè), 抽取有效字段, 生成索引數據。索引數據的生成方式通常是增量的, 分塊/分片的, 并會(huì )進(jìn)行索引合并、優(yōu)化和刪除。生成的索引數據通常包括:字典數據、倒排表、正排表、文檔屬性等。生成的索引存儲于索引服務(wù)器。

 。4) 索引服務(wù)器:存儲索引數據, 主要是倒排表, 通常是分塊、分片存儲, 并支持增量更新和刪除。數據內容量非常大時(shí), 還根據類(lèi)別、主題、時(shí)間、網(wǎng)頁(yè)質(zhì)量劃分數據分區和分布, 更好地服務(wù)在線(xiàn)查詢(xún)。

 。5) 檢索:讀取倒排表索引, 響應前端查詢(xún)請求, 返回相關(guān)文檔列表數據。

 。6) 排序:對檢索器返回的文檔列表進(jìn)行排序, 基于文檔和查詢(xún)的相關(guān)性、文檔的鏈接權重等屬性。

 。7) 鏈接分析:收集各網(wǎng)頁(yè)的鏈接數據和錨文本 (Anchor Text) , 以此計算各網(wǎng)頁(yè)鏈接評分, 最終會(huì )作為網(wǎng)頁(yè)屬性參與返回結果排序。

 。8) 網(wǎng)頁(yè)去重:提取各網(wǎng)頁(yè)的相關(guān)特征屬性, 計算相似網(wǎng)頁(yè)組, 提供離線(xiàn)索引和在線(xiàn)查詢(xún)的去重服務(wù)。

 。9) 網(wǎng)頁(yè)反垃圾:收集各網(wǎng)頁(yè)和網(wǎng)站歷史信息, 提取垃圾網(wǎng)頁(yè)特征, 從而對在線(xiàn)索引中的網(wǎng)頁(yè)進(jìn)行判定, 去除垃圾網(wǎng)頁(yè)。

 。10) 查詢(xún)分析:分析用戶(hù)查詢(xún), 生成結構化查詢(xún)請求, 指派到相應的類(lèi)別、主題數據服務(wù)器進(jìn)行查詢(xún)。

 。11) 頁(yè)面描述/摘要:為檢索和排序完成的網(wǎng)頁(yè)列表提供相應的描述和摘要。

 。12) 前端:接受用戶(hù)請求, 分發(fā)至相應服務(wù)器, 返回查詢(xún)結果。

  3、搜索引擎產(chǎn)品介紹

  搜索引擎產(chǎn)品其實(shí)包括很多種類(lèi), 并不限于我們最熟悉的全網(wǎng)搜索引擎。具體包含如下幾種:

  ●全網(wǎng)搜索:包括市場(chǎng)份額最高的幾大搜索引擎巨頭, 如Google、Yahoo、Bing.

  ●中文搜索:在中文搜索市場(chǎng)中, 百度一家獨大, 其他幾家如搜狗、搜搜、有道的市場(chǎng)份額相對還比較小。全網(wǎng)搜索和中文搜索屬于傳統的搜索引擎, 它們經(jīng)過(guò)了十幾年的發(fā)展, 目前在技術(shù)和產(chǎn)品上都已走向逐漸穩定和成熟, 通用搜索的市場(chǎng)也基本進(jìn)入飽和, 不像早些年一直呈現高增長(cháng)率。

  ●垂直搜索:傳統搜索引擎穩定成熟的同時(shí), 在各個(gè)垂直領(lǐng)域, 也出現了很多和產(chǎn)品結合得很好的垂直搜索產(chǎn)品, 比如淘寶的購物搜索、大眾點(diǎn)評的美食搜索、去哪兒和酷訊的旅游搜索等, 也都在各自領(lǐng)域占據了相當大的市場(chǎng), 成為除了通用搜索引擎之外的重要的用戶(hù)入口。

  ●問(wèn)答搜索:專(zhuān)注于為問(wèn)句式提供有效的答案, 比如Ask.com;其他的如問(wèn)答社區像Quora和國內的知乎, 應該也會(huì )往這方面發(fā)展。

  ●知識搜索:典型代表就是Wolfram Alpha, 區別于提供搜索結果列表, 它會(huì )針對查詢(xún)提供更詳細的整合信息。

  ●云搜索平臺:為其他產(chǎn)品和應用提供搜索服務(wù)托管平臺 (Saa S或是Paa S) , Amazon剛剛推出它的Cloud Search, Index Tank在被Linkedin收購之前也是做這項服務(wù)的。

  ●其他:比如Duck Duck Go, 主打隱私保護, 也有部分用戶(hù)買(mǎi)賬。

  各種搜索產(chǎn)品在各自領(lǐng)域都需要解決特定的技術(shù)和業(yè)務(wù)問(wèn)題, 所以也可以建立相對通用搜索的優(yōu)勢, 來(lái)得到自己的市場(chǎng)和用戶(hù)。在開(kāi)源領(lǐng)域, 各種開(kāi)源產(chǎn)品和解決方案也逐漸發(fā)展成熟, 通用搜索技術(shù)不再為大公司所專(zhuān)有, 中小企業(yè)能夠以較低的成本實(shí)現自己的搜索應用,F在搜索引擎產(chǎn)品之間的競爭更多的在數據、應用方式和產(chǎn)品形態(tài)上, 在系統架構和基本算法上區分并不大。

  搜索引擎在未來(lái)發(fā)展上, 一是搜索將不僅僅以獨立產(chǎn)品的形式出現, 更多的會(huì )作為搜索功能整合到更多的產(chǎn)品和應用中。在產(chǎn)品形態(tài)上, 基于傳統的搜索引擎, 會(huì )演化出像推薦引擎、知識引擎、決策引擎等形式的產(chǎn)品, 更好地滿(mǎn)足和服務(wù)用戶(hù)需求。而搜索引擎所涉及和發(fā)展起來(lái)的各種技術(shù), 會(huì )更廣泛地應用到各種其他產(chǎn)品上, 比如自然語(yǔ)言處理、推薦和廣告、數據挖掘等。

  總之, 搜索引擎對互聯(lián)網(wǎng)技術(shù)和產(chǎn)品帶來(lái)的影響是巨大的`, 未來(lái)也仍將有很大的發(fā)展和應用空間。

  4、搜索引擎未來(lái)發(fā)展的趨勢

  搜索引擎的快速發(fā)展就是近15年發(fā)生的, 這與互聯(lián)網(wǎng)的發(fā)展趨勢密切相關(guān)。最近幾年, 互聯(lián)網(wǎng)在經(jīng)過(guò)了Web2.0的市場(chǎng)培育階段后, 迎來(lái)了以互聯(lián)網(wǎng)用戶(hù)的個(gè)性化和社交化為中心的趨勢。同時(shí), 移動(dòng)設備的逐漸流行及兩大趨勢的融合, 催生了很多新型應用, 為了迎接和順應這種趨勢, 對搜索引擎來(lái)說(shuō), 也產(chǎn)生了新的挑戰。

 。1) 社會(huì )化搜索

  隨著(zhù)Facebook的流行, 社交網(wǎng)絡(luò )平臺和應用占據了互聯(lián)網(wǎng)的主流, 社交網(wǎng)絡(luò )平臺強調用戶(hù)之間的聯(lián)系和交互, 這對傳統的搜索技術(shù)提出了新的挑戰。

  傳統搜索技術(shù)強調搜索結果和用戶(hù)需求的相關(guān)性, 社會(huì )化搜索除了相關(guān)性外, 還額外增加了一個(gè)維度, 即搜索結果的可信賴(lài)性。對某個(gè)搜索結果, 傳統的結果可能成千上萬(wàn), 但如果處于用戶(hù)社交網(wǎng)絡(luò )內其他用戶(hù)發(fā)布的信息、點(diǎn)評或驗證過(guò)的信息則更容易信賴(lài), 這是與用戶(hù)的心里密切相關(guān)的。社會(huì )化搜索為用戶(hù)提供更準確、更值得信任的搜索結果。

  國外的Dogpile等元搜索引擎能夠得到發(fā)展和壯大, 主要得益于國外傳統搜索過(guò)多, 并且企業(yè)實(shí)現共贏(yíng)的理念, 但在國人思考的是如何把所有資源都掌握在自己手中, 百度、Google、Yahoo是不會(huì )看著(zhù)自己在未來(lái)發(fā)展中落伍, 成為跟潮人, 現在這幾家都在不斷豐富自己的產(chǎn)品線(xiàn), 并且觸及社會(huì )化搜索, 來(lái)保證自己在這個(gè)行業(yè)中的地位。

 。2) 實(shí)時(shí)搜索

  隨著(zhù)微博的個(gè)人媒體平臺興起, 對搜索引擎的實(shí)時(shí)性要求日益增高, 我想這也是搜索引擎未來(lái)的一個(gè)發(fā)展方向。

  實(shí)時(shí)搜索最突出的特點(diǎn)是時(shí)效性強, 越來(lái)越多的突發(fā)事件首次發(fā)布在微博上, 實(shí)時(shí)搜索核心強調的就是“快”, 用戶(hù)發(fā)布的信息第一時(shí)間能被搜索引擎搜索到。

  不過(guò)在國內, 實(shí)時(shí)搜索由于各方面的原因無(wú)法普及使用, 比如Google的實(shí)時(shí)搜索是被重置的, 百度也沒(méi)有明顯的實(shí)時(shí)搜索入口。

 。3) 移動(dòng)搜索

  隨著(zhù)智能手機的快速發(fā)展, 基于手機的移動(dòng)設備搜索日益流行, 但移動(dòng)設備有很大的局限性, 比如屏幕太小, 可顯示的區域不多, 計算資源能力有限, 打開(kāi)網(wǎng)頁(yè)速度很慢, 手機輸入繁瑣等問(wèn)題都需要解決。

  目前, 隨著(zhù)智能手機的快速普及, 移動(dòng)搜索一定會(huì )更加快速的發(fā)展, 所以移動(dòng)搜索的市場(chǎng)占有率會(huì )逐步上升, 而對于沒(méi)有移動(dòng)版的網(wǎng)站來(lái)說(shuō), 百度也提供了“百度移動(dòng)開(kāi)放平臺”來(lái)彌補這個(gè)缺失。

 。4) 個(gè)性化搜索

  個(gè)性化搜索主要面臨兩個(gè)問(wèn)題:如何建立用戶(hù)的個(gè)人興趣模型?在搜索引擎里如何使用這種個(gè)人興趣模型?

  個(gè)性化搜索的核心是根據用戶(hù)的網(wǎng)絡(luò )行為, 建立一套準確的個(gè)人興趣模型。而建立這樣一套模型, 就要全民收集與用戶(hù)相關(guān)的信息, 包括用戶(hù)搜索歷史、點(diǎn)擊記錄、瀏覽過(guò)的網(wǎng)頁(yè)、用戶(hù)E-mail信息、收藏夾信息、用戶(hù)發(fā)布過(guò)的信息、博客、微博等內容。比較常見(jiàn)的是從這些信息中提取出關(guān)鍵詞及其權重。

  為不同用戶(hù)提供個(gè)性化的搜索結果, 是搜索引擎總的發(fā)展趨勢, 但現有技術(shù)有很多問(wèn)題, 比如個(gè)人隱私的泄露, 而且用戶(hù)的興趣會(huì )不斷變化, 太依賴(lài)歷史信息, 可能無(wú)法反映用戶(hù)的興趣變化。

 。5) 地理位置感知搜索

  目前, 很多手機已經(jīng)有GPS的應用了, 這是基于地理位置感知的搜索, 而且可以通過(guò)陀螺儀等設備感知用戶(hù)的朝向, 基于這種信息, 可以為用戶(hù)提供準確的地理位置服務(wù)以及相關(guān)搜索服務(wù)。目前, 此類(lèi)應用已經(jīng)大行其道, 比如手機地圖APP.

 。6) 跨語(yǔ)言搜索

  這方面做得最好的是Google, Google目前已經(jīng)能提供多種語(yǔ)言之間的跨語(yǔ)言搜索, 比如搜索“麻省理工”, 排在第一位的則是麻省理工學(xué)院的主頁(yè)。

  如何將中文的用戶(hù)查詢(xún)翻譯為英文查詢(xún), 目前主流的方法有3種:機器翻譯、雙語(yǔ)詞典查詢(xún)和雙語(yǔ)語(yǔ)料挖掘。對于一個(gè)全球性的搜索引擎來(lái)說(shuō), 具備跨語(yǔ)言搜索功能是必然的發(fā)展趨勢, 而其基本的技術(shù)路線(xiàn)一般會(huì )采用查詢(xún)翻譯加上網(wǎng)頁(yè)的機器翻譯這兩種技術(shù)手段。

 。7) 多媒體搜索

  目前, 搜索引擎的查詢(xún)還是基于文字的, 即使是圖片和視頻搜索也是基于文本方式。那么未來(lái)的多媒體搜索技術(shù)則會(huì )彌補查詢(xún)這一缺失。多媒體形式除了文字, 主要包括圖片、音頻、視頻。

  多媒體搜索比純文本搜索要復雜許多, 一般多媒體搜索包含4個(gè)主要步驟:多媒體特征提取、多媒體數據流分割、多媒體數據分類(lèi)和多媒體數據搜索引擎。

  例如圖片搜索, 一般的步驟為:第一步, 縮小尺寸;第二步, 簡(jiǎn)化色彩;第三步, 計算平均值;第四步, 比較像素的灰度;第五步, 計算哈希值 (詳情可參見(jiàn)Google圖片搜索的原理一文) .

 。8) 情境搜索

  情境搜索是融合了多項技術(shù)的產(chǎn)品, 上面介紹的社會(huì )化搜索、個(gè)性化搜索、地點(diǎn)感知搜索等都是支持情境搜索的, 目前Google在大力提倡這一概念。

  所謂情境搜索, 就是能夠感知人與人所處的環(huán)境, 針對“此時(shí)此地此人”來(lái)建立模型, 試圖理解用戶(hù)查詢(xún)的目的, 根本目標還是要理解人的信息需求。比如某個(gè)用戶(hù)在蘋(píng)果專(zhuān)賣(mài)店附近發(fā)出“蘋(píng)果”這個(gè)搜索請求, 基于地點(diǎn)感知及用戶(hù)的個(gè)性化模型, 搜索引擎就有可能認為這個(gè)查詢(xún)是針對蘋(píng)果公司的產(chǎn)品, 而非對水果的需求。

  5、搜索引擎在應用系統中的應用現狀

  伴隨應用系統 (例如OA系統) 的規模正在不斷擴大, 在互聯(lián)網(wǎng)上得到了成熟穩定發(fā)展的搜索引擎技術(shù)可以大大提高應用系統的辦公使用效率。

  5.1 重點(diǎn)關(guān)注的功能需求

  搜索引擎在管理信息系統中的部署關(guān)注以下幾點(diǎn)的功能需求:

  ●通過(guò)整合多種數據源, 提供統一的搜索服務(wù), 達到促進(jìn)廣泛的信息交流和知識共享的目的, 實(shí)現跨系統、平臺、應用、地域之間以及互聯(lián)網(wǎng)信息的整合。

  ●提供統一、安全的信息檢索接口系統, 為所有結構化、非結構化的數據提供標準的數據源輸出接口功能。

  ●處理各種類(lèi)型的文檔, 并實(shí)現全文檢索。

  ●保證信息檢索的迅速、準確, 提供高并發(fā)率的處理能力。

  ●系統提供關(guān)鍵的維護、管理、控制和監測功能, 采用統一的方式, 通過(guò)集中監控管理模塊與所有搜索服務(wù)進(jìn)行通訊;同時(shí), 提供圖形化的管理界面, 使系統管理員能夠對所有模塊 (或服務(wù)) 進(jìn)行本地或遠程管理操作。

  ●系統支持負載均衡和高可用性, 支持建立分布式的內部數據索引, 并實(shí)現對搜索服務(wù)器的集群化部署, 支持水平靈活擴展。

  5.2 建議包含的主要功能

  搜索系統將提供高效率的搜索功能, 用戶(hù)通過(guò)在單一搜索界面上的操作, 可以在最短時(shí)間內, 完整、準確、及時(shí)地得到所需信息。建議主要包括以下功能:

 。1) 提供信息的全文檢索

  檢索范圍除各類(lèi)文件、信息等的要素、關(guān)鍵字以外, 提供包括文件正文內容和附件內容在內的全文檢索功能, 以滿(mǎn)足用戶(hù)對文件檢索的要求。

 。2) 支持各類(lèi)文件格式

  支持HTML、PDF、ASCIIText、XML、MS Office格式 (Word、Power Point、Excel) 、壓縮文件格式 (Zip、Gzip、Tar) 等格式的檢索。

 。3) 兼容各類(lèi)數據源系統

  可以采集、處理和索引的信息系統包括:網(wǎng)站 (HTML、J2EE、ASP、NET、PHP) 、文件系統 (Windows、Linux、Unix) 、數據庫 (Oracle、SQL Server、DB2、Sybase、My SQL) 、公文流轉和郵件系統、門(mén)戶(hù)系統等, 以保證增加和更新的文檔能夠及時(shí)地被搜索到, 刪除的文檔及時(shí)地從索引平臺中去除。增量索引支持可調度模式。增量索引時(shí), 應不影響搜索。

 。4) 減少檢索功能對各系統的影響

  搜索系統與各系統采用松耦合的集成方式, 選擇在非工作時(shí)間更新數據庫索引, 從而避免在文件、信息生成時(shí)同步數據各系統帶來(lái)不利影響。

 。5) 具備良好的系統擴展性與靈活性

  通過(guò)搜索系統的建立, 將對各類(lèi)管理信息提供統一的檢索。同時(shí), 能夠靈活擴展, 快速、簡(jiǎn)便地與各類(lèi)新數據源系統進(jìn)行檢索集成。

 。6) 搜索結果集的相關(guān)性排序

  平臺支持將檢索結果按相關(guān)度排序后交付給用戶(hù), 以適應不同應用。

 。7) 支持搜索結果的個(gè)性化定制和動(dòng)態(tài)更新

  搜索系統可以根據用戶(hù)個(gè)人的需要進(jìn)行個(gè)性化定制搜索。

 。8) 結合權限進(jìn)行采集和搜索

  5.3 搜索引擎在應用平臺中的技術(shù)架構

  搜索引擎在應用平臺上的技術(shù)架構總體上可以劃分為門(mén)戶(hù)、數據同步、語(yǔ)言處理、業(yè)務(wù)處理、系統調度、搜索服務(wù)、數據反饋、統計分析、運營(yíng)維護、系統管理等十大模塊, 各模塊之間在功能上相對獨立, 業(yè)務(wù)上又相互聯(lián)系相互支撐, 共同協(xié)作從而實(shí)現了搜索引擎應用平臺的整體服務(wù)架構;趯I(yè)務(wù)需求的分析, 搜索系統的技術(shù)架構如圖1所示。

  門(mén)戶(hù)模塊主要涵蓋了門(mén)戶(hù)、對外接口服務(wù)、對內接口服務(wù)、第三方開(kāi)發(fā)接口、API等功能。

  數據同步模塊支持OA數據、關(guān)系形數據、文檔形數據、網(wǎng)絡(luò )數據爬取、論壇數據、知識庫等多種數據形式。該模塊是搜索引擎平臺數據獲取模塊, 通過(guò)數據同步將其他業(yè)務(wù)系統中的數據作為數據源提供給搜索引擎應用平臺。

  語(yǔ)言處理模塊:主要功能包括分詞、糾錯、轉換、擴展及詞庫學(xué)習等。

  業(yè)務(wù)處理模塊:主要提供對搜索請求及業(yè)務(wù)數據的處理, 包括搜索任務(wù)封裝、結果過(guò)濾、數據關(guān)聯(lián)、編審支撐、缺失計算、數據排重等功能。

  系統調度模塊:提供了負載均衡、分布緩存、任務(wù)分配、數據分析、數據處理、數據存儲、數據備份、任務(wù)監控等功能, 主要負責將用戶(hù)的查詢(xún)任務(wù)進(jìn)行分析、搜索結果進(jìn)行緩存, 并監控管理整個(gè)搜索周期。

  搜索引擎模塊:提供數據索引的創(chuàng )建和管理、分布式存儲、任務(wù)處理、語(yǔ)義分析、數據分類(lèi)、搜索、排序、監控及日志等功能。

  統計分析模塊:包括熱詞統計、趨勢統計、訪(fǎng)問(wèn)量統計、業(yè)務(wù)統計、排行榜、性能統計等。主要提供搜索應用平臺各項數據的統計分析服務(wù)。

  運營(yíng)維護模塊:包括詞庫管理、排序管理、數據管理、同步管理、過(guò)濾管理、抓取管理等。主要提供運營(yíng)業(yè)務(wù)系統的管理和配置服務(wù)。

  系統管理模塊:包括接口管理、權限管理、日志管理、安全管理、備份管理等。主要提供系統的基本管理及安全審計服務(wù)。

  6、結束語(yǔ)

  綜上所述, 搜索引擎技術(shù)在移動(dòng)終端智能化和互聯(lián)網(wǎng)用戶(hù)個(gè)性化以及社交化為中心的融合趨勢下的發(fā)展, 催生了很多新型應用。搜索引擎技術(shù)的發(fā)展直接推動(dòng)了互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)+應用的擴展, 伴隨著(zhù)管理信息系統和業(yè)務(wù)應用系統的互聯(lián)網(wǎng)化, 搜索引擎技術(shù)將廣泛地應用于管理信息系統和業(yè)務(wù)應用系統中。本文結合搜索引擎在管理信息系統中的應用給大家提供了一個(gè)實(shí)用方案, 可供參考。

【搜索引擎的研究論文】相關(guān)文章:

基于lucene的垂直搜索引擎的研究與設計論文11-02

垂直搜索引擎核心技術(shù)研究及展望論文11-07

基于語(yǔ)義技術(shù)的搜索引擎平臺搭建的可行性研究論文10-26

關(guān)于研究論文的研究07-08

逃稅的研究的論文10-27

單擺研究的論文10-28

蕭紅研究的論文10-28

論文的研究方法02-23

常用搜索引擎SEO優(yōu)化技術(shù)探析論文05-09