成人免费看黄网站无遮挡,caowo999,se94se欧美综合色,a级精品九九九大片免费看,欧美首页,波多野结衣一二三级,日韩亚洲欧美综合

基于語(yǔ)義技術(shù)的搜索引擎平臺搭建的可行性研究論文

時(shí)間:2021-04-13 11:23:43 論文 我要投稿

基于語(yǔ)義技術(shù)的搜索引擎平臺搭建的可行性研究論文

  摘要:首先分析了目前主流搜索引擎存在的問(wèn)題,然后對國內外將語(yǔ)義技術(shù)應用到搜索引擎中的現狀進(jìn)行了分析,最后具體分析了將語(yǔ)義技術(shù)應用到存儲技術(shù)、檢索技術(shù)、數據庫技術(shù)和分詞算法的可行性。

基于語(yǔ)義技術(shù)的搜索引擎平臺搭建的可行性研究論文

  關(guān)鍵詞:語(yǔ)義技術(shù),搜索引擎,語(yǔ)義搜索引擎,搜索引擎技術(shù)

  隨著(zhù)Internet的飛速發(fā)展,各種各樣的信息資源在網(wǎng)絡(luò )上發(fā)布,用戶(hù)通過(guò)什么樣的技術(shù)策略或者手段才能在這個(gè)信息的海洋中找到自己需要的信息成為專(zhuān)家學(xué)者研究的對象,于是基于分類(lèi)目錄和基于關(guān)鍵詞技術(shù)的搜索工具應運而生,它們的出現給用戶(hù)使用網(wǎng)絡(luò )信息資源帶來(lái)了很大的方便。但是由于計算機技術(shù)和知識的普及,致使網(wǎng)絡(luò )信息資源爆炸式的增加,目前的檢索工具出現了不能滿(mǎn)足人們需要的情形。針對Internet暴露出來(lái)的缺陷,1998年,Web的創(chuàng )始人TimBerners-Lee首次提出了“語(yǔ)義Web”(SemanticWeb)的概念及其技術(shù)路線(xiàn),闡述了語(yǔ)義Web的基本思想,語(yǔ)義Web的目標是使得Web上的信息具有計算機可以理解的語(yǔ)義,滿(mǎn)足智能軟件代理(Agent)對www上異構和分布信息的有效訪(fǎng)問(wèn)和檢索[1]。語(yǔ)義技術(shù)的核心就是:為萬(wàn)維網(wǎng)上發(fā)布的信息進(jìn)行語(yǔ)義的標注,使機器可以理解這些數據的含義,最后實(shí)現智能推理和信息自動(dòng)化的處理。因此關(guān)于將語(yǔ)義技術(shù)和搜索引擎技術(shù)相結合的智能化搜索引擎的研究已經(jīng)迫在眉睫。

  1目前搜索引擎存在的問(wèn)題

  隨著(zhù)社會(huì )經(jīng)濟和計算機技術(shù)的發(fā)展,社會(huì )上的信息量劇增,為方便信息交流和獲取,隨之產(chǎn)生了搜索引擎,無(wú)論是目錄式搜索,還是關(guān)鍵詞搜索,都給用戶(hù)使用網(wǎng)絡(luò )來(lái)獲取信息提供了巨大的方便,使得網(wǎng)絡(luò )在人們的生活中顯得越來(lái)越重要,網(wǎng)絡(luò )信息也隨之劇增。近幾年,專(zhuān)家和企業(yè)都在研究搜索技術(shù)與搜索的策略,并且取得了很大的進(jìn)步,但是這種進(jìn)步在網(wǎng)絡(luò )信息量的劇增面前顯得很微小,這時(shí),一些搜索引擎的弊端就逐漸地顯現出來(lái)。

  從目前用戶(hù)的使用角度來(lái)看,搜索引擎有以下幾點(diǎn)不足:

  1)隨著(zhù)網(wǎng)絡(luò )技術(shù)的發(fā)展,一些網(wǎng)站建設的新技術(shù)應運而生,一些新的網(wǎng)站應用技術(shù)也在網(wǎng)絡(luò )上流行,Flash導航,視頻資源播放等新型技術(shù)的產(chǎn)生,直接對傳統的搜索引擎帶來(lái)挑戰。

  2)網(wǎng)絡(luò )上頁(yè)面資源的更新速度大大加快,現在幾乎每個(gè)公司都有自己的網(wǎng)站,并且幾乎每天都有新的信息更新。同時(shí),一些新型網(wǎng)絡(luò )社區的建設,給很多用戶(hù)提供了創(chuàng )建個(gè)人主頁(yè)的機會(huì ),信息量增加的速度變快,大量的信息給搜索引擎的Crawler系統帶來(lái)新的挑戰。

  3)網(wǎng)絡(luò )信息的異構性更加突出。由于網(wǎng)絡(luò )技術(shù)的發(fā)展,可以發(fā)布網(wǎng)絡(luò )信息的用戶(hù)群發(fā)生了變化,以前都是以單位為主要的群體,轉變成以個(gè)人為目標用戶(hù)群的。這樣發(fā)布的信息從格式上更加難以控制,并且結構類(lèi)型也有不小的變化,從而增加了信息的異構性,這樣對搜索引擎的標引技術(shù)提出了新的要求。

  4)動(dòng)態(tài)生成技術(shù),數據庫技術(shù)的廣泛應用,使網(wǎng)絡(luò )上的很大一部分網(wǎng)站從靜態(tài)轉換成了動(dòng)態(tài)。好多網(wǎng)站信息是由數據庫代碼自動(dòng)生成了,這樣對網(wǎng)絡(luò )資源的真正URL以及資源的數據不好確認,給搜索程序帶來(lái)不小的困難。

  5)由于信息量巨大以及部分網(wǎng)絡(luò )信息描述的不準確,給檢索帶來(lái)不小的誤差,這樣用戶(hù)輸入關(guān)鍵詞以后,搜索引擎檢索出來(lái)的數據量很龐大,一些用戶(hù)真正需要的數據不一定能夠排在顯示的前端,而用戶(hù)也不會(huì )一一的耐心看下去,這樣產(chǎn)生的檢索噪音給用戶(hù)的使用帶來(lái)很大的影響。

  2基于語(yǔ)義技術(shù)的搜索引擎平臺研究現狀

  2.1國外相關(guān)研究

  相關(guān)理論主要有,NEC美國研究所的SteveLawrenee和C.LeeGiles從1998年和l999年起連續在《自然》和《科學(xué)》雜志上撰文對搜索引擎技術(shù)的研究進(jìn)行評述。著(zhù)名的信息檢索會(huì )議TREC也從1998年開(kāi)始增加了WebTrack課題,以考察Web文檔與其他類(lèi)型文檔在檢索性質(zhì)上的不同之處,并將測試在大規模的Web庫(如100G字節)上進(jìn)行信息檢索的算法性能[2]。由美國Information公司主辦的搜索引擎國際會(huì )議從l996年開(kāi)始每年舉行一次,對搜索引擎技術(shù)進(jìn)行總結、討論和展望,對搜索引擎技術(shù)起到了很好的推動(dòng)作用。此外還有EIEE主辦的國際萬(wàn)維網(wǎng)會(huì )議、人機交互會(huì )議等。然后就是在Berners-Lee提出了語(yǔ)義網(wǎng)的設想,相關(guān)專(zhuān)家和學(xué)者開(kāi)始將語(yǔ)義網(wǎng)思想運用到搜索引擎中,提高和優(yōu)化Boulos,MagedN.Kamel[3]的“AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine”,D-LibMagazine[4]的“ALVIS-SuperpeerSemanticSearchEngine”,2005年Schenkel,Ralf;Theobald,Anja;Weikum,Gerhard[5]的“SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine”,2007年YufeiLi;YuanWang;XiaotaoHuang[6]的“A”等關(guān)于語(yǔ)義搜索的文章。

  相關(guān)技術(shù)主要有:l990年蒙特利爾的McGill大學(xué)學(xué)生AlanEmtage、PeterDeutsch、BillWheelan開(kāi)發(fā)了一個(gè)自動(dòng)索引因特網(wǎng)上的匿名FTP網(wǎng)站文件的程序,它就是Archie(ArchieFAQ),搜索引擎的首例。然后到目錄式搜索引擎雅虎,關(guān)鍵字搜索引擎Google,F在國外已經(jīng)在Mozilla瀏覽器的pre-Nglyauot版本和Netscpae瀏覽器的.407或.45+版本大量采用RDF技術(shù),實(shí)現了智能瀏覽,幫助瀏覽網(wǎng)頁(yè)的用戶(hù)提供其他與其瀏覽內容有關(guān)的信息。美國FourthoughtInc公司是專(zhuān)為企業(yè)知識管理應用提供XML解決方案的軟件供應商和咨詢(xún)公司,開(kāi)發(fā)了4Suite,它是XML、RDF和知識管理應用的一個(gè)開(kāi)放源碼平臺,并在其知識管理解決方案中,實(shí)現從XML數據抽取RDF數據、并在RDF基礎上提出一種簡(jiǎn)潔的語(yǔ)義搜索功能[7]。斯坦福大學(xué)、微軟和W3C共同開(kāi)發(fā)的TAP也是基于SemanticWeb的語(yǔ)義搜索引擎。

  2.2國內相關(guān)研究

  在技術(shù)方面,國內先后有清華大學(xué)、北京大學(xué)、國家智能研究中心等高校和研究機構對搜索引擎技術(shù)開(kāi)展研究,并開(kāi)發(fā)出了幾個(gè)較好的系統。如由北京大學(xué)計算機系網(wǎng)絡(luò )研究室開(kāi)發(fā)的“天網(wǎng)”中英文搜索引擎,在系統規模及系統性能方面達到了國外中型搜索引擎系統的技術(shù)水平。Google作為第二代智能全文式搜索工具,可以對網(wǎng)頁(yè)的全文進(jìn)行檢索。百度是目前最大的中文搜索引擎,使用超鏈接分析技術(shù),除了分析索引網(wǎng)頁(yè)本身的`內容,還分析索引所有指向該網(wǎng)頁(yè)的鏈接的URL、AnchorText、甚至鏈接周?chē)奈淖。我國?002年起在863計劃中把語(yǔ)義Web技術(shù)與Ontology,列為“十五”期間計算機技術(shù)的重大課題之一。國家自然科學(xué)基金項目《基于本體論和語(yǔ)義Web的產(chǎn)品信息基礎結構》,以本體論為指導,以XML形式化描述基于知識的產(chǎn)品信息模型數據,在語(yǔ)義Web上建立產(chǎn)品信息基礎結構[8]。宋峻峰[9]提出的基于本體的信息檢索模型采用描述邏輯構造本體,利用本體對文檔進(jìn)行了語(yǔ)義標注,生成文檔的邏輯視圖和用戶(hù)信息需求的邏輯視圖,實(shí)現了檢索過(guò)程中真正的語(yǔ)義匹配,是真正的語(yǔ)義檢索。郭少友教授提出和設計的“以文檔為中心的上下文檢索研究”也屬于語(yǔ)義檢索的范疇。

  3語(yǔ)義技術(shù)應用到搜索引擎的可行性分析

  3.1語(yǔ)義技術(shù)與信息存儲技術(shù)的結合

  目前,RDF數據的存儲基本上有兩種方案,XML/RDF文件的形式存儲是一種可行的方式,但是考慮到對于大量的事實(shí)數據,考慮到可擴展性,查詢(xún)方式,效率等諸多的因素,以RDF數據庫或者關(guān)系數據庫來(lái)存儲RDF事實(shí)數據庫是一種比較好的選擇。

  3.2語(yǔ)義技術(shù)與檢索技術(shù)的結合

  通過(guò)對用戶(hù)查詢(xún)關(guān)鍵詞的語(yǔ)義匹配和語(yǔ)義相關(guān)性擴展,最后形成符合特定知識本體語(yǔ)言的查詢(xún)語(yǔ)句實(shí)現語(yǔ)義檢索,例如:

  SELECT?a,SELECT(http://127.0.0.2/Milan#動(dòng)物,松鼠)

  但是這樣的形式比較復雜,因此可以在語(yǔ)義檢索中設計一個(gè)Agent,用來(lái)分析用戶(hù)輸入的關(guān)鍵詞,查詢(xún)Agent接收用戶(hù)輸入的關(guān)鍵詞,并將它傳遞給匹配Agent,根據知識本體和語(yǔ)

  義詞典對這些關(guān)鍵詞進(jìn)行比較分析,并構造出適合該檢索的新的檢索式或者查詢(xún)語(yǔ)句,并且將該檢索式返回,這個(gè)過(guò)程實(shí)現語(yǔ)義匹配過(guò)程。但是有的時(shí)候為了進(jìn)一步獲得更多的信息,還需要根據知識本體或者語(yǔ)義詞典對輸入的查詢(xún)語(yǔ)句進(jìn)行相關(guān)的推理,推理的過(guò)程有很高的智能化,例如在檢索的過(guò)程中,發(fā)現沒(méi)有松鼠這個(gè)關(guān)鍵字,但是松鼠是喜歡吃松子的,所以當檢索到松子的時(shí)候,這個(gè)頁(yè)面有可能也是關(guān)于“松鼠”這個(gè)關(guān)鍵詞的相關(guān)頁(yè)面,同時(shí)推理機制也會(huì )根據情況構造出新的檢索式:

  SELECT?a,WHERE(http://127.0.0.2/Milan#堅果,松子)

  3.3語(yǔ)義技術(shù)在數據庫搭建中的應用

  我們知道數據庫構建的過(guò)程中是有很多表或者集合組成,傳統的描述僅僅是描述其關(guān)鍵字字段或者其屬性值,利用相似度算法進(jìn)行機械的匹配查詢(xún),滿(mǎn)足一定的相似度就對該條記錄做讀取、刪除等操作。

  王珊教授等研究了基于本體的關(guān)系數據庫語(yǔ)義檢索,分析和研究單個(gè)關(guān)系數據庫上基于本體的語(yǔ)義檢索問(wèn)題,其中指出,關(guān)系數據庫主要有兩部分組成,一部分是元數據(Meta-data)也稱(chēng)為模式(Schema)如數據類(lèi)型名,表的屬性名,表名,主鍵及外鍵[10]。另外一部分是真正的數據,關(guān)鍵數據庫的元數據描述了其存儲數據之間的簡(jiǎn)單語(yǔ)義關(guān)系,由于關(guān)系模型描述能力的限制,并不能完全的描述數據庫之問(wèn)豐富的語(yǔ)義關(guān)系。關(guān)系數據庫的查詢(xún)語(yǔ)句使用的是結構化查詢(xún)語(yǔ)句SQL進(jìn)行的,這是一種精確的查詢(xún)語(yǔ)句,查詢(xún)條件是精確的,同時(shí)查詢(xún)結果也是精確的,由于關(guān)系數據庫僅僅只能表現數據庫中有限的語(yǔ)義關(guān)系,所以其查詢(xún)的語(yǔ)義性也是有限的,而本體則能進(jìn)一步的描述關(guān)系數據庫的語(yǔ)義。

  隨著(zhù)本體跟語(yǔ)義網(wǎng)的技術(shù)的不斷發(fā)展和應用,基于本體的關(guān)系數據庫也逐漸成為研究的熱點(diǎn)。關(guān)系數據庫的語(yǔ)義可以分為兩級語(yǔ)義,一級是元數據級別的語(yǔ)義,另外一級是數據級的語(yǔ)義,利用不同語(yǔ)義級別可以實(shí)現不同的語(yǔ)義檢索。文獻指出本體通過(guò)對數據庫進(jìn)行兩種級別的語(yǔ)義描述,分別可以從元數據或者數據中抽取,識別出概念,然后對本體中已經(jīng)存在的概念進(jìn)行映射,或者根據本體的學(xué)習技術(shù),構建出一個(gè)新的本體[10]。也可以直接使用已有的本體中的概念來(lái)描述元數據的數據,這兩種方法都稱(chēng)為本體標注。本體標注也是關(guān)系數據庫語(yǔ)義檢索的基礎技術(shù)。本體標注就是把本體和數據聯(lián)系到一起,以便建立基于本體的語(yǔ)義索引[11]。

  3.4元數據標引技術(shù)

  利用元數據技術(shù)對網(wǎng)絡(luò )信息資源進(jìn)行標引,有利于信息資源的描述,同時(shí)也可以縮小網(wǎng)絡(luò )信息資源的異構特點(diǎn),根據元數據的標準對網(wǎng)絡(luò )信息資源進(jìn)行統一的標引,這樣對信息的描述更詳盡,同時(shí)也可以體現各個(gè)相關(guān)數據之間的語(yǔ)義特點(diǎn)。目前比較通用的是DC,利用DC的著(zhù)錄格式對網(wǎng)絡(luò )信息資源進(jìn)行著(zhù)錄與表示,其不但能詳盡的描述信息資源的特點(diǎn),同時(shí)也可以體現出描述各項之間的語(yǔ)義關(guān)系。因此將元數據引入到網(wǎng)絡(luò )信息資源標引技術(shù)中,有利于改善網(wǎng)絡(luò )搜索引擎。

  3.5語(yǔ)義技術(shù)在分詞算法中的應用

  常用的分詞算法主要有正向最大匹配法、逆向最大匹配法、專(zhuān)家系統分析法、高頻優(yōu)先法、全自動(dòng)詞典切詞法、擴充轉移網(wǎng)絡(luò )分詞法、神經(jīng)網(wǎng)絡(luò )等分詞方法。但是以上所有的分詞方法都會(huì )存在一定的錯誤率,所以我們要在分詞算法中引入語(yǔ)義技術(shù),以便提高分詞的準確性。這種思維方式就是根據漢語(yǔ)的特點(diǎn)以及其自身的規律,可以考慮從漢語(yǔ)的構詞規則如筆畫(huà)來(lái)試圖解決這樣的問(wèn)題,這是一種新的自動(dòng)分詞研究方向。另外再對數據或者信息資源進(jìn)行處理和標引時(shí),在使用受控語(yǔ)言和自然語(yǔ)言的同時(shí),還可以運用其他的人工構造語(yǔ)言,像程序設計語(yǔ)言,邏輯語(yǔ)言,數學(xué)公式等。這幾種人工語(yǔ)言跟自然語(yǔ)言一樣,他們都有一套自己的完整的語(yǔ)法規則與相當數量的符號組成,我們可以根據他們的特點(diǎn),對其組成規律進(jìn)行總結,并且并入到語(yǔ)義字典中,并利用本體對其相互關(guān)系進(jìn)行描述。

  為了便于計算機對漢語(yǔ)進(jìn)行自動(dòng)分詞處理,就需要對現在的分詞語(yǔ)法方法做以下三方面的改造:一是要在待分詞的漢語(yǔ)文本的詞與詞之間增加適當的間隔符,即設立分詞標志,這樣通過(guò)設立的分詞標志,可以方便地對文本進(jìn)行分詞處理,大大提高效率;二是要對漢語(yǔ)的詞語(yǔ)進(jìn)行明確界定,即規定什么是“詞”,這樣主要可以解決兩方面的問(wèn)題,單字詞與字元素之間的區別以及短語(yǔ)或者成語(yǔ)與詞(詞組)之間的區別;三是要制定完整的漢語(yǔ)書(shū)寫(xiě)規則。這些都是應該在漢語(yǔ)文本生成之前完成,并且從技術(shù)實(shí)現的條件來(lái)看是可行的,這樣就省去了很大一部分精力對預處理文本進(jìn)行分詞[12]。

  4結論

  基于語(yǔ)義技術(shù)的搜索引擎平臺的搭建是一門(mén)新興的研究課題,它旨在解決如何讓信息用戶(hù)在海量的信息中,精準地找到自己需求的信息,在構建的過(guò)程中,可以將語(yǔ)義技術(shù)運用到信息的描述、信息的存儲、信息的檢索以及信息的輸出過(guò)程中。國內外也有了一定的研究成果,并且也構建了一些語(yǔ)義技術(shù)的搜索引擎平臺,但是大部分還是處于試驗階段,很多的關(guān)鍵技術(shù)難題還沒(méi)有攻克。筆者認為,數字資源的語(yǔ)義描述,中文的分詞技術(shù),還有語(yǔ)義的檢索方式和輸出排序是目前需要進(jìn)一步研究的重點(diǎn)。

  參考文獻:

  [1]Berners-LeeT.SemanticWebRoadMap[EB/OL].[2010-10-23].http://www.w3.org/designissuee/semantic.

  [2]Mikeusehold,Michalgruninger.TheWebSearchEngineReview[J].IGCA199,1999,93-96.

  [3]Boulos,MagedN,Kamel.AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine[J].Technology&HealthCare,2004(11):33-41.

  [4]ALVIS.SuperpeerSemanticSearchEngine[J].PreviewD-LibMagazine,20O4(6):10-12.

  [5]SchenkelRalf,TheobaldAnja,WeikumGerhard.SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine[J].InformationRetrieval,2005(12):521-545.

  [6]YufeiLi,YuanWang,XiaotaoHuang.ARelation-BasedSearchEngineinSemanticWeb[J].IEEETransactionsonKnowledge&DataEngineering,2007(2):273-281.

  [7]黃大鵬.基于語(yǔ)義Web的搜索引擎研究[D].西安:西安理工大學(xué),2004.

  [8]楊秋芬,陳躍新.ontology方法學(xué)綜述[J].計算機應用研究,2002(4):24-25.

  [9]宋俊峰,張維明,肖衛東,唐九陽(yáng).基于本體的信息檢索模型研究[J].南京大學(xué)學(xué)報(自然科學(xué)),2005,41(2):189-197.

  [10]王珊,張俊,彭朝輝等.基于本體的關(guān)系數據庫語(yǔ)義檢索[J].計算機科學(xué)與檢索,2007(1):59-77.

【基于語(yǔ)義技術(shù)的搜索引擎平臺搭建的可行性研究論文】相關(guān)文章:

基于語(yǔ)義識別分析論文04-27

搭建實(shí)踐平臺,培養綜合能力論文02-17

基于A(yíng)ndroid平臺軟件開(kāi)發(fā)技術(shù)研究論文11-07

教學(xué)中如何搭建情感體驗的平臺教育論文01-01

重視知識強化技能搭建學(xué)生就業(yè)平臺論文01-04

基于A(yíng)ndroid平臺的紋理映射分析與實(shí)現論文04-27

基于lucene的垂直搜索引擎的研究與設計論文11-02

淺析基于云計算的智能計量平臺研發(fā)的論文05-28

淺析基于A(yíng)ndroid 的個(gè)人記賬本平臺開(kāi)發(fā)論文05-28