成人免费看黄网站无遮挡,caowo999,se94se欧美综合色,a级精品九九九大片免费看,欧美首页,波多野结衣一二三级,日韩亚洲欧美综合

基于可擴展的網(wǎng)頁(yè)關(guān)鍵信息抽取研究論文

時(shí)間:2021-04-14 16:23:04 論文 我要投稿

基于可擴展的網(wǎng)頁(yè)關(guān)鍵信息抽取研究論文

  1 引言

基于可擴展的網(wǎng)頁(yè)關(guān)鍵信息抽取研究論文

  網(wǎng)頁(yè)的關(guān)鍵信息是網(wǎng)頁(yè)的最基本的信息,它體現了該網(wǎng)頁(yè)和其他網(wǎng)頁(yè)的差別。常見(jiàn)的關(guān)鍵信息有正文、作者、來(lái)源、發(fā)布時(shí)間等。在網(wǎng)絡(luò )輿情監控、網(wǎng)絡(luò )情報分析、搜索引擎等重大網(wǎng)絡(luò )應用中,這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎數據。需要利用網(wǎng)絡(luò )信息抽取技術(shù)從網(wǎng)頁(yè)中抽取出這些關(guān)鍵信息。從某種角度上講,關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò )應用服務(wù)的效果。因此,網(wǎng)頁(yè)的關(guān)鍵信息抽取研究具有重大的應用價(jià)值。

  隨著(zhù)網(wǎng)頁(yè)規模呈指數級增長(cháng),在網(wǎng)絡(luò )應用中,模板無(wú)關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢成為信息抽取環(huán)節的主流算法。該算法通常針對特定需求,利用一些經(jīng)驗規則處理特定領(lǐng)域或特定格式的網(wǎng)頁(yè)。因為抽取過(guò)程無(wú)需人工干預,所以此類(lèi)算法越來(lái)越多地應用于實(shí)際網(wǎng)絡(luò )環(huán)境中;谀0宓男畔⒊槿∷惴ǔ浞掷昧藙(dòng)態(tài)網(wǎng)頁(yè)的規律:網(wǎng)頁(yè)是由同一個(gè)模板生成的,屬于模板的符號不會(huì )變化,變化的只是模板中填充的數據。因此,該算法在對動(dòng)態(tài)網(wǎng)頁(yè)進(jìn)行抽取時(shí)能夠取得較高的精度。

  但是,這兩類(lèi)抽取算法也存在著(zhù)其固有的缺陷。模板無(wú)關(guān)的全自動(dòng)抽取算法通;谶^(guò)強的假設。在處理多樣性日益顯著(zhù)的網(wǎng)頁(yè)時(shí),常常因為某些網(wǎng)頁(yè)不符合假設,而導致出現抽取精度不能滿(mǎn)足需求的情況;并且由于使用過(guò)多規則,導致抽取效率低的情況。使用基于模板的信息抽取算法進(jìn)行抽取時(shí),需先針對某類(lèi)網(wǎng)頁(yè)學(xué)習出模板,后人工標注。面對日益增多的數據源,會(huì )導致網(wǎng)絡(luò )應用的運維代價(jià)過(guò)大;同時(shí)日益復雜的網(wǎng)頁(yè)使得模板的準確性下降,從而導致抽取精度下降。

  針對上述模板無(wú)關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法的缺陷,本文進(jìn)行了深入研究。本文的貢獻主要有以下兩點(diǎn)。首先,提出了一種可擴展的網(wǎng)頁(yè)關(guān)鍵信息抽取框架。該框架通過(guò)輸入訓練網(wǎng)頁(yè)或其他算法的抽取結果,生成關(guān)鍵信息模板集。再通過(guò)模板的正交過(guò)濾算法,生成候選的關(guān)鍵信息模板。最后通過(guò)模板的特征過(guò)濾算法,生成最終的關(guān)鍵信息模板。利用該模板可快速、準確地從同類(lèi)型網(wǎng)頁(yè)中抽取關(guān)鍵信息。該框架很好地融合了模板無(wú)關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法,使得兩類(lèi)算法能夠充分發(fā)揮各自的優(yōu)點(diǎn),并在缺點(diǎn)方面互相彌補。實(shí)驗結果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴展性,框架中的一些關(guān)鍵環(huán)節可根據需求進(jìn)行替換。其次,本文提出了模板的正交過(guò)濾算法,該算法將訓練網(wǎng)頁(yè)或其他算法的抽取結果分成若干份,生成若干個(gè)模板,再通過(guò)模板的正交過(guò)濾算法,過(guò)濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準確性,最后的實(shí)驗結果也充分驗證了這一結論。

  2 相關(guān)工作

  網(wǎng)頁(yè)信息抽取是一種針對網(wǎng)絡(luò )數據源和網(wǎng)頁(yè)進(jìn)行深度處理和加工的過(guò)程。由于網(wǎng)頁(yè)的復雜性和多樣性,使得網(wǎng)頁(yè)信息抽取算法也越來(lái)越多。常見(jiàn)的網(wǎng)頁(yè)信息抽取算法主要可分為4類(lèi):包裝器語(yǔ)言、包裝器歸納、基于模板的信息抽取和模板無(wú)關(guān)的全自動(dòng)信息抽取。由于包裝器語(yǔ)言和包裝器歸納都需要過(guò)多的人工干預,所以在實(shí)際的工程應用中,基于模板的信息抽取算法和模板無(wú)關(guān)的全自動(dòng)信息抽取算法以其較強的實(shí)用性占據了主流的位置;谀0宓男畔⒊槿⊥ǔ;谶@樣的假設:待抽取的網(wǎng)頁(yè)是由同一個(gè)模板生成的,屬于模板的'符號不會(huì )變化,變化的只是模板中填充的數據。符合這種生成模型的網(wǎng)頁(yè)都可以利用網(wǎng)頁(yè)模板分析方法來(lái)抽取;ヂ(lián)網(wǎng)上大量存在的動(dòng)態(tài)網(wǎng)頁(yè)是由機器生成的(例如論壇)網(wǎng)頁(yè);谀0宓男畔⒊槿〉墓ぷ髁鞒淌牵

  1)利用多個(gè)同類(lèi)型網(wǎng)頁(yè)中具有共性的不變的部分生成一個(gè)模板;

  2)根據模板對同類(lèi)型網(wǎng)頁(yè)進(jìn)行抽取。因為此類(lèi)算法過(guò)濾了網(wǎng)頁(yè)中的大量模板,只留下了數據,同時(shí)自動(dòng)還原出了數據的結構,使得用戶(hù)在付出較小人工代價(jià)的同時(shí),能夠獲得較為準確的關(guān)鍵信息。因此此類(lèi)算法一直都是網(wǎng)絡(luò )應用中的主流算法。但是該類(lèi)算法具有這樣的缺陷:首先需要針對同類(lèi)型的網(wǎng)頁(yè)生成一個(gè)模板。模板的準確性直接決定了后續信息抽取的精確度。隨著(zhù)網(wǎng)頁(yè)復雜性以及同一類(lèi)型網(wǎng)頁(yè)的差異性的增大,生成的模板準確性隨之降低。模板無(wú)關(guān)的全自動(dòng)信息抽取算法進(jìn)一步提高了信息抽取的自動(dòng)化程度。此類(lèi)算法通常利用一些經(jīng)驗規則處理特定領(lǐng)域或特定格式的網(wǎng)頁(yè),例如,經(jīng)典的全自動(dòng)信息抽取算法MDR。該算法的缺陷在于通;谶^(guò)強的假設。以網(wǎng)頁(yè)正文抽取為例。網(wǎng)頁(yè)的正文往往是各大網(wǎng)絡(luò )應用都需要的關(guān)鍵信息,有不少針對正文抽取的模板無(wú)關(guān)的全自動(dòng)抽取算法。CoreEx是通過(guò)計算DOM 樹(shù)中的鏈接文本比來(lái)確定正文所在的范圍。CETR是通過(guò)標簽的密度來(lái)確定正文所在的范圍。CETD結合了二者優(yōu)點(diǎn)。這些算法自動(dòng)化程度高,通用性強,但是效率較低,且假設過(guò)強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網(wǎng)頁(yè)。因此這種方法的效率較低。

  在以往的文獻中,較少看到將模板無(wú)關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法結合使用的相關(guān)研究。在本文提出的框架中,巧妙地將這兩種算法有機地結合起來(lái),使得二者能夠取長(cháng)補短,從本質(zhì)上提高信息抽取的質(zhì)量。

【基于可擴展的網(wǎng)頁(yè)關(guān)鍵信息抽取研究論文】相關(guān)文章:

基于數據抽取與訂閱實(shí)現數據共享分析及研究論文10-30

合理定價(jià)評審抽取研究論文03-30

有關(guān)合理定價(jià)評審抽取的研究論文04-03

基于多單片機的串口擴展設計論文11-17

基于科技信息共享云服務(wù)機制研究論文11-02

基于Web的農機推廣信息系統的研究與設計論文11-02

基于GIS的農業(yè)動(dòng)態(tài)信息共享網(wǎng)絡(luò )平臺研究論文11-07

基于CDI0理念下的《網(wǎng)頁(yè)設計》教學(xué)思考與研究的論文01-11

基于視覺(jué)搜索因素的網(wǎng)頁(yè)設計論文11-15