成人免费看黄网站无遮挡,caowo999,se94se欧美综合色,a级精品九九九大片免费看,欧美首页,波多野结衣一二三级,日韩亚洲欧美综合

網(wǎng)頁(yè)信息表格化提取程序的論文

時(shí)間:2021-06-12 19:09:24 論文 我要投稿

網(wǎng)頁(yè)信息表格化提取程序的論文

  摘 要:

網(wǎng)頁(yè)信息表格化提取程序的論文

  本文介紹了基于MSHTML設計開(kāi)發(fā)的網(wǎng)頁(yè)信息表格化提取程序的原理、程序結構和工作流程,使用網(wǎng)頁(yè)信息提取、網(wǎng)頁(yè)元素解析、采集配置管理三大功能模塊,實(shí)現對網(wǎng)頁(yè)及其內部關(guān)聯(lián)信息的提取、解析、整理和表格化顯示,創(chuàng )新使用了對網(wǎng)頁(yè)屬性值和樹(shù)路徑值進(jìn)行確認的二元檢查機制,能夠實(shí)現對指定信息的準確提取。本文還舉例說(shuō)明了程序的操作步驟和實(shí)際效果。

  引言

  當今是網(wǎng)絡(luò )高速發(fā)展、信息量急劇膨脹的信息時(shí)代,人們通過(guò)信息來(lái)互相交流,認識世界。在信息中存在著(zhù)大量有價(jià)值的信息要素,這些有價(jià)值的信息要素大都以網(wǎng)頁(yè)的形式存在,其內容和格式千差萬(wàn)別。如果通過(guò)瀏覽器進(jìn)行瀏覽和閱讀不存在問(wèn)題,但若需要將感興趣的某類(lèi)信息及其內部關(guān)聯(lián)信息保存下來(lái)并進(jìn)行整理,目前常用的工具普遍存在著(zhù)某些缺點(diǎn),比如網(wǎng)絡(luò )蜘蛛等爬蟲(chóng)工具無(wú)法實(shí)現對內部關(guān)聯(lián)信息的提取。因此,本人作者使用MSHTML語(yǔ)言設計了網(wǎng)頁(yè)內部表格化提取的自動(dòng)程序,可以完成對網(wǎng)頁(yè)及內部關(guān)聯(lián)信息的保存、整理和表格化顯示,能夠明顯提高對信息的利用效率。

  1、信息提取原理分析

  人們通過(guò)瀏覽器所看到的頁(yè)面,是由很多的頁(yè)面元素組裝在一起的,其中既有常見(jiàn)的圖片和文字,也有專(zhuān)門(mén)的結構元素,所有這些頁(yè)面元素經(jīng)過(guò)一定的組合形成了我們看到的頁(yè)面。對網(wǎng)頁(yè)進(jìn)行進(jìn)行提取,實(shí)質(zhì)上就是使用一定技術(shù)方法將指定的網(wǎng)頁(yè)元素進(jìn)行解析、特征匹配和顯示的過(guò)程。

  網(wǎng)頁(yè)信息的元素可以分為以下三種級別:

  頂級元素(Top-level element):共有html、body和frameset三種,屬于高級塊級元素,表現類(lèi)似塊級元素。

  塊級元素(Block-level element):能夠獨立存在且元素之間可以換行分割,常用的塊級元素有p、div、ul、table等。

  內聯(lián)元素(inline element):依附其他塊級元素存在,緊接于被聯(lián)元素之間顯示并且不換行,常用的內聯(lián)元素包括img、span、li、br等。

  2程序的設計思想

  2.1 采集原理

  2.2 二元檢查機制

  2.3 程序功能設計

  3 程序結構及工作流程

  3.1主要功能

  3.2 運行流程

  4程序的主要功能實(shí)現方法

  4.1采集配置管理

  4.2網(wǎng)頁(yè)元素解析

  5 運行測試

  5.1 讀取頁(yè)面

  5.2 配置采集

  5.3 采集網(wǎng)頁(yè)信息

  5.4查看采集結果

  6、結語(yǔ)

  隨著(zhù)網(wǎng)絡(luò )化的`快速發(fā)展,人們對網(wǎng)頁(yè)元素的需求越來(lái)越轉向個(gè)性化分類(lèi)和精確提取,以往面向全部?jì)热莸囊靶U采集方式已經(jīng)無(wú)法滿(mǎn)足目前的需求,對其進(jìn)行針對性的研究有著(zhù)積極意義。

  網(wǎng)頁(yè)信息表格化提取程序通過(guò)網(wǎng)頁(yè)信息提取、網(wǎng)頁(yè)元素解析、采集配置管理三大功能模塊的分工協(xié)作,實(shí)現對網(wǎng)頁(yè)及其內部關(guān)聯(lián)信息的提取、解析、整理和表格化顯示,不僅克服了以往網(wǎng)頁(yè)信息抓取工具不能提取內部關(guān)聯(lián)網(wǎng)頁(yè)信息的不足,使得程序的適用性、擴展性明顯提高,而且程序中創(chuàng )新使用的對網(wǎng)頁(yè)屬性值和樹(shù)路徑值進(jìn)行確認的二元檢查機制,能夠實(shí)現對指定信息的準確提取,極大提升了程序結果的精確性。

  雖然網(wǎng)頁(yè)信息表格化提取程序在精確性、適用性和擴展性上取得了進(jìn)步,但也存在一些不足,希望以后能找到更好的解決方法....

【網(wǎng)頁(yè)信息表格化提取程序的論文】相關(guān)文章:

信息化建設論文精選02-19

信息化建設論文02-18

信息化技術(shù)論文04-05

網(wǎng)頁(yè)設計的視覺(jué)信息傳達分析論文04-22

信息化與網(wǎng)絡(luò )化的建設論文07-03

網(wǎng)絡(luò )信息化有關(guān)的論文03-12

會(huì )計信息化論文03-30

高中信息技術(shù)《在網(wǎng)頁(yè)中插入表格》說(shuō)課稿07-14

網(wǎng)頁(yè)設計中表格和層排版的使用技巧論文04-19