官方微信|手機(jī)版|本站服務(wù)|買家中心|行業(yè)動(dòng)態(tài)|幫助

產(chǎn)品|公司|采購(gòu)|招標(biāo)

網(wǎng)絡(luò)信息

參考價(jià)面議
具體成交價(jià)以合同協(xié)議為準(zhǔn)
  • 公司名稱杭州比丘信息工程有限公司
  • 品       牌
  • 型       號(hào)
  • 所  在  地杭州市
  • 廠商性質(zhì)生產(chǎn)廠家
  • 更新時(shí)間2017/6/27 18:16:41
  • 訪問次數(shù)5260
在線詢價(jià) 收藏產(chǎn)品 查看電話 同類產(chǎn)品

聯(lián)系我們時(shí)請(qǐng)說(shuō)明是 制藥網(wǎng) 上看到的信息,謝謝!

       服務(wù):計(jì)算機(jī)軟硬件、電子智能系統(tǒng)、數(shù)碼產(chǎn)品、網(wǎng)絡(luò)信息技術(shù)的開發(fā)、研究、技術(shù)服務(wù)、成果轉(zhuǎn)讓;通信工程、計(jì)算機(jī)網(wǎng)絡(luò)工程的設(shè)計(jì)、安裝、施工(涉及資質(zhì)證憑證經(jīng)營(yíng));批發(fā)、零售:計(jì)算機(jī)軟硬件,網(wǎng)絡(luò)設(shè)備,電子智能設(shè)備,辦公自動(dòng)化設(shè)備及耗材

計(jì)算機(jī)軟硬件、電子智能系統(tǒng)、數(shù)碼產(chǎn)品、網(wǎng)絡(luò)信息技術(shù)的開發(fā)、研究、技術(shù)服務(wù)、成果轉(zhuǎn)讓;通信工程、計(jì)算機(jī)網(wǎng)絡(luò)工程的設(shè)計(jì)、安裝、施工(涉及資質(zhì)證憑證經(jīng)營(yíng));批發(fā)、零售:計(jì)算機(jī)軟硬件,網(wǎng)絡(luò)設(shè)備,電子智能設(shè)備,辦公自動(dòng)化設(shè)備及耗材
屬于網(wǎng)絡(luò)內(nèi)容挖掘(Web content mining)研究的一部分,主要包括結(jié)構(gòu)化數(shù)據(jù)抽取(Structured Data Extraction)、信息集成(Information integreation)和觀點(diǎn)挖掘(Opinion mining)等。
 結(jié)構(gòu)化數(shù)據(jù)抽取(Structured Data Extraction)的目標(biāo)是從Web頁(yè)面中抽取結(jié)構(gòu)化數(shù)據(jù)。這些結(jié)構(gòu)化數(shù)據(jù)往往存儲(chǔ)在后臺(tái)數(shù)據(jù)庫(kù)中,由網(wǎng)頁(yè)按一定格式承載著展示給用戶。例如論壇列表頁(yè)面、Blog頁(yè)面、搜索引擎結(jié)果頁(yè)面等
網(wǎng)絡(luò)信息 產(chǎn)品信息

           傳統(tǒng)的網(wǎng)絡(luò)數(shù)據(jù)抽取是針對(duì)抽取對(duì)象手工編寫一段專門的抽取程序,這個(gè)程序稱為包裝器(wrapper)。近年來(lái),越來(lái)越多的網(wǎng)絡(luò)數(shù)據(jù)抽取工具被開發(fā)出來(lái),替代了傳統(tǒng)的手工編寫包裝器的方法。目前的網(wǎng)絡(luò)數(shù)據(jù)抽取工具可分為以下幾大類(實(shí)際上,一個(gè)工具可能會(huì)歸屬于其中若干類):
  ?開發(fā)包裝器的語(yǔ)言(Languages for Wrapper Development):用戶可用這些語(yǔ)言方便地編寫包裝器。例如Minerva,TSIMMIS,Web-OQL,F(xiàn)LORID,Jedi等。
  ?以HTML為中間件的工具(HTML-aware Tools):這些工具在抽取時(shí)主要依賴HTML文檔的內(nèi)在結(jié)構(gòu)特征。在抽取過程之前,這些工具先把文檔轉(zhuǎn)換成標(biāo)簽樹;再根據(jù)標(biāo)簽樹自動(dòng)或半自動(dòng)地抽取數(shù)據(jù)。代表工具有Knowlesys,MDR。
  ?基于NLP(Natural language processing)的工具(NLP-based Tools):這些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技術(shù)建立短語(yǔ)和句子元素之間的關(guān)系,推導(dǎo)出抽取規(guī)則。這些工具比較適合于抽取那些包含符合文法的頁(yè)面。代表工具有 RAPIER,SRV,WHISK。
  ?包裝器的歸納工具(Wrapper Induction Tools):包裝器的歸納工具從一組訓(xùn)練樣例中歸納出基于分隔符的抽取規(guī)則。這些工具和基于NLP的工具之間zui大的差別在于:這些工具不依賴于語(yǔ)言約束,而是依賴于數(shù)據(jù)的格式化特征。這個(gè)特點(diǎn)決定了這些工具比基于NLP的工具更適合于抽取HTML文檔。代表工具有:WIEN,SoftMealy,STALKER。
 

 

  ?基于模型的工具(Modeling-based Tools):這些工具讓用戶通過圖形界面,建立文檔中其感興趣的對(duì)象的結(jié)構(gòu)模型,“教”工具學(xué)會(huì)如何識(shí)別文檔中的對(duì)象,從而抽取出對(duì)象。代表工具有:NoDoSE,DEByE。
 

 

  ?基于本體的工具(Ontology-based Tools):這些工具首先需要專家參與,人工建立某領(lǐng)域的知識(shí)庫(kù),然后工具基于知識(shí)庫(kù)去做抽取操作。如果知識(shí)庫(kù)具有足夠的表達(dá)能力,那么抽取操作可以做到*自動(dòng)。而且由這些工具生成的包裝器具有比較好的靈活性和適應(yīng)性。代表工具有:BYU,X-tract。
 

 

  網(wǎng)絡(luò)數(shù)據(jù)抽取技術(shù)流程的實(shí)現(xiàn)
 其具體步驟如下(以zui通用的‘Knowlesys采集’步驟為例)
 

 

  

 

  *步,確立采集目標(biāo),即由用戶選擇目標(biāo)。
 

 

  第二步:提取特征信息,即根據(jù)目標(biāo)的網(wǎng)頁(yè)格式,提取出采集目標(biāo)數(shù)據(jù)的通性。
 

 

  第三步:網(wǎng)絡(luò)信息獲取,即利用工具自動(dòng)的把頁(yè)面數(shù)據(jù)把存到數(shù)據(jù)庫(kù)。
 

在找 網(wǎng)絡(luò)信息 產(chǎn)品的人還在看

提示

×

*您想獲取產(chǎn)品的資料:

以上可多選,勾選其他,可自行輸入要求

個(gè)人信息: