久久久久亚国产电影一|午夜日本永久乱码免费播放片|男女性高爱潮是免费国产|久久国产乱子伦精品视频免费

  • <td id="6yqwu"></td>
  • <td id="6yqwu"></td>
    <button id="6yqwu"><samp id="6yqwu"></samp></button>
  • 暗網(wǎng)是什么?

    丙午郎

    暗網(wǎng)一詞最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎難以發(fā)現(xiàn)其信息內(nèi)容的Web頁面。因?yàn)檫@些信息內(nèi)容是用戶所看不到的,所以被稱為是暗網(wǎng)。

    暗網(wǎng)(Hidden Web)如其釋義所說,通常是指網(wǎng)絡(luò)上大部分內(nèi)容是不能通過靜態(tài)鏈接獲取的,特別是大部分隱藏在搜索表單之后的頁面只有通過用戶鍵入一系列關(guān)鍵詞才可以獲得。形象的理解是,這些頁面是目前搜索引擎所無法抓取的網(wǎng)頁、不能檢索到的信息,即“看不見”的網(wǎng)站,由于當(dāng)前的搜索引擎不能索引到或不能在它們的返回結(jié)果中顯示這些頁面,因此對用戶來說這部分頁面是隱藏的。

    來源

    暗網(wǎng)(互聯(lián)網(wǎng)) Hidden Web最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎難以發(fā)現(xiàn)其信息內(nèi)容的Web頁面。從信息量來講,與現(xiàn)在能夠索引的數(shù)據(jù)相比,“暗網(wǎng)”更是要龐大得多。根據(jù)Bright Planet公司此前發(fā)布的一個(gè)名為《The Deep Web-Surfacing The Hidden Value》(深層次網(wǎng)絡(luò),隱藏的價(jià)值)白皮書中提供的數(shù)據(jù),“暗網(wǎng)”包含100億個(gè)不重復(fù)的表單,其包含的信息量是“非暗網(wǎng)”的40倍,有效高質(zhì)內(nèi)容總量至少是后者的1000倍到2000倍。更讓人無所適從的是,Bright Planet發(fā)現(xiàn),無數(shù)網(wǎng)站越來越像孤立的系統(tǒng),似乎沒有打算與別的網(wǎng)站共享信息,如此一來,“暗網(wǎng)”已經(jīng)成為互聯(lián)網(wǎng)新信息增長的最大來源,也就是說,互聯(lián)網(wǎng)正在變得“越來越暗”。

    現(xiàn)狀

    當(dāng)然,所謂“暗網(wǎng)”,并不是真正的“不可見”,對于知道如何訪問這些內(nèi)容的人來說,它們無疑是可見的。2001年,Christ Sherman、GaryPrice對Hidden Web定義為:雖然通過互聯(lián)網(wǎng)可以獲取,但普通搜索引擎由于受技術(shù)限制而不能或不作索引的那些文本頁、文件或其它通常是高質(zhì)量、權(quán)威的信息。根據(jù)最近對HiddenWeb的調(diào)查文獻(xiàn)得到了如下有意義的發(fā)現(xiàn):

    (1)Hidden Web大約有307,000個(gè)站點(diǎn),450,000個(gè)后臺數(shù)據(jù)庫和1,258,000個(gè)查詢接口。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。

    (2)Hidden Web內(nèi)容分布于多種不同的主題領(lǐng)域,電子商務(wù)是主要的驅(qū)動(dòng)力量,但非商業(yè)領(lǐng)域相對占更大比重。

    (3)當(dāng)今的爬蟲并非完全爬行不到Hidden Web后臺數(shù)據(jù)庫內(nèi),一些主要的搜索引擎已經(jīng)覆蓋Hidden Web大約三分之一的內(nèi)容。然而,在覆蓋率上當(dāng)前搜索引擎存在技術(shù)上的本質(zhì)缺陷。

    (4)Hidden Web中的后臺數(shù)據(jù)庫大多是結(jié)構(gòu)化的,其中結(jié)構(gòu)化的是非結(jié)構(gòu)化的3.4倍之多。

    (5)雖然一些Hidden Web目錄服務(wù)已經(jīng)開始索引Web數(shù)據(jù)庫,但是它們的覆蓋率比較小,僅為0.2%~15.6%。

    (6)Web數(shù)據(jù)庫往往位于站點(diǎn)淺層,多達(dá)94%的Web數(shù)據(jù)庫可以在站點(diǎn)前3層發(fā)現(xiàn)。

    暗網(wǎng)分類

    一般情況下暗網(wǎng)可以根據(jù)其產(chǎn)生原因分為兩種:

    一種是技術(shù)的原因,很多網(wǎng)站本身不規(guī)范、或者說互聯(lián)網(wǎng)本身缺少統(tǒng)一規(guī)則,導(dǎo)致了搜索引擎的爬蟲無法識別這些網(wǎng)站內(nèi)容并抓取,這不是搜索引擎自身就能解決的問題,而是有賴整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的規(guī)范化,百度的“阿拉丁計(jì)劃”、谷歌的“云計(jì)算”就是要從根本解決這一問題。

    另一個(gè)原因則是很多網(wǎng)站根本就不愿意被搜索引擎抓取,比如考慮到版權(quán)保護(hù)內(nèi)容、個(gè)人隱私內(nèi)容等等,很多網(wǎng)站都在屏蔽百度、比如最近最大的視頻分享網(wǎng)站優(yōu)酷也宣布屏蔽百度一樣,這更不是搜索引擎能解決的問題了。如果他們能被搜索引擎抓取到,就屬于違法了。