前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了爬蟲(chóng)網(wǎng)絡(luò)安全問(wèn)題探討分析范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
摘要:隨著新一代網(wǎng)絡(luò)信息技術(shù)的應(yīng)用和服務(wù)越來(lái)越多,網(wǎng)絡(luò)信息安全事件頻繁爆發(fā),網(wǎng)絡(luò)攻擊、病毒入侵、信息泄密等事件層出不窮。目前,大部分小型網(wǎng)站對(duì)于網(wǎng)絡(luò)安全重視不足,網(wǎng)絡(luò)安全風(fēng)險(xiǎn)意識(shí)比較薄弱,易引發(fā)一系列問(wèn)題。通過(guò)一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)爬蟲(chóng)案例測(cè)試某小型網(wǎng)站的安全性,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)分析、查找網(wǎng)絡(luò)安全問(wèn)題的原因,并就防范網(wǎng)絡(luò)爬蟲(chóng)提出了一系列安全策略,提高網(wǎng)絡(luò)風(fēng)險(xiǎn)意識(shí)。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲(chóng);網(wǎng)絡(luò)安全;安全策略
1關(guān)于網(wǎng)絡(luò)爬蟲(chóng)概念與“爬取”過(guò)程
網(wǎng)絡(luò)爬蟲(chóng)(WebSpider)又稱“網(wǎng)絡(luò)蜘蛛”,它能模擬正常用戶的一些行為,按照一定的規(guī)則自動(dòng)抓取網(wǎng)絡(luò)中的各種信息。搜索引擎也是網(wǎng)絡(luò)爬蟲(chóng)的一種,但是不影響網(wǎng)站的正常運(yùn)行,也沒(méi)有任何惡意行為。而一些惡意的網(wǎng)絡(luò)爬蟲(chóng)常常通過(guò)短時(shí)間內(nèi)大量訪問(wèn)等手段來(lái)消耗網(wǎng)絡(luò)資源,使網(wǎng)站的正常運(yùn)轉(zhuǎn)出現(xiàn)問(wèn)題,導(dǎo)致服務(wù)器崩潰等。大部分爬蟲(chóng)程序通過(guò)預(yù)先設(shè)定一個(gè)隊(duì)列存放URL,在進(jìn)行網(wǎng)頁(yè)爬取時(shí),先從某一個(gè)或若干個(gè)URL開(kāi)始,記錄該URL,再?gòu)脑摼W(wǎng)頁(yè)上查找鏈接的其他URL放入隊(duì)列,不斷地從當(dāng)前頁(yè)面查找新的URL,如此循環(huán)往復(fù),直到滿足設(shè)定的停止條件。
2網(wǎng)絡(luò)爬蟲(chóng)爬取某網(wǎng)站的案例與簡(jiǎn)單分析
2.1預(yù)判某網(wǎng)站安全技術(shù)措施
現(xiàn)在很多網(wǎng)站在一定程度上做了一些安全防護(hù),但是由于成本以及技術(shù)原因等,大部分小型網(wǎng)站的網(wǎng)絡(luò)安全策略比較薄弱,以一個(gè)爬蟲(chóng)案例來(lái)測(cè)試一下某網(wǎng)站網(wǎng)絡(luò)安全問(wèn)題。首先找到一個(gè)某詩(shī)詞網(wǎng)站上的內(nèi)容,查看PC網(wǎng)站請(qǐng)求地址,https://xxx.cn/mingju/xx.aspx?p=2&t=&c=發(fā)現(xiàn)不同的頁(yè)面只是p=xx不同,xx=當(dāng)前頁(yè)面值,當(dāng)p<=30時(shí),頁(yè)面顯示正常,但是當(dāng)翻頁(yè)超過(guò)30頁(yè)時(shí),系統(tǒng)返回了錯(cuò)誤頁(yè)面,提示“因服務(wù)器開(kāi)支對(duì)本站造成巨大壓力,請(qǐng)下載客戶端進(jìn)行訪問(wèn)”。說(shuō)明系統(tǒng)還是針對(duì)大量數(shù)據(jù)做了一些安全策略性的限制,當(dāng)請(qǐng)求超過(guò)30頁(yè)時(shí)提示使用手機(jī)APP來(lái)訪問(wèn)。于是嘗試從APP上找破解方法,通過(guò)抓包工具PacketCapture成功找到了數(shù)據(jù)請(qǐng)求接口。
2.2進(jìn)行爬蟲(chóng)源碼編寫(xiě)
2.3爬蟲(chóng)源碼運(yùn)行結(jié)果與安全分析
運(yùn)行程序,包括朝代、作者、詩(shī)詞名稱、內(nèi)容等都成功抓取,將結(jié)果保存成Excel文件。文件內(nèi)容示例:桃李春風(fēng)一杯酒,江湖夜雨十年燈。<--->黃庭堅(jiān)《寄黃幾復(fù)》一生大笑能幾回,斗酒相逢須醉倒。<--->岑參《涼州館中與諸判官夜集》在本案例中,網(wǎng)站只做了客戶端的攔截,翻頁(yè)超過(guò)30頁(yè)就提示錯(cuò)誤頁(yè)面,但是對(duì)于服務(wù)端接口沒(méi)有做流量訪問(wèn)控制、身份(如Ip、瀏覽器特征)驗(yàn)證,所以當(dāng)通過(guò)抓包拿到請(qǐng)求接口后可以隨意請(qǐng)求獲得想要的數(shù)據(jù)。對(duì)于隱私性不強(qiáng)的網(wǎng)站可能并沒(méi)有特別重要的信息泄露,但對(duì)于涉及個(gè)人隱私等安全信息的網(wǎng)站,如果能隨意抓取數(shù)據(jù),將會(huì)有很大的安全隱患。用不同的方式又測(cè)試了其他幾個(gè)網(wǎng)站,發(fā)現(xiàn)大部分網(wǎng)站雖然都做了一些網(wǎng)絡(luò)安全防護(hù),但都做的比較簡(jiǎn)單,對(duì)于信息安全的保護(hù)遠(yuǎn)遠(yuǎn)不夠。
3基于爬蟲(chóng)的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)及防范
3.1網(wǎng)絡(luò)安全風(fēng)險(xiǎn)
網(wǎng)絡(luò)安全做的不到位會(huì)有很多風(fēng)險(xiǎn),例如,某個(gè)網(wǎng)站上有一個(gè)10MB的文件,使用爬蟲(chóng)抓取該文件1000次,就會(huì)使網(wǎng)站產(chǎn)生大量出站流量,可能會(huì)使服務(wù)器癱瘓無(wú)法正常訪問(wèn)。惡意爬蟲(chóng)入侵的幾種方式:(1)通過(guò)測(cè)試網(wǎng)站或后門(mén)調(diào)試程序入侵。目前,大多數(shù)基于網(wǎng)頁(yè)服務(wù)的系統(tǒng)都附帶了測(cè)試頁(yè)面及調(diào)試用后門(mén)程序等,有些可以通過(guò)這些頁(yè)面或程序不經(jīng)過(guò)正常的認(rèn)證直接訪問(wèn)服務(wù)器端的敏感數(shù)據(jù),一旦這些敏感數(shù)據(jù)被有心人利用,可能會(huì)成為進(jìn)行網(wǎng)絡(luò)分析與攻擊的源頭,出現(xiàn)各種安全問(wèn)題。(2)通過(guò)管理接口入侵。為了方便管理,很多網(wǎng)絡(luò)平臺(tái)及系統(tǒng)都提供了基于網(wǎng)頁(yè)的管理接口,允許管理員對(duì)其進(jìn)行遠(yuǎn)程管理與控制。網(wǎng)絡(luò)惡意爬蟲(chóng)程序通過(guò)搜索管理員登錄頁(yè)面獲得URL,而進(jìn)行一系列的網(wǎng)絡(luò)爬取或攻擊,網(wǎng)絡(luò)安全得不到保護(hù)。(3)通過(guò)網(wǎng)頁(yè)直接搜索入侵。惡意網(wǎng)絡(luò)爬蟲(chóng)程序直接通過(guò)互聯(lián)網(wǎng)搜索用戶的個(gè)人資料,例如用戶的姓名、電話、微信號(hào)、身份證號(hào)等個(gè)人隱私,惡意用戶獲取后有可能實(shí)施攻擊或詐騙。惡意網(wǎng)絡(luò)爬蟲(chóng)極易對(duì)網(wǎng)絡(luò)造成攻擊,所以必須采取一定的手段來(lái)限制網(wǎng)絡(luò)爬蟲(chóng)的訪問(wèn)權(quán)限,一方面開(kāi)放需要搜索引擎收錄的頁(yè)面,同時(shí)又對(duì)一些敏感頁(yè)面進(jìn)行保護(hù)。
3.2限制網(wǎng)絡(luò)爬蟲(chóng)的基本技巧
3.2.1對(duì)于程序本身的反爬策略大部分的爬蟲(chóng)程序是對(duì)網(wǎng)站頁(yè)面的源文件進(jìn)行爬取,如爬取靜態(tài)頁(yè)面的html代碼,對(duì)于動(dòng)態(tài)的很難爬取。了解了爬蟲(chóng)的原理,可以通過(guò)仿寫(xiě)html,讓網(wǎng)站程序本身穿上“防爬外衣”進(jìn)行偽裝。比如可以用其他技術(shù)去模仿寫(xiě)html,這樣爬蟲(chóng)就很難抓取到信息。類(lèi)似這樣的技術(shù)還很多,就不一一舉例。
3.2.2對(duì)于數(shù)據(jù)包字段的反爬策略HTTP請(qǐng)求中的UserAgent字段能夠識(shí)別客戶使用的瀏覽器、引擎、操作系統(tǒng)、設(shè)備信息等。而爬蟲(chóng)的UserAgent字段有它自己的特征,如百度搜索引擎爬蟲(chóng)會(huì)有類(lèi)似Baiduspider的字符串,Mozilla/5.0(compati-ble;Baiduspider/2.0;+www.baidu.com/search/spider.html))。通過(guò)對(duì)UserAgent特定字符的限制可以阻止此類(lèi)爬蟲(chóng)對(duì)網(wǎng)站的過(guò)度抓取。
3.2.3對(duì)于用戶行為的反爬策略爬蟲(chóng)畢竟是機(jī)器人,和人的行為再像也會(huì)有區(qū)別。普通用戶很少會(huì)短時(shí)間內(nèi)多次訪問(wèn)同一頁(yè)面或者同一賬戶短時(shí)間內(nèi)多次進(jìn)行相同操作,這種行為基本可以判定為爬蟲(chóng)。一般通過(guò)網(wǎng)站分析軟件可以過(guò)濾出爬蟲(chóng)的IP和訪問(wèn)頻率等,針對(duì)這種情況,可以采取適當(dāng)?shù)拇胧┫拗凭W(wǎng)絡(luò)爬蟲(chóng)的訪問(wèn)權(quán)限,例如可采用限制IP或訪問(wèn)頻率的方式來(lái)阻止此類(lèi)爬蟲(chóng),從而進(jìn)行用戶行為的隱私保護(hù),以保持網(wǎng)站的安全運(yùn)行。
4結(jié)語(yǔ)
隨著全球信息化步伐的加快,安全問(wèn)題刻不容緩,不僅涉及個(gè)人利益、企業(yè)生存、金融風(fēng)險(xiǎn)等問(wèn)題,還直接關(guān)系到社會(huì)穩(wěn)定和等諸多方面,了解網(wǎng)絡(luò)面臨的各種威脅,防范和消除這些威脅,已經(jīng)成為網(wǎng)絡(luò)發(fā)展中最重要的事情之一。
參考文獻(xiàn)
[1]吳翰清.白帽子講Web安全.北京:電子工業(yè)出版社,2012.
[2]孫衛(wèi)琴.Tomcat與JavaWeb開(kāi)發(fā)技術(shù)詳解.北京:電子工業(yè)出版社,2009.
[3]劉馳,胡柏青,謝一.大數(shù)據(jù)治理與安全:從理論到開(kāi)源實(shí)踐.北京:機(jī)械工業(yè)出版社,2009.
作者:畢艷華 高曉艷 張揚(yáng) 單位:衡水市信息產(chǎn)業(yè)中心