首頁 > 期刊 > 電腦編程技巧與維護(hù) > 基于Python爬蟲技術(shù)實(shí)現(xiàn) 【正文】

基于Python爬蟲技術(shù)實(shí)現(xiàn)

python語言第三方庫反反爬蟲網(wǎng)絡(luò)爬蟲技術(shù) 數(shù)據(jù)提取

作者：望江龍; 王曉紅武漢商學(xué)院信息工程學(xué)院; 武漢430056

摘要：隨著科技時(shí)代的飛快發(fā)展,使用技術(shù)和創(chuàng)新來搜索數(shù)據(jù),是大數(shù)據(jù)研究的方向?；赑ython的網(wǎng)絡(luò)爬蟲提取數(shù)據(jù)是目前使用頻率較高的一種技術(shù)方式,Python語言簡潔、開發(fā)速度快、可以跨平臺(tái)的特點(diǎn),通過第三方request庫對(duì)網(wǎng)頁進(jìn)行獲取返回值的內(nèi)容。通過Python3種篩選方式對(duì)網(wǎng)頁中的數(shù)據(jù)進(jìn)行快速的匹配。使用正則、XPath和Beautiful Soup這3種篩選技術(shù)對(duì)某個(gè)網(wǎng)頁中的圖片和文字進(jìn)行提取。這樣不僅能很精準(zhǔn)地找到網(wǎng)頁中所需數(shù)據(jù),而且能自動(dòng)快速地將這些數(shù)據(jù)永久地保存下來,大大減少尋找數(shù)據(jù)的時(shí)間。當(dāng)爬蟲技術(shù)的不斷優(yōu)化,功能也越來越強(qiáng),數(shù)據(jù)盜取情況日益嚴(yán)重,很多網(wǎng)站采用了反爬蟲技術(shù),因此正常的數(shù)據(jù)搜集需要一定的反反爬蟲技術(shù)手段。

注：因版權(quán)方要求，不能公開全文，如需全文，請(qǐng)咨詢雜志社

期刊咨詢免費(fèi)咨詢雜志訂閱

電腦編程技巧與維護(hù)

部級(jí)期刊下單

國際刊號(hào)：1006-4052

國內(nèi)刊號(hào)：11-3411/TP

雜志詳情

相關(guān)熱門期刊

湖北民族大學(xué)學(xué)報(bào)·哲學(xué)社會(huì)科學(xué)版

部級(jí)期刊下單

國際刊號(hào)：2096-7586

國內(nèi)刊號(hào)：42-1907/C
馬克思主義與中華文化研究

部級(jí)期刊下單
電腦迷

部級(jí)期刊下單

國際刊號(hào)：1672-528X

國內(nèi)刊號(hào)：50-1163/TP
世界歷史評(píng)論

部級(jí)期刊下單

國際刊號(hào)：2096-6733

國內(nèi)刊號(hào)：31-2160/K1