《基于php的爬蟲(chóng)程序推薦》要點(diǎn):
本文介紹了基于php的爬蟲(chóng)程序推薦,希望對(duì)您有用。如果有疑問(wèn),可以聯(lián)系我們。
可能很多程序員會(huì)說(shuō):爬蟲(chóng)我只認(rèn)Python.小編還是覺(jué)得php是世界上最好的語(yǔ)言,沒(méi)有什么做不了的.
一、爬蟲(chóng)框架:Beanbun
Beabbun是一個(gè)簡(jiǎn)單可擴(kuò)展的爬蟲(chóng)框架,支持分布式,支持守護(hù)進(jìn)程模式和普通模式,守護(hù)進(jìn)程模式基于Workerman,下載器基于Guzzle.
特點(diǎn):
1、支持守護(hù)進(jìn)程和普通兩種模式(守護(hù)進(jìn)程模式只支持Linux服務(wù)器)
2、默認(rèn)使用guzzle進(jìn)行爬取
3、支持分布式,內(nèi)存,redis,自定義URL過(guò)濾,廣度優(yōu)先和深度優(yōu)先等
4、爬取網(wǎng)頁(yè)分為多步,每步均支持自定義動(dòng)作
5、靈活的擴(kuò)展機(jī)制,可方便的為框架制作插件:自定義隊(duì)列、自定義爬取方式...
二、采集工具:QueryList
QueryList是一個(gè)基于phpQuery的PHP通用列表采集類,得益于phpQuery,讓使用QueryList幾乎沒(méi)有任何學(xué)習(xí)本錢,只要會(huì)css3選擇器就可以輕松使用QueryList了,它讓PHP做采集像JQuery選擇元素一樣簡(jiǎn)單.
特點(diǎn):
1、只有一個(gè)核心的API,靜態(tài)辦法Query
2、用JQuery選擇器來(lái)選擇頁(yè)面元素
3、自帶過(guò)濾功能,可過(guò)濾掉無(wú)用內(nèi)容
4、支持無(wú)限層級(jí)嵌套采集
5、支持?jǐn)U展,通過(guò)擴(kuò)展可以實(shí)現(xiàn)復(fù)雜的http操作、多線程批量采集、模擬登陸采集等功能
3、PHP采集類:Snoopy
Snoopy是一個(gè)PHP類,用來(lái)模擬瀏覽器的功能,可以獲取網(wǎng)頁(yè)內(nèi)容,發(fā)送表單.
特點(diǎn):
1、抓取網(wǎng)頁(yè)的內(nèi)容:fetch;抓取網(wǎng)頁(yè)文本內(nèi)容:fetchtext;抓取網(wǎng)頁(yè)的鏈接,表單:fetchlinks,fetchfrom
2、支持代理主機(jī),支持基本的用戶名、暗碼驗(yàn)證,支持設(shè)置user_agent,referer,cookies和header content
3、支持瀏覽器重定向,并能控制重定向深度
4、能把網(wǎng)頁(yè)中的鏈接擴(kuò)展成高質(zhì)量的url
5、提交數(shù)據(jù)并獲取返回值
4、爬蟲(chóng)庫(kù):Goutte
Goutte是一個(gè)抓取網(wǎng)站數(shù)據(jù)的php庫(kù).它提供了一個(gè)優(yōu)雅的API,這使的從遠(yuǎn)程頁(yè)面上選擇特定元素變得簡(jiǎn)單.
其實(shí)最好用的還是適合本身的,根據(jù)本身的情況自行擴(kuò)展.
《基于php的爬蟲(chóng)程序推薦》是否對(duì)您有啟發(fā),歡迎查看更多與《基于php的爬蟲(chóng)程序推薦》相關(guān)教程,學(xué)精學(xué)透。維易PHP學(xué)院為您提供精彩教程。
轉(zhuǎn)載請(qǐng)注明本頁(yè)網(wǎng)址:
http://www.fzlkiss.com/jiaocheng/9667.html