《一款強大的純PHP開發的爬蟲(蜘蛛)框架,讓采集更簡單一點》要點:
本文介紹了一款強大的純PHP開發的爬蟲(蜘蛛)框架,讓采集更簡單一點,希望對您有用。如果有疑問,可以聯系我們。
官方下載地址:https://github.com/owner888/phpspider
官方開發文檔:http://doc.phpspider.org/
爬蟲采用PHP編寫
從網頁中抽取數據必要用XPath
當然我們還可以使用CSS選擇器
很多情況下都會用到正則表達式
Chrome的開發者工具是神器, 很多AJAX哀求需要用它來分析
注意:本框架只能在命令行下運行,命令行、命令行、命令行,重要的事情說三遍 ^_^
爬蟲采納PHP編寫, 下面以糗事百科為例, 來看一下我們的爬蟲長什么樣子:
$configs = array(
爬蟲的整體框架便是這樣, 首先定義了一個$configs數組, 里面設置了待爬網站的一些信息, 然后通過調用$spider = new phpspider($configs);
和$spider->start();
來配置并啟動爬蟲.
$configs對象如何界說, 請查看開發文檔.^_^
歡迎參與《一款強大的純PHP開發的爬蟲(蜘蛛)框架,讓采集更簡單一點》討論,分享您的想法,維易PHP學院為您提供專業教程。