《PHP學習:PHP實現小偷程序實例》要點:
本文介紹了PHP學習:PHP實現小偷程序實例,希望對您有用。如果有疑問,可以聯系我們。
PHP學習為什么使用“小偷程序”?
PHP學習遠程抓取文章資訊或商品信息是很多企業要求程序員實現的功能,也就是俗說的小偷程序.其最主要的優點是:解決了公司網編繁重的工作,大大提高了效率.只需要一運行就能快速的抓取別人網站的信息.
PHP學習“小偷程序”在哪里運行?
PHP學習“小偷程序” 應該在 Windows 下的 DOS或 Linux 下通過 PHP 命令運行為最佳,因為,網頁運行會超時.
PHP學習比如圖(Windows 下 DOS 為例):
PHP學習
PHP學習“小偷程序”的實現
PHP學習這里主要通過一個實例來講解,我們來抓取下“華強電子網”的資訊信息,請先看觀察這個鏈接 http://www.hqew.com/info-c10.html,當您打開這個頁面的時候發現這個頁面會發現一些現象:
PHP學習?1、資訊列表有 500 頁(2012-01-03);
PHP學習?2、每頁的 url 鏈接都有規律,比如:第1頁為http://www.hqew.com/info-c10-1.html;第2頁為http://www.hqew.com/info-c10-2.html;……第500頁為http://www.hqew.com/info-c10-500.html;
PHP學習3、由第二點就可以知道,“華強電子網” 的資訊是偽靜態或者是生成的靜態頁面
PHP學習其實,基本上大部分的網站都有這樣的規律,比如:中關村在線、慧聰網、新浪、淘寶…….
PHP學習這樣,我們可以通過這樣的思路來實現頁面內容的抓?。?br>
1、先獲取文章列表頁內容;
2、根據文章列表頁內容循環獲取文章的 url 地址;
3、根據文章的 url 地址獲取文章的詳細內容
PHP學習這里,我們主要抓取資訊頁里面的:標題(title)、發布如期(date)、作者(author)、來源(source)、內容(content)
PHP學習“華強電子網”資訊抓取
PHP學習首先,先建數據表結構,如下所示:
PHP學習
CREATE TABLE `article`.`article` (
`id` MEDIUMINT( 8 ) UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY ,
`title` VARCHAR( 255 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
`date` VARCHAR( 50 ) NOT NULL ,
`author` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
`source` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
`content` TEXT NOT NULL
) ENGINE = MYISAM CHARACTER SET utf8 COLLATE utf8_general_ci;
PHP學習?抓取程序:
?