《php教程之PHP從HTML中提取正文類庫》要點:
本文介紹了php教程之PHP從HTML中提取正文類庫,希望對您有用。如果有疑問,可以聯系我們。
An efficient class library for extracting text from HTML.
一個高效的從HTML中提取正文的類庫.
正文提取采納了基于文本密度的提取算法,支持從壓縮的HTML文檔中提取正文,每個頁面平均提取時間為30ms,正確率在95%以上.
特色
標簽無關,提取正文不依賴標簽;
支持從壓縮的HTML文檔中提取正文內容;
支持帶標簽輸出原始正文;
核心算法簡潔高效,平均提取時間在30ms左右.
安裝
安裝包文件
composer require "mylukin/textractor:dev-master"
添加 ServiceProvider
到您項目 config/app.php
中的 providers
部門:
Lukin\Textractor\TextractorServiceProvider::class,
創立配置文件:
php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"
然后請修改 config/textractor.php
中對應的項即可.
使用
<?php$url = 'http://news.163.com/17/0204/08/CCDTBQ9E000189FH.html';// 創立提取實例$textractor = new \Lukin\Textractor\Textractor();// 下載并解析文章$article = $textractor->download($url)->parse();printf('<div id="url">URL: %s</div>' . PHP_EOL, $url);printf('<div id="title">Title: %s</div>' . PHP_EOL, $article->getTitle());printf('<div id="published">Publish: %s</div>' . PHP_EOL, $article->getPublishDate());printf('<div id="text">Text: <pre>%s</pre></div>' . PHP_EOL, $article->getText());printf('<div id="html">Content: %s</div>' . PHP_EOL, $article->getHTML());
地址:https://github.com/mylukin/Textractor
《php教程之PHP從HTML中提取正文類庫》是否對您有啟發,歡迎查看更多與《php教程之PHP從HTML中提取正文類庫》相關教程,學精學透。維易PHP學院為您提供精彩教程。