《php過濾中英文標點符號[gbk環境]》要點:
本文介紹了php過濾中英文標點符號[gbk環境],希望對您有用。如果有疑問,可以聯系我們。
原文:http://blog.csdn.net/huohuanyu1/article/details/76732898
項目需求需要對帖子標題做去重判斷,前提是去除所有中英文標點符號。因為是老項目,gbk編碼,在直接使用正則匹配去除標點符號時,發現會有亂碼情況。在網上找了一些處理方法,多多少少都有些問題,滿足不了我的需求。但也受到了些許啟發,開始寫了一個實現方法,有些麻煩,需要urlencode。
/** * 去除字符串中的標點符號[gbk編碼環境] * @param $str * @return string */function punctFilter($str){ //先去掉英文標點符號、空格等 $str = preg_replace('/[[:punct:]\s\n\t\r]/','',$str); //再匹配中文標點符號 直接進行中文標點符號匹配會亂碼,因此先編碼后匹配。 //若以下標點還滿足不了需要,可搜索中文gbk編碼表,將對應標點符號加上即可。 $pattern = '/(%a1%a0|%a1%a1|%a1%a2|%a1%a3|%a1%a4|%a1%a5|%a1%a6|%a1%a7|%a1%a8|%a1%a9|%a1%aa|%a1%ab|%a1%ac|%a1%ad|%a1%ae|%a1%af|%a1%b0|%a1%b1|%a1%b2|%a1%b3|%a1%b4|%a1%b5|%a1%b6|%a1%b7|%a1%b8|%a1%b9|%a1%ba|%a1%bb|%a1%bc|%a1%bd|%a1%be|%a1%bf|%a1%c0|%a1%c1|%a1%c2|%a1%c3|%a1%c4|%a1%c5|%a1%c6|%a1%c7|%a1%c8|%a1%c9|%a1%ca|%a1%cb|%a1%cc|%a1%cd|%a1%ce|%a1%cf|%a1%d0|%a1%d1|%a1%d2|%a1%d3|%a1%d4|%a1%d5|%a1%d6|%a1%d7|%a1%d8|%a1%d9|%a1%da|%a1%db|%a1%dc|%a1%dd|%a1%de|%a1%df|%a1%e0|%a1%e1|%a1%e2|%a1%e3|%a1%e4|%a1%e5|%a1%e6|%a1%e7|%a1%e8|%a1%e9|%a1%ea|%a1%eb|%a1%ec|%a1%ed|%a1%ee|%a1%ef|%a1%f0|%a1%f1|%a1%f2|%a1%f3|%a1%f4|%a1%f5|%a1%f6|%a1%f7|%a1%f8|%a1%f9|%a1%fa|%a1%fb|%a1%fc|%a1%fd|%a3%a0|%a3%a1|%a3%a2|%a3%a3|%a3%a4|%a3%a5|%a3%a6|%a3%a7|%a3%a8|%a3%a9|%a3%aa|%a3%ab|%a3%ac|%a3%ad|%a3%ae|%a3%ba|%a3%bb|%a3%bc|%a3%bd|%a3%be|%a3%bf|%a3%c0|%a3%db|%a3%dc|%a3%dd|%a3%de|%a3%df|%a3%e0|%a3%fb|%a3%fc|%a3%fd|%a3%fe|%a3%ff)/iu'; $str = preg_replace($pattern, '', urlencode($str)); return urldecode($str); }//使用示例$str = '和≦哈1;!eo-\'\'?-+$*()‘’""“”[]-、ヾ嘿【哈】'; var_dump('punctFilter($str)',punctFilter($str)); //結果為:和≦哈1eoヾ嘿哈
后來,看了鳥哥的一篇博客【分割GBK中文遭遇亂碼的解決】http://www.laruence.com/2009/11/16/1147.html,頓悟的趕腳,因此優化如下:
/** * 去除字符串中的標點符號[gbk編碼環境](廢棄,看下面說明) * @param $str * @return string */function punctFilter($str){ //先去掉英文標點符號、空格等 $str = preg_replace('/[[:punct:]\s\n\t\r]/','',$str); //再匹配中文標點符號 //第1字節:A1–A9 第2字節:A1–FE GB2312非漢字符號 return preg_replace('/([\xa1-\xa9][\xa1-\xfe])+/', '', $str); }//使用示例$str = '和≦哈1;!eo-\'\'?-+$*()‘’""“”[]-、ヾ嘿【哈】'; var_dump(punctFilter($str)); //結果為:和≦哈1eoヾ嘿哈
若不僅想去掉標點符號,還想去掉擴充非漢字,如:ˊ ˋ ˙ – ― ‥ ‵ ℅ ℉ ↖ ↗ ↘ ↙ ∕ ∟ ∣等,修改如下:
/** * 去除字符串中的標點符號[gbk編碼環境](廢棄,看下面說明) * @param $str * @return string */function punctFilter($str){ //先去掉英文標點符號、空格等 $str = preg_replace('/[[:punct:]\s\n\t\r]/','',$str); //再匹配中文標點符號 //第1字節:A1–A9 第2字節:A1–FE GB2312非漢字符號 //第1字節:A8–A9 第2字節:40–A0(7F除外) 擴充非漢字 return preg_replace('/(([\xa1-\xa9][\xa1-\xfe])|([\xa8-\xa9][\x40-\xa0]))+/', '', $str); }//使用示例$str = '和≦哈1;!eo-\'\'?-+$*()‘’""“”[]-、ヾ嘿【哈】'; var_dump(punctFilter($str)); //結果為:和哈1eo嘿哈
近日又發現些問題,會有中文被替換后亂碼的情況,比如“本樓盤有特價單位推出!開發商內部價格!找小鄒買房有優惠!”使用上述方法替換后結果為“本綠有特價禱推出開誹內部價格找修買房有優惠”
究其原因,直接用preg_replace()匹配時,會出現類似如下情況:
已知“樓盤”兩個字的gbk字符編碼為 c2a5c5cc
使用正則(/([\xa1-\xa9][\xa1-\xfe])+/)
替換時,會將a5c5
替換掉,只留下c2cc
最終結果表現為“樓盤”替換成了“綠”字
因此最終決定一個字一個字的匹配處理,本人項目中標題為50字以內,因此循環處理還可以接受,若需要處理字符串較長,還是另尋他法吧。
/** * 去除字符串中的標點符號 * @param $str * @return string */function punctFilter($str){ //先去掉英文標點符號、空格等 $str = preg_replace('/[[:punct:]\s\n\t\r]/','',$str); //再匹配中文標點符號 $len = mb_strlen($str,'gbk'); $newstr = $str; for($i = 0; $i < $len; $i++){ $substr = mb_substr($str,$i,1,'gbk'); //第1字節:A1-A9 第2字節:A1-FE 非漢字符號 if(preg_match('/([\xa1-\xa9][\xa1-\xfe])+/', $substr,$match)){ $newstr = str_replace($substr, '', $newstr); } } return $newstr; }//使用示例$str = '和≦哈1;!eo-\'\'?-+$*()‘’""“”[]-、ヾ嘿【哈】'; var_dump(punctFilter($str)); //結果為:和≦哈1eoヾ嘿哈//使用示例$str = '本樓盤有特價單位推出!開發商內部價格!找小鄒買房有優惠!'; var_dump(punctFilter($str)); //結果為:本樓盤有特價單位推出開發商內部價格找小鄒買房有優惠