最近做了个自动读取其它网站信息并入库的网站,不过测试发现获取到的数据都是乱码。而网站的源码明显没有什么特殊加密的,用view-source:url查看网站的源码信息很正常。
我是用下面这个函数获取网页内容的:
function getUrlContent($url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 25);
$output = curl_exec($ch);
curl_close($ch);
$output=mb_convert_encoding($output , "UTF-8", "GBK");
return $output;
}
虽然PHP自带有file_get_contents()的函数,传入一个url就可以返回url的内容信息。不过这个函数封装了没有过程,不如上面的是怎样的获取的。
开始以为是编码问题,在那个mb_convert_encoding里面修改输入输出的编码弄好会一段时间,没什么效果,只是乱码变化了下,仍然是乱码。度娘下,还是被我找到了,之所以出现乱码并非编码的问题,而是网页压缩了。要加一条curl_setopt($ch, CURLOPT_ENCODING, 'gzip');。这样获取到的内容就不再乱码了。
此外,尝试过用file_get_contents(),返回是乱码。