PHP获取网页信息得到乱码的解决：CURLOPT_ENCODING | 后端程序 - 见闻的时空

PHP获取网页信息得到乱码的解决：CURLOPT_ENCODING

见闻 2015-11-13 0:13 后端程序抢沙发 6418人浏览过

最近做了个自动读取其它网站信息并入库的网站，不过测试发现获取到的数据都是乱码。而网站的源码明显没有什么特殊加密的，用view-source:url查看网站的源码信息很正常。

我是用下面这个函数获取网页内容的：

function getUrlContent($url) {
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 25);
    $output = curl_exec($ch);
    curl_close($ch);
    $output=mb_convert_encoding($output , "UTF-8", "GBK");
    return $output;
}

虽然PHP自带有file_get_contents()的函数，传入一个url就可以返回url的内容信息。不过这个函数封装了没有过程，不如上面的是怎样的获取的。

开始以为是编码问题，在那个mb_convert_encoding里面修改输入输出的编码弄好会一段时间，没什么效果，只是乱码变化了下，仍然是乱码。度娘下，还是被我找到了，之所以出现乱码并非编码的问题，而是网页压缩了。要加一条curl_setopt($ch, CURLOPT_ENCODING, 'gzip');。这样获取到的内容就不再乱码了。

此外，尝试过用file_get_contents()，返回是乱码。

发表评论