最近做了个自动读取其它网站信息并入库的网站,不过测试发现获取到的数据都是乱码。而网站的源码明显没有什么特殊加密的,用view-source:url查看网站的源码信息很正常。

        我是用下面这个函数获取网页内容的:


function getUrlContent($url) {
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 25);
    $output = curl_exec($ch);
    curl_close($ch);
    $output=mb_convert_encoding($output , "UTF-8", "GBK");
    return $output;
}
        虽然PHP自带有file_get_contents()的函数,传入一个url就可以返回url的内容信息。不过这个函数封装了没有过程,不如上面的是怎样的获取的。


        开始以为是编码问题,在那个mb_convert_encoding里面修改输入输出的编码弄好会一段时间,没什么效果,只是乱码变化了下,仍然是乱码。度娘下,还是被我找到了,之所以出现乱码并非编码的问题,而是网页压缩了。要加一条curl_setopt($ch, CURLOPT_ENCODING, 'gzip');。这样获取到的内容就不再乱码了。

        此外,尝试过用file_get_contents(),返回是乱码。