PHP CURL获取cookies模拟登录的方法

简介:

要提取google搜索的部分数据,发现google对于软件抓取它的数据屏蔽的厉害,以前伪造下 USER-AGENT 就可以抓数据,但是现在却不行了。利用抓包数据发现,Google 判断了 cookies,当你没有cookies的时候,直接返回 302 跳转,而且是连续几十个302跳转,根本抓不了数据。

因此,在发送搜索命令时,需要先提取 cookies 并保存,然后利用保存下来的这个cookies再次发送搜索命令即可正常抓数据了。这其实和论坛的模拟登录一个道理,先POST登录,获取cookies并保存,然后利用这个cookies访问就可以了。

PHP 代码如下:


$login_url = 'XXX';  

   

 $post_fields['email'] = 'XXXX';  

 $post_fields['password'] = 'XXXX';  

 $post_fields['origURL'] = 'XXX';  

 $post_fields['domain'] = 'xxx.com';  

 //cookie文件存放在网站根目录的temp文件夹下  

 $cookie_file = tempnam('./temp','cookie');  

   

 $ch = curl_init($login_url);  

 curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5');  

 curl_setopt($ch, CURLOPT_HEADER, 0);  

 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  

 curl_setopt($ch, CURLOPT_MAXREDIRS, 1);  

 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);  

 curl_setopt($ch, CURLOPT_AUTOREFERER, 1);  

 curl_setopt($ch, CURLOPT_POST, 1);  

 curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);  

 curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);  

 curl_exec($ch);  

 curl_close($ch);  

   

 //带上cookie文件,访问需要访问的页面  

 $send_url='xxx.com';  

 $ch = curl_init($send_url);  

 curl_setopt($ch, CURLOPT_HEADER, 0);  

 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  

 curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);  

 $contents = curl_exec($ch);  

 curl_close($ch);  

   

 //清理cookie文件  

unlink($cookie_file);  

   

 //输出网页内容  

print_r($contents);


在temp文件夹下保存一个cookie前缀的临时文件,例如:coo3A98.tmp文件

打开这个文件得到如下代码:

wKioL1bOdNyDWHMuAAFmZ22M6Cw080.jpg


要使用php来格式化该文件,使用以下代码就能实现

<?php   

 $cookie_folder = dirname(__FILE__)."/temp";  

 $lines = file($cookie_folder.'/coo3A98.tmp');  

   

 $trows = '';  

   

 foreach($lines as $line) {  

     if($line[0] != '#' && substr_count($line, "\t") == 6) {  

         $tokens = explode("\t", $line);  

         $tokens = array_map('trim', $tokens);  

         $tokens[4] = date('Y-m-d h:i:s', $tokens[4]);  

         $trows .= '<tr><td>' . implode('</td><td>', $tokens) . '</td></tr>' . PHP_EOL;  

     }  

 }  

 echo '<table>'.PHP_EOL.'<tbody>'.PHP_EOL.$trows.'</tbody>'.PHP_EOL.'</table>';  

 ?>


运行之后就如下图所示,已经被写入到table当中

wKiom1bOdLyRyfvSAAEhutGMwh4188.jpg

大功告成,如果只读取其中字段可自行修改即可。



本文转自 gutaotao1989 51CTO博客,原文链接:http://blog.51cto.com/taoyouth/1744863

相关文章
|
17天前
|
缓存 PHP 开发者
PHP中的自动加载机制及其优化方法
传统的PHP开发中,经常会遇到类文件加载繁琐、效率低下的情况,而PHP的自动加载机制能够很好地解决这一问题。本文将深入探讨PHP中的自动加载机制,介绍其原理及实现方式,并提出了一些优化方法,帮助开发者提升代码加载效率,提高应用性能。
|
29天前
|
SQL 缓存 PHP
PHP技术探究:优化数据库查询效率的实用方法
本文将深入探讨PHP中优化数据库查询效率的实用方法,包括索引优化、SQL语句优化以及缓存机制的应用。通过合理的优化策略和技巧,可以显著提升系统性能,提高用户体验,是PHP开发者不容忽视的重要议题。
|
4月前
|
JSON PHP 数据格式
PHP curl方法封装
PHP curl方法封装
31 0
|
4月前
|
安全 小程序 PHP
PHP代码审计(五)PHP代码审计方法与步骤
(1):获取到网站源码(这就是废话……) (2):将网站部署到你自己的环境中,能运行。 这里特殊说明一下我的习惯,我本地的环境与线上的环境基本上保持一致,这样在本地审计及线上部署的时候能发现更多的问题。不建议说是随便搭个环境能跑起来就行,这样不是很严谨。 (3):拿到源码之后,浏览大概的项目结构。
66 0
|
4月前
|
PHP
PHP显示报错提示,开启display_errors的方法
PHP显示报错提示,开启display_errors的方法
46 0
|
1月前
|
PHP 数据格式
PHP 中的CURL 模拟表单的post提交
PHP 中的CURL 模拟表单的post提交
16 0
|
6月前
|
数据采集 定位技术 PHP
简单而高效:使用PHP爬虫从网易音乐获取音频的方法
网易音乐是一个流行的在线音乐平台,提供了海量的音乐资源和服务。如果你想从网易音乐下载音频文件,你可能会遇到一些困难,因为网易音乐对其音频资源进行了加密和防盗链的处理。本文将介绍一种使用PHP爬虫从网易音乐获取音频的方法,该方法简单而高效,只需几行代码就可以实现。
简单而高效:使用PHP爬虫从网易音乐获取音频的方法