标签: 爬虫

python爬虫学习(六)requests 关于cookie的堪误

Introducation Python爬虫学习目录 本文修正了关于前段时间对于requests自动保存cookies和header的使用错误。 requests python有个库是requests,比更底层的urllib等更加方便简易。而且自带管理cookie,headers等功能。在python爬虫学习(四)获取cookie中,简单介绍了获取cookie的方法,而实际上,requests会自...

python爬虫学习(五)获取特殊验证值

Introducation Python爬虫学习目录 实际上这个网站还是一个特殊的验证值,在每次post的时候,都有一个特殊的数据,javax.faces.ViewState,经过简单的搜索,我认为这是网站开发者使用java.faces这个框架中使用的一个简单的验证机制。进一步排除无脑cookie爬虫。 获取javax.faces.ViewState 在第三节 抓取页面 中,我们在查看输出结果的时...

python爬虫学习(三)抓取页面

Introducation Python爬虫学习目录 本文接上节介绍抓取页面。根据上节说明的,则可直接伪造一个request headers和form data。此处的处理有技巧,可从浏览器复制该部分然后粘贴到支持正则表达式替换的文本编辑器里,使用正则表达式即可迅速把浏览器的accept:*/* accept-encoding:gzip, deflate accept-language:en-US...

python爬虫学习(二)分析post请求

Introducation Python爬虫学习目录 本文将接上文详细分析post的请求和响应数据 General General Request URL:https://www.gebiz.gov.sg/ptn/opportunity/BOListing.xhtml Request Method:POST Status Code:200 OK Remote Address:[2400:cb00:...

python爬虫学习(一)分析ajax请求

Introducation Python爬虫学习目录 本文先从分析网页开始,了解要干的目标是什么。 以 https://www.gebiz.gov.sg/ 网站为例,使用chrome的开发者工具。 chrome开发者工具 F12打开chrome的开发者工具,我们关心的主要有这样几个列目: Elements: 允许我们从浏览器的角度看页面,也就是说我们可以看到chrome渲染页面所需要的的HTML、...

python爬虫学习目录

Introducation 本系列为爬虫学习的笔记。通过一步一步分析和代码编写,从基础上描述了如何抓取网站。文章没有使用爬虫框架,而是使用最基础的requests(可视为简单的对urllib,urllib2封装,使得代码写起来更流畅,更pythonic),从基础知识上进行操作。 一、分析ajax请求 本文简述了分析某个网站的流程,查看是否是ajax的请求 二、分析post请求 本文分析了ajax时...