分类: Python

python configparser读取配置文件大小写问题

Introduction 在使用python2 configparser读取ini配置文件的时候,发现没法保留配置文件大小写,经搜索发现如下两种方法。同时也发现了python2和python3的configparser的一些小区别。 保留配置文件大小写 ConfigParse源码里有这样一段: def optionxform(self, optionstr): return optionstr.lower() 所以最后统一返回的是小写。 1.直接修改源码 可以直接在/usr/lib/python...

python爬虫学习(六)requests 关于cookie的堪误

Introducation Python爬虫学习目录 本文修正了关于前段时间对于requests自动保存cookies和header的使用错误。 requests python有个库是requests,比更底层的urllib等更加方便简易。而且自带管理cookie,headers等功能。在python爬虫学习(四)获取cookie中,简单介绍了获取cookie的方法,而实际上,requests会自动管理cookies。在通过requests get或者post网页之后,如果是第一次访问某些页面,...

python爬虫学习(五)获取特殊验证值

Introducation Python爬虫学习目录 实际上这个网站还是一个特殊的验证值,在每次post的时候,都有一个特殊的数据,javax.faces.ViewState,经过简单的搜索,我认为这是网站开发者使用java.faces这个框架中使用的一个简单的验证机制。进一步排除无脑cookie爬虫。 获取javax.faces.ViewState 在第三节 抓取页面 中,我们在查看输出结果的时候,里面就有个javax.faces.ViewState值,而且经过同一个session访问多个 页...

python爬虫学习(四)获取cookie

Introducation Python爬虫学习目录 本文简单说明了网站的反爬虫机制cookie,以及session。 cookie 关于cookie的介绍,参看wiki-cookie,(上不去维基?别说你没看到我博客左侧和置顶的修改hosts使用谷歌服务的链接,其实那个hosts里还经常有twitter的映射) 在上一节中,就是利用浏览器上已经登录的有效的cookie和特殊的javax.faces.ViewState值进行的实验环境下的抓取页面。而实际上,这个网站用了一些手段来防止简单的爬虫抓...

python爬虫学习(三)抓取页面

Introducation Python爬虫学习目录 本文接上节介绍抓取页面。根据上节说明的,则可直接伪造一个request headers和form data。此处的处理有技巧,可从浏览器复制该部分然后粘贴到支持正则表达式替换的文本编辑器里,使用正则表达式即可迅速把浏览器的accept:*/* accept-encoding:gzip, deflate accept-language:en-US,en;q=0.8,zh-CN;q=0.6,zh;q=0.4 content-length:486这...

python爬虫学习(一)分析ajax请求

Introducation Python爬虫学习目录 本文先从分析网页开始,了解要干的目标是什么。 以 https://www.gebiz.gov.sg/ 网站为例,使用chrome的开发者工具。 chrome开发者工具 F12打开chrome的开发者工具,我们关心的主要有这样几个列目: Elements: 允许我们从浏览器的角度看页面,也就是说我们可以看到chrome渲染页面所需要的的HTML、CSS和DOM(Document Object Model)对象。此外,还可以编辑这些内容更改页面显...

python爬虫学习目录

Introducation 本系列为爬虫学习的笔记。通过一步一步分析和代码编写,从基础上描述了如何抓取网站。文章没有使用爬虫框架,而是使用最基础的requests(可视为简单的对urllib,urllib2封装,使得代码写起来更流畅,更pythonic),从基础知识上进行操作。 一、分析ajax请求 本文简述了分析某个网站的流程,查看是否是ajax的请求 二、分析post请求 本文分析了ajax时,post请求的数据,并进行简单的解释说明 三、抓取页面 本文在实验环境下,抓取了某个ajax页面 ...

Linux文件乱码

Introduction 本文主要介绍linux下zip解压出来乱码以及普通文本类文件的乱码问题。主要是系统之间编码方式不同造成的,国内windows文件名编码方式一般是gbk,而Linux默认是utf-8,这样就会导致在windows的文件在Linux下面显示乱码。 1. zip文件解压出来乱码 1.1 unzip支持-O选项 如果系统自带的unzip支持-O选项,则直接使用以下命令即可,这样最方便简单,然而debian stable版本自带的就不支持。 unzip -O GBK you_zi...

FTP备份工具

Introduction 多备份的免费额度已经停止了,只好自己写个ftp的备份工具。 我的主力机器是linux,可配合linux的corn服务实现定时备份到本地。 windows下使用自带的任务计划即可。 项目地址 github地址 https://github.com/FindHao/backupFTP coding.net地址 https://coding.net/u/findspace/p/backupFTP/git 开源中国地址 http://git.oschina.net/findsp...

matplotlib.plot函数参数说明

函数定义 plot函数是用来画点的,当然也可以画线。 matplotlib.pyplot.plot(*args, **kwargs) Plot lines and/or markers to the Axes. args is a variable length argument, allowing for multiple x, y pairs with an optional format string. For example, each of the following is legal...