Python on 诗与胡说

QQ 空间爬虫之爬取说说

Mon, 03 Apr 2017 19:37:30 +0000

今天来讲获取说说~

为什么把获取说说放在后面讲呢，主要是说说的结构相对来说复杂一点，跟留言不一样，它包括三层结构，一是说说内容本身，二是说说的评论以及回复，第三就是这条说说获得的赞同数，从空间的角度来看可能这三者结合地很好，层次关系和赞同关系一目了然，但是我们从接口获取到的数据并非如此，一层一层来看。

接口地址

所有说说

首先还是数据的接口地址。方法还是和上篇获取留言一样，从控制台查看请求，从返回的json数据着手处理。说说的接口地址如下：

https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin=目标qq&pos=起始位置&num=10&format=jsonp&g_tk=g_tk值

url本身就不分析了，和留言的相似，也是需要循环得到所有说说。

详细信息

之所以强调所有说说，是因为在这里我们可以只取tid值，这是说说的唯一标识，对于每一条具体的说说还有一个更详细的接口:

https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msgdetail_v6?uin=目标qq&tid=说说id&format=jsonp&g_tk=g_tk值

可以看到这是一个detail的接口，返回的就是更详细的说说信息，由于太长了就不截图了，可以自己打开看一下。这个地址的关键参数便是刚刚提到的tid，把tid传过来，根据这个tid和发布者，以及登录的g_tk值，就能得到一条说说包括评论在内的详细信息。

点赞情况

上面两个地址能够得到所有说说以及每一条说说的详细内容，但还少了点东西，就是点赞数。上面两个接口的返回数据都没有点赞情况对应的数据，一开始也有点纳闷，这应该是在一个整体里面的，但看了好多遍，确实是没有。后来点了几次xx等x人觉得很赞，从请求里看到点赞情况是有另外一个接口的：

https://h5.qzone.qq.com/proxy/domain/users.qzone.qq.com/cgi-bin/likes/get_like_list_app?uin=目标qq&unikey=unikey&begin_uin=0&query_count=60&if_first_page=1&g_tk=g_tk值

其中unikey是这条说说的地址：

http://user.qzone.qq.com/目标qq/mood/说说id

需要特别注意的是，这个接口和上面两个不太一样，频繁访问会导致403，所以若非必要，点赞部分不爬取也是可以的…或者想一个避免403的方法，比如sleep，可这肯定会使整个程序慢下来，毕竟不敢贸然上多线程…

一个小Tips: 点赞数据的获取是不一定要有好友关系的，也就是说可以用小号对赞同数另外爬取，避免被封号…不是真正的封号，只是无法再访问这个地址了，一般是一天，泪的教训…

通过上面第一个地址，可以得到一个好友的所有说说的tid，根据每个tid去获取它的详细内容和点赞情况，这样就能把所有说说爬下来了~

数据分析

前面提到过了，说说和留言不一样，它除了内容本身，还有下面的评论，以及在评论下面的回复，它可能是互动双方，也有可能是第三个好友的回复(留言下面只能是双方的互动)，最后还有点赞的好友的情况

分析一下返回的数据，这是说说内容和评论内容，图片太长分两次截吧

点赞的情况如下，乱码是因为网站本身的问题

数据库设计

刚才提到了，说说的结构相对复杂，考虑到一张表无法将所有字段包括进去，于是设计了三张表，分别是说说内容表，评论及回复表，点赞表

说说表`qq_moods`

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    moodid varchar(30), \			#说说id
    uin varchar(15), \				#发布者
    nickname varchar(50), \			#发布者昵称
    secret int(2), \				#有时候qq签名会同步为说说，设置为仅自己可见时该字段为1
    pubtime varchar(20), \			#发布时间
    phone varchar(30), \			#发布平台
    content TEXT, \				#说说内容，注意TEXT
    pictotal int(4), \				#图片总数
    cmtnum int(4), \				#评论总数
    fwdnum int(4), \				#转发总数
    locate varchar(50), \			#地理位置
    position varchar(50), \
    pos_x varchar(20), \			#经纬度
    pos_y varchar(20))' % tablename

效果如下

评论表`qq_moods_reply`

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    moodid varchar(30), \			#说说id
    cmtuin varchar(15), \			#评论者
    cmtnickname varchar(80), \			#评论者昵称
    cmtcount varchar(4), \			#该说说评论数
    cmtpubtime varchar(20), \			#评论发布时间
    comtcontent TEXT, \				#评论内容
    replycount varchar(4), \			#该评论下的回复数
    rpypubtime varchar(20), \			#回复发布时间
    replycontent TEXT \				#回复内容
    )' % tablename

可能有人会问，这怎么表示评论和回复之间的层次关系呢？不急，我们先来看一下效果

通过对同一层次的评论和回复插入空值，可以表示出层次关系，这和留言部分是一样的

点赞表`qq_moods_like`

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    moodid varchar(30), \			#说说id
    likecount  varchar(6), \			#点赞总数
    uin varchar(15), \				#点赞者
    nickname varchar(50), \			#昵称
    gender varchar(4), \			#性别
    constellation varchar(10), \		#星座
    addr varchar(10), \				#城市
    if_qq_friend int(2), \			#是否是好友
    if_special_care int(2) \			#是否特别关心
    )' % tablename

效果如下

同样的，同一说说的点赞适当插入空值可以表现出层次关系

核心代码

考虑到数据解析本身难度并不大，但爬取的逻辑还是挺重要的，所以这里贴一部分关键的代码

while True:
    url = 'https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin='+ target_qq + '&pos=' + str(self.moodstatus['moodPos']) + '&num=10&format=jsonp&g_tk=' + g_tk
    r = s.get(url, headers = header)
    dict = self.data2json(r.content[10:-2].strip().replace('\n',''))
    if self.moodstatus['moodPos'] < dict['usrinfo']['msgnum'] - 1:				#get 10 items at a time
        self.moodstatus['moodPos'] += 10
        print 'current qq: %s, current pos: %s' % (target_qq, str(self.moodstatus['moodPos']))
    else:
   		break

    if dict['msglist'] == None:
        print u'\n之前动态被封存，无法获取.'
        break

    for item in dict['msglist']:
        print 'get moodId: %s, moods tid: %s' % (self.moodstatus['moodId'], item['tid'])
        url = 'https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msgdetail_v6?uin='+ target_qq + '&tid='+ item['tid'] + '&format=jsonp&g_tk=' + g_tk
        r = s.get(url, headers = header)
        data = self.data2json(r.content[10:-2].strip().replace('\n','').replace('\\',''))

        self.operate_db_moods(db, 'qq_moods', data)							#get moods details
		
        if item.has_key('commentlist'):
            self.operate_db_moods_reply(db, 'qq_moods_reply', data)			#get moods reply
        self.get_moods_like(qq, target_qq, cookie, item['tid'], db)			#get moods like

解释

moodstatus是用来存放当前爬虫的状态的，便于程序意外中断后断点续爬。关于如何保存状态，如果有需要的话单独拿出来讲，这里只要关心这个moodstatus包含的键值对就好了。is_last_mood用来标识是否爬到了最后一条说说，下次爬取只要检测这个值就能判断是否继续了。 self.moodstatus = {"moodTid": '', "is_last_mood": 0, "moodPos": 0, "moodId": 0, "moodcmtId": 0, "moodlikeId": 0}
data2json(data)是将request获取的内容转换为json对象 def data2json(self, data): json_obj = json.loads(data.decode('utf-8')) return json_obj
operate_db*(self, db, tablename, data)方法是用来操作数据库的，有建表和插入数据的实现

流程图

画了一个简单的流程图

结束语

说说部分的代码比其他复杂一些，主要是信息相对较多，数据之间的关系也相对复杂，除了常规边界判断，特殊字符等，还要注意如何正确表示层次关系，以及爬虫状态的保存(谁也不想爬了几千条中断了然后重新开始爬= =)

分享一条查询Top 20评论数的sql语句，对于说说表，留言表也是是用的

SELECT cmtnickname, count(cmtnickname) AS count
FROM qq_moods_reply
WHERE cmtnickname != ''
GROUP BY cmtnickname
ORDER BY count DESC
LIMIT 20

QQ 空间爬虫之爬取留言

Sat, 01 Apr 2017 19:50:04 +0000

今天来讲爬取所有留言吧~

接口分析

惯例，从url接口入手

我们分析一个请求首先要抓到与服务器交互的数据包，这就要用到抓包工具，像Burpsuite,Fiddler等，为了方便有时候也直接用chrome的审查元素

登录空间，打开f12，切换到network选项卡，然后点击留言板，注意下面的请求，找到获取留言的链接

它长这样

https://h5.qzone.qq.com/proxy/domain/m.qzone.qq.com/cgi-bin/new/get_msgb?uin=登录qq&hostUin=目标qq&start=起始位置&num=一次获取数量&format=jsonp&inCharset=utf-8&outCharset=utf-8&g_tk=g_tk值

关键参数是：uin,hostUin,start,num,g_tk,分别对应登录qq，目标qq，起始位置，一次性获取的留言条数，g_tk值，构造出这些参数，就能获取一个好友的所有留言了

值得注意的是start和num，由于该接口的限制，一次最多只能获取20条留言，也就是说num值最大为20，这就无法一次性获取所有的留言，需要按20条每份切割开来，每获取20条就让start增加20，留言总数可以在返回的数据中获取到，然后注意控制边界，我们就能一份一份获取所有数据了

数据分析

右键新标签页打开这个链接，分析返回的数据

这也是一串json格式的数据，这样我们就能看到一条留言的存储结构，包括留言总数，留言者，留言内容，留言时间，回复内容等等，所有都get到了，然后设计数据库，存下来就ok了

可是真的这么顺利吗…

踩坑

坑一

当一切准备就绪，摩拳擦掌准备大干一场的时候，忽然发现，对方设置了访问权限…

好吧，再正常不过的事了，谁还没有个小秘密呢(~~人家根本就不想让你看好嘛~~)

不能看到留言就不能抓到数据了，那如何判断对方是不是不让你访问ta的空间呢？可以看到，当对方设置访问权限的时候，返回的状态码是不一样的，我们可以根据这个状态码code来判断

但是再想一下，如果我们要获取说说数据，碰到同样的情况，难道也是来先请求一次留言的接口？也不是不可以，但最好把这两者独立开，避免不同内容混杂在一起。也有可能获取说说的时候又有不一样的状态码，那到时候再判断行不行呢？当然也是可以的…

呃…其实关键的是我们最好找到一个通用的接口，根据这个接口返回的状态做一次判断，这样就能在所有子模块中决定是否对这个好友继续爬取数据，那这个接口是什么呢？

在上次获取好友信息的那部分中，有一步是根据qq获取详细信息，这个详细信息的获取是有好友权限的，不然就可以得到任意qq的信息了…扯远了，好友权限意味着你必须可以访问ta的空间，这对于设置了访问限制的好友也是一样的，我们同样无法获取到被限制访问的好友的具体信息，于是我们可以再次利用这个接口

https://h5.qzone.qq.com/proxy/domain/base.qzone.qq.com/cgi-bin/user/cgi_userinfo_get_all?uin=qq&fupdate=1&outCharset=utf-8&g_tk=g_tk

当对方限制了我们的访问权限，同样返回一个-4009状态码，还有您无权访问的提示信息，这两个都可以用来判断对方是否对我们设置了访问权限

坑二

好了，现在我们解决了没有访问权限的问题，抛弃了那些早已抛弃我们的小伙伴，再次兴致勃勃地准备大干一场(雾)的时候，忽然发现，私密留言…

好吧，再正常不过的事了，谁还没有好几个小秘密呢(~~人家双方都不想让你看好嘛~~)

私密留言是看不到具体内容的，一味地取Content的内容肯定是会出错的，所以还是提前加个判断，判断secret的值就好了，很简单

好吧，其实这也不能算是坑了，都是设计过程中要注意的地方，把所有情况都要考虑到。

数据库设计

接下来设计数据库，还是为每个好友建立一个独立的表，暂且叫做qq_messages吧

留言信息跟好友信息不一样，因为它还有回复，回复也有自己的内容，时间，回复者等信息，所以有一个层次关系，回复的内容嵌在留言内容下面，类似树的结构，所以靠一张表不能很好地表示整个留言关系，于是设计再建一张表，叫做qq_messages_reply，专门存放一条留言下的回复信息，和留言表有一个key对应，也就是每条留言独有的msgid，可以认为是外键吧，但这里没有设置成外键，因为感觉不需要…

qq_messages结构

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    msgid varchar(15), \			#留言的唯一标识
    uin varchar(15), \
    nickname varchar(50), \
    secret int(2), \				#私密留言标识
    bmp varchar(20), \
    pubtime varchar(20), \
    modifytime varchar(20), \
    effect char(10), \				#下面三个字段不清楚做什么的，但还是留着吧
    type int(2), \
    capacity varchar(10), \
    ubbContent TEXT, \				#留言内容，注意TEXT
    replyFlag int(2))' % tablename		#是否有回复

注意：由于无法确定留言内容的长度，所以不能确定用多大的存储空间来存储，所以这里将存储结构设置成TEXT，TEXT的存储空间是65 535个字节，大约可以存储20000个汉字

关于MySQL可以存储的数据类型以及存储空间，可以参考文档

可以注意到在qq_messages中多了一个replyFlag字段，这个字段是自己加的，用来区分该留言有没有回复，这是根据replyList是否为空来判断的

预览

qq_messages_reply结构

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    msgid varchar(15), \
    replycount char(4), \
    uin varchar(15), \
    nickname varchar(50), \
    pubtime varchar(20), \
    content TEXT)' % tablename

回复表跟上面差不多，就不解释了

预览

插入数据的时候根据回复数插入空值，使看上去有层次关系

结束语

剩下的就是一些小细节了，比如说私密留言获取不到留言者的uin以及具体的内容，而表的字段已经固定了，无法正确插入怎么办呢？

留言的内容含有一些特殊字符，比如\，'等，让sql语句被转义或被截断，又该怎么办呢？

还有，留言的回复中又有对话，而且有很多条，这个情况又怎么处理呢？

╮(╯_╰)╭

QQ 空间爬虫之获取好友

Wed, 29 Mar 2017 20:53:43 +0000

网上有些QQ空间爬虫都是首先设置访问权限为qq好友访问，然后获取所有好友信息。

其实QQ空间是有接口能够直接获取到所有好友的

获取好友

普通信息

接口地址

https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/tfriend/friend_show_qqfriends.cgi?uin=qq&fupdate=1&outCharset=utf-8&g_tk=g_tk

g_tk如何获取上篇文章已经提过了

数据形式

请求后返回的是json

_Callback(
{
code: 0,
subcode: 0,
message: "",
default: 0,
data: {
    items: [
        {
            uin: 12345,
            groupid: 2,
            name: "nick0",
            remark: "remark0",
            img: "http://qlogo4.store.qq.com/qzone/12345/12345/30",
            yellow: -1,
            online: 0,
            v6: 1
        },
        {
            uin: 23456,
            groupid: 8,
            name: "nick1",
            remark: "remark1",
            img: "http://qlogo3.store.qq.com/qzone/23456/23456/30",
            yellow: -1,
            online: 0,
            v6: 1
        },
        {
            uin: 34567,
            groupid: 1,
            name: "nick2",
            remark: "remark2",
            img: "http://qlogo4.store.qq.com/qzone/34567/34567/30",
            yellow: -1,
            online: 0,
            v6: 1
        }
    ],
  	gpnames: [
        {
            gpid: 0,
            gpname: "group0"
        },
        {
            gpid: 1,
            gpname: "group1"
        },
        {
            gpid: 2,
            gpname: "group2"
        }
    ]
}

关键的是data中的数据，除了所有好友的昵称备注头像外，还有所属的分组id等，本来可以根据这个gpid进行分组，可是找了一圈没找到如何显示所有分组信息的接口，于是这串数据就没派上用场了…

用一个session带上cookie请求这个接口就能获取所有好友了，可以先存下来，方便后面用。

详细信息

可能有人认为这些信息还是太少了，既然抓取了就索性彻底一些，最好能获取到更详细的信息，于是又经过一番摸索，终于又get到一个接口：

接口地址

https://h5.qzone.qq.com/proxy/domain/base.qzone.qq.com/cgi-bin/user/cgi_userinfo_get_all?uin=qq&fupdate=1&outCharset=utf-8&g_tk=g_tk

数据形式

这是一个”详细版”的好友信息，包括空间名称，空间描述，出生年月，历史地理位置，现在地理位置等信息，以及更具体的邮箱，手机号等(如果有设置的话)

_Callback(
{
    code: 0,
    subcode: 0,
    message: "获取成功",
    default: 0,
    data: {
        uin: 12345
        is_famous: false,
        famous_custom_homepage: false,
        nickname: "nickname",
        emoji: [ ],
        spacename: "someone's qzone",
        desc: "",
        signature: "this is a signature",
        avatar: "http://b125.photo.store.qq.com/psb?/blabla",
        sex_type: 0,
        sex: 1,
        animalsign_type: 0,
        constellation_type: 0,
        constellation: 9,
        age_type: 0,
        age: 18,
        islunar: 0,
        birthday_type: 0,
        birthyear: 1999,
        birthday: "01-01",
        bloodtype: 0,
        address_type: 0,
        country: "中国",
        province: "",
        city: "北京",
        home_type: 0,
        hco: "中国",
        hp: "北京",
        hc: "东城",
        marriage: 0,
        career: "",
        company: "",
        cco: "",
        cp: "",
        cc: "",
        cb: "",
        mailname: "",
        mailcellphone: "",
        mailaddr: "",
        qzworkexp: [ ],
        qzeduexp: [ ],
        ptimestamp: 1450773545
    }
}
)

嗯…只要获取到每个好友的qq后接着请求这个接口，更详细的信息就得到了～乖乖存下来

数据库设计

对了，本爬虫是基于Python和MySQL的，所以数据都会存在MySQL数据库中，设计为每个好友一个库，含有说说表，说说评论表，说说点赞表，留言表，留言回复表等。首先好友信息只要获取一遍，存在登录qq的好友表中，字段都是上面获取的数据

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    uin varchar(15), \
    sex int(2), \
    groupid int(2), \
    nickname varchar(40), \
    remark varchar(20), \
    spacename varchar(50), \
    age int(2), \
    birthday varchar(20), \
    city varchar(20), \
    img varchar(60), \
    yellow int(2), \
    online int(2), \
    v6 int(2)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4' % tablename		#change mysql encoding to support emoji

这里建表最后的ENGINE=InnoDB DEFAULT CHARSET=utf8mb4需要解释一下，因为有好多好友的昵称，签名等都是含有emoji表情的，emoji虽然也有编码，但它是用4字节来存储的，而 MySQL 中 utf8 的字段只能存储 1 至 3 字节的字符，所有直接存储会出错，这里就在建表的时候设置表的编码格式为utf8mb4，该编码是utf8的超集，向下兼容utf8，可以参考前阵子写的文章 PYTHON 使用 MYSQL 存储 EMOJI 表情

字段含义就不用解释了，注意一下的是birthday字段是拼接出生年份和具体月日的，就不细分了，city字段拼接国家省份和城市。sex字段为0的表示无法获取该好友的信息

预览

结束语

看似普通的get访问，用request方便又轻松，实际上背后有很多坑…比如说有些上个年代遗留的火星文…又比如说各种有意无意在签名中啊说说中啊等带各种”特殊字符”的，不做过滤直接让程序逼停…

QQ 空间爬虫之模拟登录

Fri, 24 Mar 2017 14:48:15 +0000

想要抓取 QQ 空间数据的第一步就是登录空间，通过好友关系获取说说，日志，留言等。

话说 QQ 空间登录算法好变态…4000+ 行 js 加密，想要读懂该算法也是需要耗费大段时间，好在 github 上有大神实现了该算法，感谢 gera2ld 大神提供的登录库，为我们省去了大量时间，详情戳 qqlib

关于 QQ 空间具体是如何登录的，分析起来比较复杂，关联的 url 也比较多，需要处理的参数更多，如果需要的话会单独拿出来分析，这里跟我们的项目关系不是很大，我们只要能够登录上并且保持登录状态就可以了，所以偷个懒…

可以直接用pip安装qqlib, 然后import qqlib使用该库，但由于qqlib更新频繁，怕到后来有些不兼容，这里选用 2017-03-04 更新的版本，自己加了几个方法的实现。

本爬虫一个特点就是可以利用上次登录的 cookies 登录，不必每次都通过账号密码登录，当然第一次登录还是要通过账号密码认证，之后从保存的 cookies文件获取内容。cookies 有一定有效期，读取之前会判断该 cookies 是否失效。

1. 登录流程

2. 常规登录

这段是qqlib的示例，可以处理含验证码的登录

def login(self):
	exc = None
	while True:
		try:
			if exc is None:
				self.qq.login()
				break
			else:
				verifier = exc.verifier
				open('verify.jpg', 'wb').write(verifier.fetch_image())
				print('saved verify.jpg')
				vcode = input('input verify:')
				verifier.verify(vcode)
				exc = None
		except qqlib.NeedVerifyCode as e:
			if e.message != None:
				print e.message
			exc = e

3. 从 cookies 登录

3.1 保存 cookies

登录成功后将 cookies 保存下来，以便下次直接从文件中获取 cookies 用以认证，省去每次从账号密码登录的繁琐，同时也能防止检测到频繁登录(虽然并没有什么用…) 利用 requests 库的 dict_from_cookiejar() 方法可以将 cookiejar 对象转换为字典，然后利用 pickle 模块的 dump() 方法将对象存储在文件中

def save_cookie_to_file(cookie, cookie_file):
	with open(cookie_file, 'w') as f:
		pickle.dump(requests.utils.dict_from_cookiejar(cookie), f)

3.2 读取 cookies

读取 cookies 方法和保存时一样，只不过把上面的方法反过来执行，利用 cookiejar_from_dict() 和 load() 方法

def load_cookie_from_file(cookie_file):
	if os.path.isfile(cookie_file):
		with open(cookie_file) as f:
			cookie = requests.utils.cookiejar_from_dict(pickle.load(f))
			return cookie
	return None

3.3 `cookiejar` 对象转字符串

由于 cookies 直接附带在 Headers 中一起发给服务器，所以要将 cookiejar 对象转成字符串，和其他字段一起组成 Headers

def cookiejar_to_string(cookies):
	if cookies == None:
		return None
	else:
		cookie = ''
		for keys, values in cookies.iteritems():
			cookie += keys+ '=' + values + ';'
		cookie = cookie[:len(cookie)-1]
		return cookie

4. `g_tk` 值

不管是直接登录还是从 cookies 登录，非常重要的一点是为了获取 p_skey 或 skey 值，这两个值用来计算 g_tk 值，计算方法已经有代码能够实现了

def g_tk(self):
	h = 5381
	cookies = self.session.cookies
	s = cookies.get('p_skey') or cookies.get('skey') or ''
	for c in s:
		h += (h << 5) + ord(c)
	return h & 0x7fffffff

5. 检查登录

检查是否登录成功思想就是访问该 qq 的用户资料界面，如果能获取成功说明模拟登录成功该请求是这样子的

https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/user/cgi_personal_card?uin=用户qq&g_tk=g_tk值

请求成功返回一段 json，如果 g_tk 值错误或者请求不合法的话返回错误码 403

6. 后续

这样我们有了可用的 cookies ，从 cookies 计算g_tk值，有了g_tk和好友 qq 号就可以拼接 url 批量获取好友数据了~

Python 使用 Mysql 存储 Emoji 表情

Mon, 20 Feb 2017 19:43:18 +0000

最近使用 Python 处理数据的时候遇到 mysql 存储 emoji 表情的问题，觉得可以总结一下。

一. 报错信息

Incorrect string value: '\xF0\x9F\x91\x8D' for column 'xxx'

二. 错误分析

从异常能看出这是编码的问题，当前的配置是数据库连接使用 utf8，字符集也是 utf-8。查阅资料发现，在 mysql 中 utf8 的字段只能存储 1 至 3 字节的字符，而 emoji 表情是使用 4 字节字符来表示的，这就导致 Incorrect string value 错误。

三. 解决办法

1. 使用 `utf8mb4` 编码存储数据，`utf8mb4 is a superset of utf8`

utf8mb4 向下兼容 utf8，在 Mysql 5.5.3 以上版本支持 utf8mb4

方法(1)

修改 mysql 配置. 编辑 my.ini 文件，之后要重启 mysql 服务

[client]
default-character-set = utf8mb4		# 客户端来源数据的默认字符集

[mysqld]
character-set-server = utf8mb4		# 服务端默认字符集
collation-server = utf8mb4_unicode_ci	# 连接层默认字符集

[mysql]
default-character-set = utf8mb4		# 数据库默认字符集

方法(2)

在 python 连接数据库和创建表时指定编码

import MySQLdb
# 连接
conn = MySQLdb.connect("127.0.0.1", "user", "passwd")
cursor = self.conn.cursor()
cursor.execute("SET NAMES utf8mb4")
cursor.execute("SET CHARACTER SET utf8mb4")
cursor.execute("SET character_set_connection = utf8mb4")

# 建库
cursor.execute('CREATE DATABASE IF NOT EXISTS %s CHARACTER SET utf8mb4 \ 
	COLLATE utf8mb4_unicode_ci' % dbname)

# 建表
cursor.execute('CREATE TABLE table(id int primary key, name char(10))') \
	ENGINE = InnoDB DEFAULT CHARSET = utf8mb4

可以查询 mysql 编码方式 show variables like 'character_set_%';

2. 使用正则表达式过滤 emoji 字符

#!/usr/bin/env python
import re

text = u'This dog \U0001f602'
print(text) # with emoji

emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           "]+", flags=re.UNICODE)
print(emoji_pattern.sub(r'', text)) # no emoji

salt-ssh 配置使用

Thu, 15 Sep 2016 14:54:29 +0000

salt-ssh 是 Saltstack 框架下的一款批量化远程操作工具，具体介绍可以看这里关于 Saltstack，它是一款自动化运维工具，具体可以浏览官网，这里只介绍一下 salt-ssh 的使用。

salt-ssh 的配置很简单，在 /etc/salt/ 下修改 roster 文件，把需要管理的服务器 ip，用户名，密码按格式配置好即可 > vim /etc/salt/roster

server00:
 host: x.x.x.x
 user: root
 passwd: root
 
server01:
 host: x.x.x.x
 user: root
 passwd: root

然后测试一下能不能连通就好了 > salt-ssh ‘*’ test.ping

‘*’ 是指所有节点，想要单独某个节点的话指定就可以了 > salt-ssh server00 test.ping

可能需要验证是否接受密钥，不想被提示就加上参数 -i > salt-ssh ‘*’ test.ping -i

测试能够连通就可以执行命令了，使用参数 -r > salt-ssh ‘*’ -r ‘uname -a’ -i

这里要说的是配置文件里明文记录密码是十分不安全的行为，极端情况是某台服务器被入侵，发现了这个文件，恰巧又有大量服务器配置在这，相当于把机器送到黑客手上了。即使是加密后的密码也不安全，总之是用文件记录敏感信息都是不负责任的做法。

想要不在配置文件中记录密码，可以在执行命令的时候把密码作为参数 > salt-ssh ‘*’ –passwd ‘password’ -r ‘args’ -i

而配置文件里只要记录 ip 和用户名就可以

server00:
 host: x.x.x.x
 user: root
 
server01:
 host: x.x.x.x
 user: root

这样做的优点是不会在文件中泄露密码，缺点是假如每台机器密码不一样，执行起来会比较麻烦，各自取舍吧。也有通过 keys 验证身份，但测试之后发现还是得认证身份，这里就不提了。

Tips

其实直接在命令中指定密码依然十分危险，因为命令记录会把你出卖…可以执行一下

cat ~/.bash_history

所以涉及到输入密码的命令，可以在输入前键入一个空格，即按一下空格再正常输入命令，这样这条命令就不会被记录在历史里。

sqlite 执行删除操作后文件大小不变的解决办法

Sat, 27 Aug 2016 13:13:18 +0000

在用python对sqlite3数据库进行删除部分数据的操作后，数据库文件大小并没有改变，上网找了找原因，发现确实是这样 :

When an object (table, index, trigger, or view) is dropped from the database, it leaves behind empty space. This empty space will be reused the next time new information is added to the database. But in the meantime, the database file might be larger than strictly necessary. Also, frequent inserts, updates, and deletes can cause the information in the database to become fragmented - scrattered out all across the database file rather than clustered together in one place.

当一个对象（表，索引，触发器或视图）被从数据库中删除，留下一块空白空间。这块空间将被下一次新的信息添加到数据库中重复使用。但在此期间，数据库文件可能变得非常大。此外，频繁的插入，更新和删除可能会导在数据库中的信息成为零散的碎片分布在数据库中，而不是在一个地方聚集在一起。

解决办法是

在数据删除后，手动执行 “VACUUM” 命令

在数据库文件创建时，将 auto_vacuum 设置成 “1” 。

但是第二个方法有一定的限制，它只会从数据库文件中截断空闲列表中的页，而不会回收数据库中的碎片，也不会像VACUUM 命令那样重新整理数据库内容。实际上，由于需要在数据库文件中移动页， auto-vacuum 会产生更多的碎片。而且，在执行删除操作的时候，会产生一个.db-journal文件。使用 auto-vacuum 的前提是，数据库中需要存储一些额外的信息以记录它所跟踪的每个数据库页都能找回其指针位置。所以，auto-vacumm 必须在建表之前就开启。在一个表创建之后，就不能再开启或关闭 auto-vacumm。

在python中就执行

import sqlite3
conn = sqlite3.connect(dbfile)
sql = 'delete from table where ...'
cu = conn.cursor()
cu.execute(sql)
cu.execute('vacuum')
cu.close()
conn.close()

Python 解析 DNS 时 Resolver instance has no attribute 'connectionLost' 异常解决

Fri, 26 Aug 2016 16:32:18 +0000

某个项目中用到dns相关的模块，在长时间运行后偶尔抛出异常:

Resolver instance has no attribute 'connectionLost'

Unhandled Error
Traceback (most recent call last):
  File "dns.py", line 174, in <module>
    reactor.run()
  File "/usr/lib/python2.7/dist-packages/twisted/internet/base.py", line 1169, in run
    self.mainLoop()
  File "/usr/lib/python2.7/dist-packages/twisted/internet/base.py", line 1181, in mainLoop
    self.doIteration(t)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/pollreactor.py", line 167, in doPoll
    log.callWithLogger(selectable, _drdw, selectable, fd, event)
--- <exception caught here> ---
  File "/usr/lib/python2.7/dist-packages/twisted/python/log.py", line 84, in callWithLogger
    return callWithContext({"system": lp}, func, *args, **kw)
  File "/usr/lib/python2.7/dist-packages/twisted/python/log.py", line 69, in callWithContext
    return context.call({ILogContext: newCtx}, func, *args, **kw)
  File "/usr/lib/python2.7/dist-packages/twisted/python/context.py", line 118, in callWithContext
    return self.currentContext().callWithContext(ctx, func, *args, **kw)
  File "/usr/lib/python2.7/dist-packages/twisted/python/context.py", line 81, in callWithContext
    return func(*args,**kw)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/posixbase.py", line 599, in _doReadOrWrite
    self._disconnectSelectable(selectable, why, inRead)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/posixbase.py", line 260, in _disconnectSelectable
    selectable.readConnectionLost(f)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/tcp.py", line 257, in readConnectionLost
    self.connectionLost(reason)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/tcp.py", line 433, in connectionLost
    Connection.connectionLost(self, reason)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/tcp.py", line 277, in connectionLost
    protocol.connectionLost(reason)
  File "/usr/lib/python2.7/dist-packages/twisted/names/dns.py", line 1908, in connectionLost
    self.controller.connectionLost(self)
exceptions.AttributeError: Resolver instance has no attribute 'connectionLost'

查阅相关资料发现不是自己代码的问题，而是 Twisted 库中的 twisted.names.client.Resolver 类没有 connectionLost 方法，而这个方法本身并不需要做任何事，于是解决办法就是，找到 twisted.names.client.Resolver，在最后添加 connectionLost 方法：

def connectionLost(self, p):
    pass

异常解决。

另外，还遇到

Traceback (most recent call last):
Failure: twisted.names.error.DNSQueryTimeoutError:

异常，这个也很奇怪，因为一开始并没有出现，而是运行了一段时间后对某些特定的查询会出现，解决办法是导入dns查询超时异常类，然后捕捉该异常 from twisted.names.error import DNSQueryTimeoutError

参考:

https://twistedmatrix.com/trac/ticket/5224 http://stackoverflow.com/questions/15944617/handle-error-on-a-simple-dns-twisted-client

Python2.7 中 UnicodeEncodeError:'ascii' codec can't encode characters 异常解决

Mon, 15 Aug 2016 14:32:18 +0000

Python的编码问题一直是一个它的一个缺点，特别是在处理中文上。Python提供了Unicode, str, utf-8, ascii等编码的相互转换，然而还是烦琐易错。进行sqlite3数据读取并存入文件时碰到了错误 : UnicodeEncodeError: 'ascii' codec can't encode characters in position 19-22: ordinal not in range(128)

原因是数据库中含有中文字段，Unicode编码与ASCII编码的不兼容，这个Python脚本文件是由UTF-8编码的，同时Sqlite3数据库存取的也是UTF-8格式，而Python默认环境编码是Ascii:

>>> import sys
>>> print sys.getdefaultencoding()
ascii

Python调用ascii编码解码程序去处理字符流，当字符流不属于ascii范围内，就会抛出异常ordinal not in range(128)，解决方法有三种

方法一

更改默认编码

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

把这段代码加在Python文件头部，即可解决异常。

方法二

在打开文件时指定编码

import codecs
fp = codecs.open('output.txt', 'a', 'utf-8')
fp.write(data)
fp.close()

方法三

直接用系统输出byte，不用print

sys.stdout.buffer.write(data)

或者

os.write(sys.stdout.fileno(), data)

URP教务系统教学评价Python脚本

Wed, 08 Jun 2016 23:14:22 +0000

简述

夏天到了，又到了繁殖评课的季节→_→

URP评课程序2.0，针对第二学期的情况作了一些修改，又可以欢乐地一键评课了~

针对URP教务系统教学评价的python脚本，本地验证码登录，python版本要求3.4，自行更改相应教务处网站地址，运行 python3 URP_instructional_evaluation_v2.0.py

项目地址

Github

部分代码

##登录##
def login(user, password, code):

##获取cookie##
def setCookie():

##提取验证码(手动输入验证码)##
def getVerify():

##获取选课信息##
def getInfo():

##提交评课信息##
def postPj(br, pr, bm, pm):

##获取cookie##
def setCookie():
    cookie = http.cookiejar.CookieJar() 
    cookieProc = urllib.request.HTTPCookieProcessor(cookie) 
    opener = urllib.request.build_opener(cookieProc) 
    urllib.request.install_opener(opener)

##提取验证码(手动输入验证码)##
def getVerify():
    setCookie()
    vrifycodeUrl = 'http://xxx.edu.cn/validateCodeAction.do'
    file = urllib.request.urlopen(vrifycodeUrl)
    pic= file.read()
    #path = '/home/username/code.jpg'
    path = 'D:/code.jpg'
    try:
        localpic = open(path, 'wb')
        localpic.write(pic)
        localpic.close()
        print ('获取验证码成功,%s.' %path)
    except IOError:
        print ('获取验证码失败,请重新运行程序.')
    code = input("验证码: ")
    return code

##模拟登录##
url = 'http://xxx.edu.cn/loginAction.do'         ##登录地址
header = {}
    header['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
    header['Accept-Encoding'] = 'gzip, deflate'
    header['Accept-Language'] = 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'
    header['Connection'] = 'keep-alive'
    header['Host'] = 'xxx.edu.cn'
    header['Referer'] = 'http://xxx.edu.cn/loginAction.do'
    header['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0'
    data = urllib.parse.urlencode(data).encode('gb2312')
    req = urllib.request.Request(url,data,header)
    response = urllib.request.urlopen(req)
    html = response.read().decode('gb2312')

##提交评价数据包##
data = urllib.parse.urlencode(data).encode('gb2312')
    pjurl = 'http://xxx.edu.cn/jxpgXsAction.do?oper=wjpg'            ##提交评价结果页面
    pjreq = urllib.request.Request(pjurl,data,pjheader)
    pjresponse = urllib.request.urlopen(pjreq)
    pjhtml = pjresponse.read().decode('gb2312')

基于Python的简单验证码识别程序

Sun, 05 Jun 2016 22:59:18 +0000

主体思想

 1. 批量获取验证码 
 2. 对图片去噪，二值化 
 3. 对图片进行切割，获取单个字符
 4. 选取清晰的字符作为标准库
 5. 待识别验证码经过处理后与标准库进行逐像素比较，选取最相近的组合作为识别结果为图片命名

函数介绍

download()      批量获取验证码  
binary()        图像的去噪和二值化处理  
division()      把验证码图片按单个字符切割开(关键)  
recognize()     验证码识别(关键)

项目地址

Github

代码参考

#!/usr/bin/env python
# -*- coding: UTF-8 -*-

import os, Image, time
import urllib, random

pic_path = "D:/code/pic/"               #下载保存的路径
result_path = "D:/code/result/"         #识别后保存的路径
font_path = "D:/code/font/"             #去噪和二值化后保存的路径
standard_path = "D:/code/standard/"     #标准字符库路径
fonts_path = "D:/code/fonts/"           #图片切割后保存的路径

##批量下载验证码,用随机数命名##
def download(path):
    for i in range(50):
        url = 'http://system.ruanko.com/validateImage.jsp'
        print "download", i
        file(path + "%04d.jpg" % random.randrange(10000), "wb").write(urllib.urlopen(url).read())
        time.sleep(0.1)
    return path

##图像的去噪和二值化处理##
def binary(pic_f, saved_f):
    img = Image.open(pic_f)
    img = img.convert("RGBA")  
    pixdata = img.load()
    for y in xrange(img.size[1]):
        for x in xrange(img.size[0]):
            if pixdata[x, y][0] < 90:
                pixdata[x, y] = (0, 0, 0, 255)
    for y in xrange(img.size[1]):
        for x in xrange(img.size[0]):
            if pixdata[x, y][1] < 136:
                pixdata[x, y] = (0, 0, 0, 255)
    for y in xrange(img.size[1]):
        for x in xrange(img.size[0]):
            if pixdata[x, y][2] > 0:
                pixdata[x, y] = (255, 255, 255, 255)
    img.save(saved_f, "png")
    return img

nume = 0
##把验证码图片按单个字符切割开##
def division(img):
    global nume
    font = []
    (Width, Height) = img.size
    pix = img.load()
    x0 = []
    y0 = []
    for x in range(0, Width):
        pix_0 = 0
        for y in range(0, Height):
            if pix[x, y] == 0:                      #遍历每一列像素点为0的个数,若某一列像素点全为0而下一列存在不为0的点,则可认为此处为边界
                pix_0 += 1
        y0.append(pix_0)
        if pix_0 > 0:
            x0.append(x)
    preWidth = []
    for i in range(4):
        for j in range(1, Width):
            if (y0[j] != 0) & (y0[j+1] != 0):
                preWidth.append(j+1)                #连续非0的个数即为分割后的宽度preWidth
                break
    for i in range(4):
        x = i*13 + 7                                #模板的长*宽需要微调
        y = 3
        temp = img.crop((x, y, x+preWidth[i]+1, 16))#切割宽度+1后结果比较精确
        temp.save(fonts_path +" %d.png" % nume)
        nume = nume + 1
        font.append(temp)
    return font

##分隔出来的字符与预先定义的标准字符库中的结果逐个像素进行对比找出差别最小的项##
def recognize(img):
    fontMods = []
    for i in range(0, 10):  
        fontMods.append((str(i), Image.open(standard_path + "%d.png" % i)))
	#此句针对全数字的验证码，按数字值对单个字符命名并保存
        #fontMods.append((str(i), Image.open(standard_path +"%02d.bmp" % ord('1'))))
    #for i in range(65, 91):
	#以下针对数字+大小写字母的验证码，按ASCII码值对单个字符命名并保存
        #c = chr(i) 
        #fontMods.append((c, Image.open(standard_path +"%s.bmp" % ord('A'))))
    #for i in range(97, 123):  
        #s = chr(i)
        #fontMods.append((s, Image.open(standard_path +"%s.bmp" % ord('a'))))
    result = ""
    img = img.convert("1")
    font = division(img)
    for i in font:
        target = i                                  #标准字符库
        points = []
        #取出验证码并分割后与标准字符库进行逐像素比较
        for mod in fontMods:                        
            diffs = 0
            for yi in range(10):
                for xi in range(7):
                    if mod[1].getpixel((xi, yi)) != target.getpixel((xi, yi)):  
                        diffs += 1
            points.append((diffs, mod[0]))
        points.sort()
        result += points[0][1]
    return result

if __name__ == '__main__':
    codedir = download(pic_path)                        
    #批量下载验证码图片
    for imgfile in os.listdir(codedir):
        if imgfile.endswith(".jpg"):
            #识别后路径
            result = result_path                            
            #去噪和二值化
            img = binary(pic_path + imgfile, font_path + imgfile)
            #识别
            num = recognize(img)                                   
            result += (num + ".png")
            print "save to", result
            img.save(result)

Python on 诗与胡说

QQ 空间爬虫之爬取说说

接口地址

所有说说

详细信息

点赞情况

数据分析

数据库设计

说说表qq_moods

评论表qq_moods_reply

点赞表qq_moods_like

核心代码

解释

流程图

结束语

QQ 空间爬虫之爬取留言

接口分析

数据分析

踩坑

坑一

坑二

数据库设计

结束语

QQ 空间爬虫之获取好友

获取好友

普通信息

接口地址

数据形式

详细信息

接口地址

数据形式

数据库设计

结束语

QQ 空间爬虫之模拟登录

1. 登录流程

2. 常规登录

3. 从 cookies 登录

3.1 保存 cookies

3.2 读取 cookies

3.3 cookiejar 对象转字符串

4. g_tk 值

5. 检查登录

6. 后续

Python 使用 Mysql 存储 Emoji 表情

一. 报错信息

二. 错误分析

三. 解决办法

1. 使用 utf8mb4 编码存储数据，utf8mb4 is a superset of utf8

方法(1)

方法(2)

2. 使用正则表达式过滤 emoji 字符

salt-ssh 配置使用

sqlite 执行删除操作后文件大小不变的解决办法

Python 解析 DNS 时 Resolver instance has no attribute 'connectionLost' 异常解决

Python2.7 中 UnicodeEncodeError:'ascii' codec can't encode characters 异常解决

URP教务系统教学评价Python脚本

简述

项目地址

部分代码

基于Python的简单验证码识别程序

主体思想

函数介绍

项目地址

代码参考

说说表`qq_moods`

评论表`qq_moods_reply`

点赞表`qq_moods_like`

3.3 `cookiejar` 对象转字符串

4. `g_tk` 值

1. 使用 `utf8mb4` 编码存储数据，`utf8mb4 is a superset of utf8`