Crawler on 诗与胡说

QQ 空间爬虫之爬取说说

Mon, 03 Apr 2017 19:37:30 +0000

今天来讲获取说说~

为什么把获取说说放在后面讲呢，主要是说说的结构相对来说复杂一点，跟留言不一样，它包括三层结构，一是说说内容本身，二是说说的评论以及回复，第三就是这条说说获得的赞同数，从空间的角度来看可能这三者结合地很好，层次关系和赞同关系一目了然，但是我们从接口获取到的数据并非如此，一层一层来看。

接口地址

所有说说

首先还是数据的接口地址。方法还是和上篇获取留言一样，从控制台查看请求，从返回的json数据着手处理。说说的接口地址如下：

https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin=目标qq&pos=起始位置&num=10&format=jsonp&g_tk=g_tk值

url本身就不分析了，和留言的相似，也是需要循环得到所有说说。

详细信息

之所以强调所有说说，是因为在这里我们可以只取tid值，这是说说的唯一标识，对于每一条具体的说说还有一个更详细的接口:

https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msgdetail_v6?uin=目标qq&tid=说说id&format=jsonp&g_tk=g_tk值

可以看到这是一个detail的接口，返回的就是更详细的说说信息，由于太长了就不截图了，可以自己打开看一下。这个地址的关键参数便是刚刚提到的tid，把tid传过来，根据这个tid和发布者，以及登录的g_tk值，就能得到一条说说包括评论在内的详细信息。

点赞情况

上面两个地址能够得到所有说说以及每一条说说的详细内容，但还少了点东西，就是点赞数。上面两个接口的返回数据都没有点赞情况对应的数据，一开始也有点纳闷，这应该是在一个整体里面的，但看了好多遍，确实是没有。后来点了几次xx等x人觉得很赞，从请求里看到点赞情况是有另外一个接口的：

https://h5.qzone.qq.com/proxy/domain/users.qzone.qq.com/cgi-bin/likes/get_like_list_app?uin=目标qq&unikey=unikey&begin_uin=0&query_count=60&if_first_page=1&g_tk=g_tk值

其中unikey是这条说说的地址：

http://user.qzone.qq.com/目标qq/mood/说说id

需要特别注意的是，这个接口和上面两个不太一样，频繁访问会导致403，所以若非必要，点赞部分不爬取也是可以的…或者想一个避免403的方法，比如sleep，可这肯定会使整个程序慢下来，毕竟不敢贸然上多线程…

一个小Tips: 点赞数据的获取是不一定要有好友关系的，也就是说可以用小号对赞同数另外爬取，避免被封号…不是真正的封号，只是无法再访问这个地址了，一般是一天，泪的教训…

通过上面第一个地址，可以得到一个好友的所有说说的tid，根据每个tid去获取它的详细内容和点赞情况，这样就能把所有说说爬下来了~

数据分析

前面提到过了，说说和留言不一样，它除了内容本身，还有下面的评论，以及在评论下面的回复，它可能是互动双方，也有可能是第三个好友的回复(留言下面只能是双方的互动)，最后还有点赞的好友的情况

分析一下返回的数据，这是说说内容和评论内容，图片太长分两次截吧

点赞的情况如下，乱码是因为网站本身的问题

数据库设计

刚才提到了，说说的结构相对复杂，考虑到一张表无法将所有字段包括进去，于是设计了三张表，分别是说说内容表，评论及回复表，点赞表

说说表`qq_moods`

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    moodid varchar(30), \			#说说id
    uin varchar(15), \				#发布者
    nickname varchar(50), \			#发布者昵称
    secret int(2), \				#有时候qq签名会同步为说说，设置为仅自己可见时该字段为1
    pubtime varchar(20), \			#发布时间
    phone varchar(30), \			#发布平台
    content TEXT, \				#说说内容，注意TEXT
    pictotal int(4), \				#图片总数
    cmtnum int(4), \				#评论总数
    fwdnum int(4), \				#转发总数
    locate varchar(50), \			#地理位置
    position varchar(50), \
    pos_x varchar(20), \			#经纬度
    pos_y varchar(20))' % tablename

效果如下

评论表`qq_moods_reply`

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    moodid varchar(30), \			#说说id
    cmtuin varchar(15), \			#评论者
    cmtnickname varchar(80), \			#评论者昵称
    cmtcount varchar(4), \			#该说说评论数
    cmtpubtime varchar(20), \			#评论发布时间
    comtcontent TEXT, \				#评论内容
    replycount varchar(4), \			#该评论下的回复数
    rpypubtime varchar(20), \			#回复发布时间
    replycontent TEXT \				#回复内容
    )' % tablename

可能有人会问，这怎么表示评论和回复之间的层次关系呢？不急，我们先来看一下效果

通过对同一层次的评论和回复插入空值，可以表示出层次关系，这和留言部分是一样的

点赞表`qq_moods_like`

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    moodid varchar(30), \			#说说id
    likecount  varchar(6), \			#点赞总数
    uin varchar(15), \				#点赞者
    nickname varchar(50), \			#昵称
    gender varchar(4), \			#性别
    constellation varchar(10), \		#星座
    addr varchar(10), \				#城市
    if_qq_friend int(2), \			#是否是好友
    if_special_care int(2) \			#是否特别关心
    )' % tablename

效果如下

同样的，同一说说的点赞适当插入空值可以表现出层次关系

核心代码

考虑到数据解析本身难度并不大，但爬取的逻辑还是挺重要的，所以这里贴一部分关键的代码

while True:
    url = 'https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin='+ target_qq + '&pos=' + str(self.moodstatus['moodPos']) + '&num=10&format=jsonp&g_tk=' + g_tk
    r = s.get(url, headers = header)
    dict = self.data2json(r.content[10:-2].strip().replace('\n',''))
    if self.moodstatus['moodPos'] < dict['usrinfo']['msgnum'] - 1:				#get 10 items at a time
        self.moodstatus['moodPos'] += 10
        print 'current qq: %s, current pos: %s' % (target_qq, str(self.moodstatus['moodPos']))
    else:
   		break

    if dict['msglist'] == None:
        print u'\n之前动态被封存，无法获取.'
        break

    for item in dict['msglist']:
        print 'get moodId: %s, moods tid: %s' % (self.moodstatus['moodId'], item['tid'])
        url = 'https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msgdetail_v6?uin='+ target_qq + '&tid='+ item['tid'] + '&format=jsonp&g_tk=' + g_tk
        r = s.get(url, headers = header)
        data = self.data2json(r.content[10:-2].strip().replace('\n','').replace('\\',''))

        self.operate_db_moods(db, 'qq_moods', data)							#get moods details
		
        if item.has_key('commentlist'):
            self.operate_db_moods_reply(db, 'qq_moods_reply', data)			#get moods reply
        self.get_moods_like(qq, target_qq, cookie, item['tid'], db)			#get moods like

解释

moodstatus是用来存放当前爬虫的状态的，便于程序意外中断后断点续爬。关于如何保存状态，如果有需要的话单独拿出来讲，这里只要关心这个moodstatus包含的键值对就好了。is_last_mood用来标识是否爬到了最后一条说说，下次爬取只要检测这个值就能判断是否继续了。 self.moodstatus = {"moodTid": '', "is_last_mood": 0, "moodPos": 0, "moodId": 0, "moodcmtId": 0, "moodlikeId": 0}
data2json(data)是将request获取的内容转换为json对象 def data2json(self, data): json_obj = json.loads(data.decode('utf-8')) return json_obj
operate_db*(self, db, tablename, data)方法是用来操作数据库的，有建表和插入数据的实现

流程图

画了一个简单的流程图

结束语

说说部分的代码比其他复杂一些，主要是信息相对较多，数据之间的关系也相对复杂，除了常规边界判断，特殊字符等，还要注意如何正确表示层次关系，以及爬虫状态的保存(谁也不想爬了几千条中断了然后重新开始爬= =)

分享一条查询Top 20评论数的sql语句，对于说说表，留言表也是是用的

SELECT cmtnickname, count(cmtnickname) AS count
FROM qq_moods_reply
WHERE cmtnickname != ''
GROUP BY cmtnickname
ORDER BY count DESC
LIMIT 20

QQ 空间爬虫之爬取留言

Sat, 01 Apr 2017 19:50:04 +0000

今天来讲爬取所有留言吧~

接口分析

惯例，从url接口入手

我们分析一个请求首先要抓到与服务器交互的数据包，这就要用到抓包工具，像Burpsuite,Fiddler等，为了方便有时候也直接用chrome的审查元素

登录空间，打开f12，切换到network选项卡，然后点击留言板，注意下面的请求，找到获取留言的链接

它长这样

https://h5.qzone.qq.com/proxy/domain/m.qzone.qq.com/cgi-bin/new/get_msgb?uin=登录qq&hostUin=目标qq&start=起始位置&num=一次获取数量&format=jsonp&inCharset=utf-8&outCharset=utf-8&g_tk=g_tk值

关键参数是：uin,hostUin,start,num,g_tk,分别对应登录qq，目标qq，起始位置，一次性获取的留言条数，g_tk值，构造出这些参数，就能获取一个好友的所有留言了

值得注意的是start和num，由于该接口的限制，一次最多只能获取20条留言，也就是说num值最大为20，这就无法一次性获取所有的留言，需要按20条每份切割开来，每获取20条就让start增加20，留言总数可以在返回的数据中获取到，然后注意控制边界，我们就能一份一份获取所有数据了

数据分析

右键新标签页打开这个链接，分析返回的数据

这也是一串json格式的数据，这样我们就能看到一条留言的存储结构，包括留言总数，留言者，留言内容，留言时间，回复内容等等，所有都get到了，然后设计数据库，存下来就ok了

可是真的这么顺利吗…

踩坑

坑一

当一切准备就绪，摩拳擦掌准备大干一场的时候，忽然发现，对方设置了访问权限…

好吧，再正常不过的事了，谁还没有个小秘密呢(~~人家根本就不想让你看好嘛~~)

不能看到留言就不能抓到数据了，那如何判断对方是不是不让你访问ta的空间呢？可以看到，当对方设置访问权限的时候，返回的状态码是不一样的，我们可以根据这个状态码code来判断

但是再想一下，如果我们要获取说说数据，碰到同样的情况，难道也是来先请求一次留言的接口？也不是不可以，但最好把这两者独立开，避免不同内容混杂在一起。也有可能获取说说的时候又有不一样的状态码，那到时候再判断行不行呢？当然也是可以的…

呃…其实关键的是我们最好找到一个通用的接口，根据这个接口返回的状态做一次判断，这样就能在所有子模块中决定是否对这个好友继续爬取数据，那这个接口是什么呢？

在上次获取好友信息的那部分中，有一步是根据qq获取详细信息，这个详细信息的获取是有好友权限的，不然就可以得到任意qq的信息了…扯远了，好友权限意味着你必须可以访问ta的空间，这对于设置了访问限制的好友也是一样的，我们同样无法获取到被限制访问的好友的具体信息，于是我们可以再次利用这个接口

https://h5.qzone.qq.com/proxy/domain/base.qzone.qq.com/cgi-bin/user/cgi_userinfo_get_all?uin=qq&fupdate=1&outCharset=utf-8&g_tk=g_tk

当对方限制了我们的访问权限，同样返回一个-4009状态码，还有您无权访问的提示信息，这两个都可以用来判断对方是否对我们设置了访问权限

坑二

好了，现在我们解决了没有访问权限的问题，抛弃了那些早已抛弃我们的小伙伴，再次兴致勃勃地准备大干一场(雾)的时候，忽然发现，私密留言…

好吧，再正常不过的事了，谁还没有好几个小秘密呢(~~人家双方都不想让你看好嘛~~)

私密留言是看不到具体内容的，一味地取Content的内容肯定是会出错的，所以还是提前加个判断，判断secret的值就好了，很简单

好吧，其实这也不能算是坑了，都是设计过程中要注意的地方，把所有情况都要考虑到。

数据库设计

接下来设计数据库，还是为每个好友建立一个独立的表，暂且叫做qq_messages吧

留言信息跟好友信息不一样，因为它还有回复，回复也有自己的内容，时间，回复者等信息，所以有一个层次关系，回复的内容嵌在留言内容下面，类似树的结构，所以靠一张表不能很好地表示整个留言关系，于是设计再建一张表，叫做qq_messages_reply，专门存放一条留言下的回复信息，和留言表有一个key对应，也就是每条留言独有的msgid，可以认为是外键吧，但这里没有设置成外键，因为感觉不需要…

qq_messages结构

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    msgid varchar(15), \			#留言的唯一标识
    uin varchar(15), \
    nickname varchar(50), \
    secret int(2), \				#私密留言标识
    bmp varchar(20), \
    pubtime varchar(20), \
    modifytime varchar(20), \
    effect char(10), \				#下面三个字段不清楚做什么的，但还是留着吧
    type int(2), \
    capacity varchar(10), \
    ubbContent TEXT, \				#留言内容，注意TEXT
    replyFlag int(2))' % tablename		#是否有回复

注意：由于无法确定留言内容的长度，所以不能确定用多大的存储空间来存储，所以这里将存储结构设置成TEXT，TEXT的存储空间是65 535个字节，大约可以存储20000个汉字

关于MySQL可以存储的数据类型以及存储空间，可以参考文档

可以注意到在qq_messages中多了一个replyFlag字段，这个字段是自己加的，用来区分该留言有没有回复，这是根据replyList是否为空来判断的

预览

qq_messages_reply结构

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    msgid varchar(15), \
    replycount char(4), \
    uin varchar(15), \
    nickname varchar(50), \
    pubtime varchar(20), \
    content TEXT)' % tablename

回复表跟上面差不多，就不解释了

预览

插入数据的时候根据回复数插入空值，使看上去有层次关系

结束语

剩下的就是一些小细节了，比如说私密留言获取不到留言者的uin以及具体的内容，而表的字段已经固定了，无法正确插入怎么办呢？

留言的内容含有一些特殊字符，比如\，'等，让sql语句被转义或被截断，又该怎么办呢？

还有，留言的回复中又有对话，而且有很多条，这个情况又怎么处理呢？

╮(╯_╰)╭

QQ 空间爬虫之获取好友

Wed, 29 Mar 2017 20:53:43 +0000

网上有些QQ空间爬虫都是首先设置访问权限为qq好友访问，然后获取所有好友信息。

其实QQ空间是有接口能够直接获取到所有好友的

获取好友

普通信息

接口地址

https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/tfriend/friend_show_qqfriends.cgi?uin=qq&fupdate=1&outCharset=utf-8&g_tk=g_tk

g_tk如何获取上篇文章已经提过了

数据形式

请求后返回的是json

_Callback(
{
code: 0,
subcode: 0,
message: "",
default: 0,
data: {
    items: [
        {
            uin: 12345,
            groupid: 2,
            name: "nick0",
            remark: "remark0",
            img: "http://qlogo4.store.qq.com/qzone/12345/12345/30",
            yellow: -1,
            online: 0,
            v6: 1
        },
        {
            uin: 23456,
            groupid: 8,
            name: "nick1",
            remark: "remark1",
            img: "http://qlogo3.store.qq.com/qzone/23456/23456/30",
            yellow: -1,
            online: 0,
            v6: 1
        },
        {
            uin: 34567,
            groupid: 1,
            name: "nick2",
            remark: "remark2",
            img: "http://qlogo4.store.qq.com/qzone/34567/34567/30",
            yellow: -1,
            online: 0,
            v6: 1
        }
    ],
  	gpnames: [
        {
            gpid: 0,
            gpname: "group0"
        },
        {
            gpid: 1,
            gpname: "group1"
        },
        {
            gpid: 2,
            gpname: "group2"
        }
    ]
}

关键的是data中的数据，除了所有好友的昵称备注头像外，还有所属的分组id等，本来可以根据这个gpid进行分组，可是找了一圈没找到如何显示所有分组信息的接口，于是这串数据就没派上用场了…

用一个session带上cookie请求这个接口就能获取所有好友了，可以先存下来，方便后面用。

详细信息

可能有人认为这些信息还是太少了，既然抓取了就索性彻底一些，最好能获取到更详细的信息，于是又经过一番摸索，终于又get到一个接口：

接口地址

https://h5.qzone.qq.com/proxy/domain/base.qzone.qq.com/cgi-bin/user/cgi_userinfo_get_all?uin=qq&fupdate=1&outCharset=utf-8&g_tk=g_tk

数据形式

这是一个”详细版”的好友信息，包括空间名称，空间描述，出生年月，历史地理位置，现在地理位置等信息，以及更具体的邮箱，手机号等(如果有设置的话)

_Callback(
{
    code: 0,
    subcode: 0,
    message: "获取成功",
    default: 0,
    data: {
        uin: 12345
        is_famous: false,
        famous_custom_homepage: false,
        nickname: "nickname",
        emoji: [ ],
        spacename: "someone's qzone",
        desc: "",
        signature: "this is a signature",
        avatar: "http://b125.photo.store.qq.com/psb?/blabla",
        sex_type: 0,
        sex: 1,
        animalsign_type: 0,
        constellation_type: 0,
        constellation: 9,
        age_type: 0,
        age: 18,
        islunar: 0,
        birthday_type: 0,
        birthyear: 1999,
        birthday: "01-01",
        bloodtype: 0,
        address_type: 0,
        country: "中国",
        province: "",
        city: "北京",
        home_type: 0,
        hco: "中国",
        hp: "北京",
        hc: "东城",
        marriage: 0,
        career: "",
        company: "",
        cco: "",
        cp: "",
        cc: "",
        cb: "",
        mailname: "",
        mailcellphone: "",
        mailaddr: "",
        qzworkexp: [ ],
        qzeduexp: [ ],
        ptimestamp: 1450773545
    }
}
)

嗯…只要获取到每个好友的qq后接着请求这个接口，更详细的信息就得到了～乖乖存下来

数据库设计

对了，本爬虫是基于Python和MySQL的，所以数据都会存在MySQL数据库中，设计为每个好友一个库，含有说说表，说说评论表，说说点赞表，留言表，留言回复表等。首先好友信息只要获取一遍，存在登录qq的好友表中，字段都是上面获取的数据

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    uin varchar(15), \
    sex int(2), \
    groupid int(2), \
    nickname varchar(40), \
    remark varchar(20), \
    spacename varchar(50), \
    age int(2), \
    birthday varchar(20), \
    city varchar(20), \
    img varchar(60), \
    yellow int(2), \
    online int(2), \
    v6 int(2)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4' % tablename		#change mysql encoding to support emoji

这里建表最后的ENGINE=InnoDB DEFAULT CHARSET=utf8mb4需要解释一下，因为有好多好友的昵称，签名等都是含有emoji表情的，emoji虽然也有编码，但它是用4字节来存储的，而 MySQL 中 utf8 的字段只能存储 1 至 3 字节的字符，所有直接存储会出错，这里就在建表的时候设置表的编码格式为utf8mb4，该编码是utf8的超集，向下兼容utf8，可以参考前阵子写的文章 PYTHON 使用 MYSQL 存储 EMOJI 表情

字段含义就不用解释了，注意一下的是birthday字段是拼接出生年份和具体月日的，就不细分了，city字段拼接国家省份和城市。sex字段为0的表示无法获取该好友的信息

预览

结束语

看似普通的get访问，用request方便又轻松，实际上背后有很多坑…比如说有些上个年代遗留的火星文…又比如说各种有意无意在签名中啊说说中啊等带各种”特殊字符”的，不做过滤直接让程序逼停…

QQ 空间爬虫之模拟登录

Fri, 24 Mar 2017 14:48:15 +0000

想要抓取 QQ 空间数据的第一步就是登录空间，通过好友关系获取说说，日志，留言等。

话说 QQ 空间登录算法好变态…4000+ 行 js 加密，想要读懂该算法也是需要耗费大段时间，好在 github 上有大神实现了该算法，感谢 gera2ld 大神提供的登录库，为我们省去了大量时间，详情戳 qqlib

关于 QQ 空间具体是如何登录的，分析起来比较复杂，关联的 url 也比较多，需要处理的参数更多，如果需要的话会单独拿出来分析，这里跟我们的项目关系不是很大，我们只要能够登录上并且保持登录状态就可以了，所以偷个懒…

可以直接用pip安装qqlib, 然后import qqlib使用该库，但由于qqlib更新频繁，怕到后来有些不兼容，这里选用 2017-03-04 更新的版本，自己加了几个方法的实现。

本爬虫一个特点就是可以利用上次登录的 cookies 登录，不必每次都通过账号密码登录，当然第一次登录还是要通过账号密码认证，之后从保存的 cookies文件获取内容。cookies 有一定有效期，读取之前会判断该 cookies 是否失效。

1. 登录流程

2. 常规登录

这段是qqlib的示例，可以处理含验证码的登录

def login(self):
	exc = None
	while True:
		try:
			if exc is None:
				self.qq.login()
				break
			else:
				verifier = exc.verifier
				open('verify.jpg', 'wb').write(verifier.fetch_image())
				print('saved verify.jpg')
				vcode = input('input verify:')
				verifier.verify(vcode)
				exc = None
		except qqlib.NeedVerifyCode as e:
			if e.message != None:
				print e.message
			exc = e

3. 从 cookies 登录

3.1 保存 cookies

登录成功后将 cookies 保存下来，以便下次直接从文件中获取 cookies 用以认证，省去每次从账号密码登录的繁琐，同时也能防止检测到频繁登录(虽然并没有什么用…) 利用 requests 库的 dict_from_cookiejar() 方法可以将 cookiejar 对象转换为字典，然后利用 pickle 模块的 dump() 方法将对象存储在文件中

def save_cookie_to_file(cookie, cookie_file):
	with open(cookie_file, 'w') as f:
		pickle.dump(requests.utils.dict_from_cookiejar(cookie), f)

3.2 读取 cookies

读取 cookies 方法和保存时一样，只不过把上面的方法反过来执行，利用 cookiejar_from_dict() 和 load() 方法

def load_cookie_from_file(cookie_file):
	if os.path.isfile(cookie_file):
		with open(cookie_file) as f:
			cookie = requests.utils.cookiejar_from_dict(pickle.load(f))
			return cookie
	return None

3.3 `cookiejar` 对象转字符串

由于 cookies 直接附带在 Headers 中一起发给服务器，所以要将 cookiejar 对象转成字符串，和其他字段一起组成 Headers

def cookiejar_to_string(cookies):
	if cookies == None:
		return None
	else:
		cookie = ''
		for keys, values in cookies.iteritems():
			cookie += keys+ '=' + values + ';'
		cookie = cookie[:len(cookie)-1]
		return cookie

4. `g_tk` 值

不管是直接登录还是从 cookies 登录，非常重要的一点是为了获取 p_skey 或 skey 值，这两个值用来计算 g_tk 值，计算方法已经有代码能够实现了

def g_tk(self):
	h = 5381
	cookies = self.session.cookies
	s = cookies.get('p_skey') or cookies.get('skey') or ''
	for c in s:
		h += (h << 5) + ord(c)
	return h & 0x7fffffff

5. 检查登录

检查是否登录成功思想就是访问该 qq 的用户资料界面，如果能获取成功说明模拟登录成功该请求是这样子的

https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/user/cgi_personal_card?uin=用户qq&g_tk=g_tk值

请求成功返回一段 json，如果 g_tk 值错误或者请求不合法的话返回错误码 403

6. 后续

这样我们有了可用的 cookies ，从 cookies 计算g_tk值，有了g_tk和好友 qq 号就可以拼接 url 批量获取好友数据了~

Crawler on 诗与胡说

QQ 空间爬虫之爬取说说

接口地址

所有说说

详细信息

点赞情况

数据分析

数据库设计

说说表qq_moods

评论表qq_moods_reply

点赞表qq_moods_like

核心代码

解释

流程图

结束语

QQ 空间爬虫之爬取留言

接口分析

数据分析

踩坑

坑一

坑二

数据库设计

结束语

QQ 空间爬虫之获取好友

获取好友

普通信息

接口地址

数据形式

详细信息

接口地址

数据形式

数据库设计

结束语

QQ 空间爬虫之模拟登录

1. 登录流程

2. 常规登录

3. 从 cookies 登录

3.1 保存 cookies

3.2 读取 cookies

3.3 cookiejar 对象转字符串

4. g_tk 值

5. 检查登录

6. 后续

说说表`qq_moods`

评论表`qq_moods_reply`

点赞表`qq_moods_like`

3.3 `cookiejar` 对象转字符串

4. `g_tk` 值