Coding on 诗与胡说

QQ 空间爬虫之爬取说说

Mon, 03 Apr 2017 19:37:30 +0000

今天来讲获取说说~

为什么把获取说说放在后面讲呢，主要是说说的结构相对来说复杂一点，跟留言不一样，它包括三层结构，一是说说内容本身，二是说说的评论以及回复，第三就是这条说说获得的赞同数，从空间的角度来看可能这三者结合地很好，层次关系和赞同关系一目了然，但是我们从接口获取到的数据并非如此，一层一层来看。

接口地址

所有说说

首先还是数据的接口地址。方法还是和上篇获取留言一样，从控制台查看请求，从返回的json数据着手处理。说说的接口地址如下：

https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin=目标qq&pos=起始位置&num=10&format=jsonp&g_tk=g_tk值

url本身就不分析了，和留言的相似，也是需要循环得到所有说说。

详细信息

之所以强调所有说说，是因为在这里我们可以只取tid值，这是说说的唯一标识，对于每一条具体的说说还有一个更详细的接口:

https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msgdetail_v6?uin=目标qq&tid=说说id&format=jsonp&g_tk=g_tk值

可以看到这是一个detail的接口，返回的就是更详细的说说信息，由于太长了就不截图了，可以自己打开看一下。这个地址的关键参数便是刚刚提到的tid，把tid传过来，根据这个tid和发布者，以及登录的g_tk值，就能得到一条说说包括评论在内的详细信息。

点赞情况

上面两个地址能够得到所有说说以及每一条说说的详细内容，但还少了点东西，就是点赞数。上面两个接口的返回数据都没有点赞情况对应的数据，一开始也有点纳闷，这应该是在一个整体里面的，但看了好多遍，确实是没有。后来点了几次xx等x人觉得很赞，从请求里看到点赞情况是有另外一个接口的：

https://h5.qzone.qq.com/proxy/domain/users.qzone.qq.com/cgi-bin/likes/get_like_list_app?uin=目标qq&unikey=unikey&begin_uin=0&query_count=60&if_first_page=1&g_tk=g_tk值

其中unikey是这条说说的地址：

http://user.qzone.qq.com/目标qq/mood/说说id

需要特别注意的是，这个接口和上面两个不太一样，频繁访问会导致403，所以若非必要，点赞部分不爬取也是可以的…或者想一个避免403的方法，比如sleep，可这肯定会使整个程序慢下来，毕竟不敢贸然上多线程…

一个小Tips: 点赞数据的获取是不一定要有好友关系的，也就是说可以用小号对赞同数另外爬取，避免被封号…不是真正的封号，只是无法再访问这个地址了，一般是一天，泪的教训…

通过上面第一个地址，可以得到一个好友的所有说说的tid，根据每个tid去获取它的详细内容和点赞情况，这样就能把所有说说爬下来了~

数据分析

前面提到过了，说说和留言不一样，它除了内容本身，还有下面的评论，以及在评论下面的回复，它可能是互动双方，也有可能是第三个好友的回复(留言下面只能是双方的互动)，最后还有点赞的好友的情况

分析一下返回的数据，这是说说内容和评论内容，图片太长分两次截吧

点赞的情况如下，乱码是因为网站本身的问题

数据库设计

刚才提到了，说说的结构相对复杂，考虑到一张表无法将所有字段包括进去，于是设计了三张表，分别是说说内容表，评论及回复表，点赞表

说说表`qq_moods`

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    moodid varchar(30), \			#说说id
    uin varchar(15), \				#发布者
    nickname varchar(50), \			#发布者昵称
    secret int(2), \				#有时候qq签名会同步为说说，设置为仅自己可见时该字段为1
    pubtime varchar(20), \			#发布时间
    phone varchar(30), \			#发布平台
    content TEXT, \				#说说内容，注意TEXT
    pictotal int(4), \				#图片总数
    cmtnum int(4), \				#评论总数
    fwdnum int(4), \				#转发总数
    locate varchar(50), \			#地理位置
    position varchar(50), \
    pos_x varchar(20), \			#经纬度
    pos_y varchar(20))' % tablename

效果如下

评论表`qq_moods_reply`

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    moodid varchar(30), \			#说说id
    cmtuin varchar(15), \			#评论者
    cmtnickname varchar(80), \			#评论者昵称
    cmtcount varchar(4), \			#该说说评论数
    cmtpubtime varchar(20), \			#评论发布时间
    comtcontent TEXT, \				#评论内容
    replycount varchar(4), \			#该评论下的回复数
    rpypubtime varchar(20), \			#回复发布时间
    replycontent TEXT \				#回复内容
    )' % tablename

可能有人会问，这怎么表示评论和回复之间的层次关系呢？不急，我们先来看一下效果

通过对同一层次的评论和回复插入空值，可以表示出层次关系，这和留言部分是一样的

点赞表`qq_moods_like`

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    moodid varchar(30), \			#说说id
    likecount  varchar(6), \			#点赞总数
    uin varchar(15), \				#点赞者
    nickname varchar(50), \			#昵称
    gender varchar(4), \			#性别
    constellation varchar(10), \		#星座
    addr varchar(10), \				#城市
    if_qq_friend int(2), \			#是否是好友
    if_special_care int(2) \			#是否特别关心
    )' % tablename

效果如下

同样的，同一说说的点赞适当插入空值可以表现出层次关系

核心代码

考虑到数据解析本身难度并不大，但爬取的逻辑还是挺重要的，所以这里贴一部分关键的代码

while True:
    url = 'https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin='+ target_qq + '&pos=' + str(self.moodstatus['moodPos']) + '&num=10&format=jsonp&g_tk=' + g_tk
    r = s.get(url, headers = header)
    dict = self.data2json(r.content[10:-2].strip().replace('\n',''))
    if self.moodstatus['moodPos'] < dict['usrinfo']['msgnum'] - 1:				#get 10 items at a time
        self.moodstatus['moodPos'] += 10
        print 'current qq: %s, current pos: %s' % (target_qq, str(self.moodstatus['moodPos']))
    else:
   		break

    if dict['msglist'] == None:
        print u'\n之前动态被封存，无法获取.'
        break

    for item in dict['msglist']:
        print 'get moodId: %s, moods tid: %s' % (self.moodstatus['moodId'], item['tid'])
        url = 'https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msgdetail_v6?uin='+ target_qq + '&tid='+ item['tid'] + '&format=jsonp&g_tk=' + g_tk
        r = s.get(url, headers = header)
        data = self.data2json(r.content[10:-2].strip().replace('\n','').replace('\\',''))

        self.operate_db_moods(db, 'qq_moods', data)							#get moods details
		
        if item.has_key('commentlist'):
            self.operate_db_moods_reply(db, 'qq_moods_reply', data)			#get moods reply
        self.get_moods_like(qq, target_qq, cookie, item['tid'], db)			#get moods like

解释

moodstatus是用来存放当前爬虫的状态的，便于程序意外中断后断点续爬。关于如何保存状态，如果有需要的话单独拿出来讲，这里只要关心这个moodstatus包含的键值对就好了。is_last_mood用来标识是否爬到了最后一条说说，下次爬取只要检测这个值就能判断是否继续了。 self.moodstatus = {"moodTid": '', "is_last_mood": 0, "moodPos": 0, "moodId": 0, "moodcmtId": 0, "moodlikeId": 0}
data2json(data)是将request获取的内容转换为json对象 def data2json(self, data): json_obj = json.loads(data.decode('utf-8')) return json_obj
operate_db*(self, db, tablename, data)方法是用来操作数据库的，有建表和插入数据的实现

流程图

画了一个简单的流程图

结束语

说说部分的代码比其他复杂一些，主要是信息相对较多，数据之间的关系也相对复杂，除了常规边界判断，特殊字符等，还要注意如何正确表示层次关系，以及爬虫状态的保存(谁也不想爬了几千条中断了然后重新开始爬= =)

分享一条查询Top 20评论数的sql语句，对于说说表，留言表也是是用的

SELECT cmtnickname, count(cmtnickname) AS count
FROM qq_moods_reply
WHERE cmtnickname != ''
GROUP BY cmtnickname
ORDER BY count DESC
LIMIT 20

QQ 空间爬虫之爬取留言

Sat, 01 Apr 2017 19:50:04 +0000

今天来讲爬取所有留言吧~

接口分析

惯例，从url接口入手

我们分析一个请求首先要抓到与服务器交互的数据包，这就要用到抓包工具，像Burpsuite,Fiddler等，为了方便有时候也直接用chrome的审查元素

登录空间，打开f12，切换到network选项卡，然后点击留言板，注意下面的请求，找到获取留言的链接

它长这样

https://h5.qzone.qq.com/proxy/domain/m.qzone.qq.com/cgi-bin/new/get_msgb?uin=登录qq&hostUin=目标qq&start=起始位置&num=一次获取数量&format=jsonp&inCharset=utf-8&outCharset=utf-8&g_tk=g_tk值

关键参数是：uin,hostUin,start,num,g_tk,分别对应登录qq，目标qq，起始位置，一次性获取的留言条数，g_tk值，构造出这些参数，就能获取一个好友的所有留言了

值得注意的是start和num，由于该接口的限制，一次最多只能获取20条留言，也就是说num值最大为20，这就无法一次性获取所有的留言，需要按20条每份切割开来，每获取20条就让start增加20，留言总数可以在返回的数据中获取到，然后注意控制边界，我们就能一份一份获取所有数据了

数据分析

右键新标签页打开这个链接，分析返回的数据

这也是一串json格式的数据，这样我们就能看到一条留言的存储结构，包括留言总数，留言者，留言内容，留言时间，回复内容等等，所有都get到了，然后设计数据库，存下来就ok了

可是真的这么顺利吗…

踩坑

坑一

当一切准备就绪，摩拳擦掌准备大干一场的时候，忽然发现，对方设置了访问权限…

好吧，再正常不过的事了，谁还没有个小秘密呢(~~人家根本就不想让你看好嘛~~)

不能看到留言就不能抓到数据了，那如何判断对方是不是不让你访问ta的空间呢？可以看到，当对方设置访问权限的时候，返回的状态码是不一样的，我们可以根据这个状态码code来判断

但是再想一下，如果我们要获取说说数据，碰到同样的情况，难道也是来先请求一次留言的接口？也不是不可以，但最好把这两者独立开，避免不同内容混杂在一起。也有可能获取说说的时候又有不一样的状态码，那到时候再判断行不行呢？当然也是可以的…

呃…其实关键的是我们最好找到一个通用的接口，根据这个接口返回的状态做一次判断，这样就能在所有子模块中决定是否对这个好友继续爬取数据，那这个接口是什么呢？

在上次获取好友信息的那部分中，有一步是根据qq获取详细信息，这个详细信息的获取是有好友权限的，不然就可以得到任意qq的信息了…扯远了，好友权限意味着你必须可以访问ta的空间，这对于设置了访问限制的好友也是一样的，我们同样无法获取到被限制访问的好友的具体信息，于是我们可以再次利用这个接口

https://h5.qzone.qq.com/proxy/domain/base.qzone.qq.com/cgi-bin/user/cgi_userinfo_get_all?uin=qq&fupdate=1&outCharset=utf-8&g_tk=g_tk

当对方限制了我们的访问权限，同样返回一个-4009状态码，还有您无权访问的提示信息，这两个都可以用来判断对方是否对我们设置了访问权限

坑二

好了，现在我们解决了没有访问权限的问题，抛弃了那些早已抛弃我们的小伙伴，再次兴致勃勃地准备大干一场(雾)的时候，忽然发现，私密留言…

好吧，再正常不过的事了，谁还没有好几个小秘密呢(~~人家双方都不想让你看好嘛~~)

私密留言是看不到具体内容的，一味地取Content的内容肯定是会出错的，所以还是提前加个判断，判断secret的值就好了，很简单

好吧，其实这也不能算是坑了，都是设计过程中要注意的地方，把所有情况都要考虑到。

数据库设计

接下来设计数据库，还是为每个好友建立一个独立的表，暂且叫做qq_messages吧

留言信息跟好友信息不一样，因为它还有回复，回复也有自己的内容，时间，回复者等信息，所以有一个层次关系，回复的内容嵌在留言内容下面，类似树的结构，所以靠一张表不能很好地表示整个留言关系，于是设计再建一张表，叫做qq_messages_reply，专门存放一条留言下的回复信息，和留言表有一个key对应，也就是每条留言独有的msgid，可以认为是外键吧，但这里没有设置成外键，因为感觉不需要…

qq_messages结构

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    msgid varchar(15), \			#留言的唯一标识
    uin varchar(15), \
    nickname varchar(50), \
    secret int(2), \				#私密留言标识
    bmp varchar(20), \
    pubtime varchar(20), \
    modifytime varchar(20), \
    effect char(10), \				#下面三个字段不清楚做什么的，但还是留着吧
    type int(2), \
    capacity varchar(10), \
    ubbContent TEXT, \				#留言内容，注意TEXT
    replyFlag int(2))' % tablename		#是否有回复

注意：由于无法确定留言内容的长度，所以不能确定用多大的存储空间来存储，所以这里将存储结构设置成TEXT，TEXT的存储空间是65 535个字节，大约可以存储20000个汉字

关于MySQL可以存储的数据类型以及存储空间，可以参考文档

可以注意到在qq_messages中多了一个replyFlag字段，这个字段是自己加的，用来区分该留言有没有回复，这是根据replyList是否为空来判断的

预览

qq_messages_reply结构

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    msgid varchar(15), \
    replycount char(4), \
    uin varchar(15), \
    nickname varchar(50), \
    pubtime varchar(20), \
    content TEXT)' % tablename

回复表跟上面差不多，就不解释了

预览

插入数据的时候根据回复数插入空值，使看上去有层次关系

结束语

剩下的就是一些小细节了，比如说私密留言获取不到留言者的uin以及具体的内容，而表的字段已经固定了，无法正确插入怎么办呢？

留言的内容含有一些特殊字符，比如\，'等，让sql语句被转义或被截断，又该怎么办呢？

还有，留言的回复中又有对话，而且有很多条，这个情况又怎么处理呢？

╮(╯_╰)╭

QQ 空间爬虫之获取好友

Wed, 29 Mar 2017 20:53:43 +0000

网上有些QQ空间爬虫都是首先设置访问权限为qq好友访问，然后获取所有好友信息。

其实QQ空间是有接口能够直接获取到所有好友的

获取好友

普通信息

接口地址

https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/tfriend/friend_show_qqfriends.cgi?uin=qq&fupdate=1&outCharset=utf-8&g_tk=g_tk

g_tk如何获取上篇文章已经提过了

数据形式

请求后返回的是json

_Callback(
{
code: 0,
subcode: 0,
message: "",
default: 0,
data: {
    items: [
        {
            uin: 12345,
            groupid: 2,
            name: "nick0",
            remark: "remark0",
            img: "http://qlogo4.store.qq.com/qzone/12345/12345/30",
            yellow: -1,
            online: 0,
            v6: 1
        },
        {
            uin: 23456,
            groupid: 8,
            name: "nick1",
            remark: "remark1",
            img: "http://qlogo3.store.qq.com/qzone/23456/23456/30",
            yellow: -1,
            online: 0,
            v6: 1
        },
        {
            uin: 34567,
            groupid: 1,
            name: "nick2",
            remark: "remark2",
            img: "http://qlogo4.store.qq.com/qzone/34567/34567/30",
            yellow: -1,
            online: 0,
            v6: 1
        }
    ],
  	gpnames: [
        {
            gpid: 0,
            gpname: "group0"
        },
        {
            gpid: 1,
            gpname: "group1"
        },
        {
            gpid: 2,
            gpname: "group2"
        }
    ]
}

关键的是data中的数据，除了所有好友的昵称备注头像外，还有所属的分组id等，本来可以根据这个gpid进行分组，可是找了一圈没找到如何显示所有分组信息的接口，于是这串数据就没派上用场了…

用一个session带上cookie请求这个接口就能获取所有好友了，可以先存下来，方便后面用。

详细信息

可能有人认为这些信息还是太少了，既然抓取了就索性彻底一些，最好能获取到更详细的信息，于是又经过一番摸索，终于又get到一个接口：

接口地址

https://h5.qzone.qq.com/proxy/domain/base.qzone.qq.com/cgi-bin/user/cgi_userinfo_get_all?uin=qq&fupdate=1&outCharset=utf-8&g_tk=g_tk

数据形式

这是一个”详细版”的好友信息，包括空间名称，空间描述，出生年月，历史地理位置，现在地理位置等信息，以及更具体的邮箱，手机号等(如果有设置的话)

_Callback(
{
    code: 0,
    subcode: 0,
    message: "获取成功",
    default: 0,
    data: {
        uin: 12345
        is_famous: false,
        famous_custom_homepage: false,
        nickname: "nickname",
        emoji: [ ],
        spacename: "someone's qzone",
        desc: "",
        signature: "this is a signature",
        avatar: "http://b125.photo.store.qq.com/psb?/blabla",
        sex_type: 0,
        sex: 1,
        animalsign_type: 0,
        constellation_type: 0,
        constellation: 9,
        age_type: 0,
        age: 18,
        islunar: 0,
        birthday_type: 0,
        birthyear: 1999,
        birthday: "01-01",
        bloodtype: 0,
        address_type: 0,
        country: "中国",
        province: "",
        city: "北京",
        home_type: 0,
        hco: "中国",
        hp: "北京",
        hc: "东城",
        marriage: 0,
        career: "",
        company: "",
        cco: "",
        cp: "",
        cc: "",
        cb: "",
        mailname: "",
        mailcellphone: "",
        mailaddr: "",
        qzworkexp: [ ],
        qzeduexp: [ ],
        ptimestamp: 1450773545
    }
}
)

嗯…只要获取到每个好友的qq后接着请求这个接口，更详细的信息就得到了～乖乖存下来

数据库设计

对了，本爬虫是基于Python和MySQL的，所以数据都会存在MySQL数据库中，设计为每个好友一个库，含有说说表，说说评论表，说说点赞表，留言表，留言回复表等。首先好友信息只要获取一遍，存在登录qq的好友表中，字段都是上面获取的数据

create_tb_sql = 'CREATE TABLE IF NOT EXISTS %s\
    (id int primary key, \
    uin varchar(15), \
    sex int(2), \
    groupid int(2), \
    nickname varchar(40), \
    remark varchar(20), \
    spacename varchar(50), \
    age int(2), \
    birthday varchar(20), \
    city varchar(20), \
    img varchar(60), \
    yellow int(2), \
    online int(2), \
    v6 int(2)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4' % tablename		#change mysql encoding to support emoji

这里建表最后的ENGINE=InnoDB DEFAULT CHARSET=utf8mb4需要解释一下，因为有好多好友的昵称，签名等都是含有emoji表情的，emoji虽然也有编码，但它是用4字节来存储的，而 MySQL 中 utf8 的字段只能存储 1 至 3 字节的字符，所有直接存储会出错，这里就在建表的时候设置表的编码格式为utf8mb4，该编码是utf8的超集，向下兼容utf8，可以参考前阵子写的文章 PYTHON 使用 MYSQL 存储 EMOJI 表情

字段含义就不用解释了，注意一下的是birthday字段是拼接出生年份和具体月日的，就不细分了，city字段拼接国家省份和城市。sex字段为0的表示无法获取该好友的信息

预览

结束语

看似普通的get访问，用request方便又轻松，实际上背后有很多坑…比如说有些上个年代遗留的火星文…又比如说各种有意无意在签名中啊说说中啊等带各种”特殊字符”的，不做过滤直接让程序逼停…

QQ 空间爬虫之模拟登录

Fri, 24 Mar 2017 14:48:15 +0000

想要抓取 QQ 空间数据的第一步就是登录空间，通过好友关系获取说说，日志，留言等。

话说 QQ 空间登录算法好变态…4000+ 行 js 加密，想要读懂该算法也是需要耗费大段时间，好在 github 上有大神实现了该算法，感谢 gera2ld 大神提供的登录库，为我们省去了大量时间，详情戳 qqlib

关于 QQ 空间具体是如何登录的，分析起来比较复杂，关联的 url 也比较多，需要处理的参数更多，如果需要的话会单独拿出来分析，这里跟我们的项目关系不是很大，我们只要能够登录上并且保持登录状态就可以了，所以偷个懒…

可以直接用pip安装qqlib, 然后import qqlib使用该库，但由于qqlib更新频繁，怕到后来有些不兼容，这里选用 2017-03-04 更新的版本，自己加了几个方法的实现。

本爬虫一个特点就是可以利用上次登录的 cookies 登录，不必每次都通过账号密码登录，当然第一次登录还是要通过账号密码认证，之后从保存的 cookies文件获取内容。cookies 有一定有效期，读取之前会判断该 cookies 是否失效。

1. 登录流程

2. 常规登录

这段是qqlib的示例，可以处理含验证码的登录

def login(self):
	exc = None
	while True:
		try:
			if exc is None:
				self.qq.login()
				break
			else:
				verifier = exc.verifier
				open('verify.jpg', 'wb').write(verifier.fetch_image())
				print('saved verify.jpg')
				vcode = input('input verify:')
				verifier.verify(vcode)
				exc = None
		except qqlib.NeedVerifyCode as e:
			if e.message != None:
				print e.message
			exc = e

3. 从 cookies 登录

3.1 保存 cookies

登录成功后将 cookies 保存下来，以便下次直接从文件中获取 cookies 用以认证，省去每次从账号密码登录的繁琐，同时也能防止检测到频繁登录(虽然并没有什么用…) 利用 requests 库的 dict_from_cookiejar() 方法可以将 cookiejar 对象转换为字典，然后利用 pickle 模块的 dump() 方法将对象存储在文件中

def save_cookie_to_file(cookie, cookie_file):
	with open(cookie_file, 'w') as f:
		pickle.dump(requests.utils.dict_from_cookiejar(cookie), f)

3.2 读取 cookies

读取 cookies 方法和保存时一样，只不过把上面的方法反过来执行，利用 cookiejar_from_dict() 和 load() 方法

def load_cookie_from_file(cookie_file):
	if os.path.isfile(cookie_file):
		with open(cookie_file) as f:
			cookie = requests.utils.cookiejar_from_dict(pickle.load(f))
			return cookie
	return None

3.3 `cookiejar` 对象转字符串

由于 cookies 直接附带在 Headers 中一起发给服务器，所以要将 cookiejar 对象转成字符串，和其他字段一起组成 Headers

def cookiejar_to_string(cookies):
	if cookies == None:
		return None
	else:
		cookie = ''
		for keys, values in cookies.iteritems():
			cookie += keys+ '=' + values + ';'
		cookie = cookie[:len(cookie)-1]
		return cookie

4. `g_tk` 值

不管是直接登录还是从 cookies 登录，非常重要的一点是为了获取 p_skey 或 skey 值，这两个值用来计算 g_tk 值，计算方法已经有代码能够实现了

def g_tk(self):
	h = 5381
	cookies = self.session.cookies
	s = cookies.get('p_skey') or cookies.get('skey') or ''
	for c in s:
		h += (h << 5) + ord(c)
	return h & 0x7fffffff

5. 检查登录

检查是否登录成功思想就是访问该 qq 的用户资料界面，如果能获取成功说明模拟登录成功该请求是这样子的

https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/user/cgi_personal_card?uin=用户qq&g_tk=g_tk值

请求成功返回一段 json，如果 g_tk 值错误或者请求不合法的话返回错误码 403

6. 后续

这样我们有了可用的 cookies ，从 cookies 计算g_tk值，有了g_tk和好友 qq 号就可以拼接 url 批量获取好友数据了~

分享几个有用的小程序

Sat, 18 Mar 2017 23:21:02 +0000

1. 一個改良的 Ping

有时候想 ping 一个网址，直接从浏览器复制会带上http://，粘进命令行就出错了… 于是可以用这个脚本代替 ping 程序，改成pin放在/bin下就 OK 了

#!/usr/bin/env bash
#author: fangpeishi@gmail.com
#issues:
#  - http(s)://xxx.xx/xxx/xx?xxx
#  - 192.168.1.1/32

new_args=`echo $@ |sed  's/http.*\:\/\///' |sed 's/\/[^ ]*//'`
#echo ${new_args}
ping -c 4 ${new_args}

作者还带上另一个功能，一个网段的也能用 ping 192.168.1.1/32 —-> ping 192.168.1.1

2. 随机密码生成脚本

可以自定义长度

#!/bin/bash
L=$2
if [ ! -z $1 ];then
  if [[ "$1" =~ ^[0-9]+$ ]];then
    L=$1
  fi
fi
</dev/urandom tr -dc '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ~!@#$%^&*()_+' | head -c${L}; echo ""

3. 不定期更新

Github 没有记录 Contributions 的解决

Fri, 17 Mar 2017 16:46:07 +0000

最近更新文章的时候发现github没有记录Contributions，也就是小绿墙没有增加小方块，看了下git log发现是提交的时候用户邮箱写错了，多打了一个字母…于是Github认为这些commits都不是我提交的 =_=# 网上找到了解决办法

1. 重新克隆一个repo

git clone --bare https://github.com/user/repo.git
cd repo.git

2. 新建一个脚本

#!/bin/sh
git filter-branch --env-filter '
OLD_EMAIL="旧的Email地址"
CORRECT_NAME="正确的用户名"
CORRECT_EMAIL="正确的Email地址"
if [ "$GIT_COMMITTER_EMAIL" = "$OLD_EMAIL" ]
then
    export GIT_COMMITTER_NAME="$CORRECT_NAME"
    export GIT_COMMITTER_EMAIL="$CORRECT_EMAIL"
fi
if [ "$GIT_AUTHOR_EMAIL" = "$OLD_EMAIL" ]
then
    export GIT_AUTHOR_NAME="$CORRECT_NAME"
    export GIT_AUTHOR_EMAIL="$CORRECT_EMAIL"
fi
' --tag-name-filter cat -- --branches --tags

3. 更改旧的邮箱，以及填写正确的用户名和邮箱，执行

4. 把正确历史 push 到 Github

git push --force --tags origin 'refs/heads/*'

5. 查看`git log` 检查push历史是否被更正，没有错误的话就可以删掉这个clone了

6. done

参考:

Python 使用 Mysql 存储 Emoji 表情

Mon, 20 Feb 2017 19:43:18 +0000

最近使用 Python 处理数据的时候遇到 mysql 存储 emoji 表情的问题，觉得可以总结一下。

一. 报错信息

Incorrect string value: '\xF0\x9F\x91\x8D' for column 'xxx'

二. 错误分析

从异常能看出这是编码的问题，当前的配置是数据库连接使用 utf8，字符集也是 utf-8。查阅资料发现，在 mysql 中 utf8 的字段只能存储 1 至 3 字节的字符，而 emoji 表情是使用 4 字节字符来表示的，这就导致 Incorrect string value 错误。

三. 解决办法

1. 使用 `utf8mb4` 编码存储数据，`utf8mb4 is a superset of utf8`

utf8mb4 向下兼容 utf8，在 Mysql 5.5.3 以上版本支持 utf8mb4

方法(1)

修改 mysql 配置. 编辑 my.ini 文件，之后要重启 mysql 服务

[client]
default-character-set = utf8mb4		# 客户端来源数据的默认字符集

[mysqld]
character-set-server = utf8mb4		# 服务端默认字符集
collation-server = utf8mb4_unicode_ci	# 连接层默认字符集

[mysql]
default-character-set = utf8mb4		# 数据库默认字符集

方法(2)

在 python 连接数据库和创建表时指定编码

import MySQLdb
# 连接
conn = MySQLdb.connect("127.0.0.1", "user", "passwd")
cursor = self.conn.cursor()
cursor.execute("SET NAMES utf8mb4")
cursor.execute("SET CHARACTER SET utf8mb4")
cursor.execute("SET character_set_connection = utf8mb4")

# 建库
cursor.execute('CREATE DATABASE IF NOT EXISTS %s CHARACTER SET utf8mb4 \ 
	COLLATE utf8mb4_unicode_ci' % dbname)

# 建表
cursor.execute('CREATE TABLE table(id int primary key, name char(10))') \
	ENGINE = InnoDB DEFAULT CHARSET = utf8mb4

可以查询 mysql 编码方式 show variables like 'character_set_%';

2. 使用正则表达式过滤 emoji 字符

#!/usr/bin/env python
import re

text = u'This dog \U0001f602'
print(text) # with emoji

emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           "]+", flags=re.UNICODE)
print(emoji_pattern.sub(r'', text)) # no emoji

关于 MHN 的一些部署介绍

Fri, 30 Sep 2016 14:32:18 +0000

简介

MHN (Modern Honey Network) 是一个开源软件，它集成了多种蜜罐，简化了蜜罐的部署，同时便于收集和统计蜜罐的数据。它包括

Sort: https://www.snort.org/
Suricata: http://suricata-ids.org/
Dionaea: http://dionaea.carnivore.it/, 它是一个低交互式的蜜罐，能够模拟MSSQL, SIP, HTTP, FTP, TFTP等服务 drops中有一篇介绍： http://drops.wooyun.org/papers/4584
Conpot: http://conpot.org/
Kippo: https://github.com/desaster/kippo, 它是一个中等交互的蜜罐，能够下载任意文件。 drops中有一篇介绍： http://drops.wooyun.org/papers/4578
Amun: http://amunhoney.sourceforge.net/, 它是一个低交互式蜜罐，但是已经从2012年之后不在维护了。
Glastopf： http://glastopf.org/
Wordpot： https://github.com/gbrindisi/wordpot
ShockPot： https://github.com/threatstream/shockpot, 模拟的CVE-2014-6271，即破壳漏洞
p0f： https://github.com/p0f/p0f

具体的介绍可以看 WooYun Drops 的一篇文章蜜罐网络

安装过程不再赘述，讲讲实际部署中遇到的一些问题

一些注意点

一

首先，MHN honeymap 是一个控制端，可以认为是“总部”，把它安装在一台机器上就好，它负责记录和显示所有子节点上的攻击数据，部署脚本也在这台机器上，想要部署一个蜜罐到多台服务器上，只要运行它提供的部署脚本就可以，安装和配置都会自动完成，结果会显示在这台控制端。

先上一个正常运行的页面

因为部署了差不多100台蜜罐分布在全球不同的地区，这里看上去还是蛮壮观的。红色的代表正在发起攻击的 ip 地理位置，黄色的代表受攻击方，也就是蜜罐的 ip ，显示结果是实时的。

这是统计信息，包括 TOP 5 IPs, TOP 5 ports, TOP 5 Honey Pots, TOP 5 Sensors, TOP 5 Attacks Signatures，所有记录都会保存在 Mongodb 数据库中，这里只是显示过去 24 小时的

二

MHN 的 HoneyMap 显示页面使用的是 3000 端口，控制页面运行在 80 端口，80 端口需要验证登录，3000 端口是开放的，建议用 iptables 对端口进行一些保护，需要注意的是，当利用脚本部署不同的蜜罐时，需要从这台服务器下载脚本和配置文件，这时候 80 端口不能被设置成不允许访问，不然没法部署成功。

三

Map 页面就是显示的地图，这里一开始点击会显示说 404，需要在配置文件把页面地址更改一下 vim /opt/mhn/server/config.py

把 HONEYMAP_URL = ':3000'

改成 HONEYMAP_URL = 'http://ip:3000'

ip 即为该服务器 ip

Deploy 页面即保存部署蜜罐的脚本，可以下拉选择不同的蜜罐，也可以自定义脚本。它提供的脚本不一定完全适用，有些情况需要自己更改一下。复制上面的 Deploy Command 到另外的机器上执行，完成后一般就会在 Sensors 显示新安装的蜜罐节点。

Attacks 页面显示的是具体的攻击情况，包括时间，节点，国家，源ip和源端口，使用的协议以及发生在哪个蜜罐上

Plyloads 页面显示一些攻击行为的 payload，包括 sql 注入，恶意扫描等，它会记录所有 url 访问

Rules 页面可以自定义一些触发规则，一般保持默认就好

Sensors 是各个蜜罐节点的情况，成功运行的蜜罐会在这里显示

Charts 页面会显示 ssh 蜜罐收集到的用户名密码等，这里显示的是 cowrie 捕捉到的一些 ssh 尝试登录，以及 top 用户名和密码

关于具体的蜜罐

cowrie

这是一个中等交互的SSH蜜罐，关于它的介绍在 Freebuf 上有一篇文章，如何安装如何配置在上面都有，不再赘述。如果运行出错，查看日志发现问题 > getDSAkeys - TypeError: must be long, not mpz

这是由于 Twisted 库不兼容引起的，解决办法是

$ cd cowrie/data
$ ssh-keygen -t dsa -b 1024 -f ssh_host_dsa_key

需要注意尽量不要将 22 端口暴露在公网，可以使用 iptables 转发到 cowrie 的运行端口，同时将正常的 ssh 服务运行在另外的端口。

dionaea

这是一个低交互式的蜜罐，能够模拟MSSQL, SIP, HTTP, FTP, TFTP等服务，安装过程参考上面的文章如果运行 > supervisorctl status

遇到问题

unix:///var/run/supervisor.sock refused connection

解决办法是

sudo supervisord -c /etc/supervisor/supervisord.conf
sudo supervisorctl -c /etc/supervisor/supervisord.conf

glastopf

glastopf 是一款低交互式 Web 蜜罐，它能记录包括 sql 注入，XSS 攻击等常见的 Web 攻击类型

suricata

网络入侵检测和阻止引擎这个蜜罐没有运行成功，后续解决掉问题可能会更新上来。

目前部署的就这几个蜜罐，其它的可能会根据需要安装部署，有时间的话会更新。

salt-ssh 配置使用

Thu, 15 Sep 2016 14:54:29 +0000

salt-ssh 是 Saltstack 框架下的一款批量化远程操作工具，具体介绍可以看这里关于 Saltstack，它是一款自动化运维工具，具体可以浏览官网，这里只介绍一下 salt-ssh 的使用。

salt-ssh 的配置很简单，在 /etc/salt/ 下修改 roster 文件，把需要管理的服务器 ip，用户名，密码按格式配置好即可 > vim /etc/salt/roster

server00:
 host: x.x.x.x
 user: root
 passwd: root
 
server01:
 host: x.x.x.x
 user: root
 passwd: root

然后测试一下能不能连通就好了 > salt-ssh ‘*’ test.ping

‘*’ 是指所有节点，想要单独某个节点的话指定就可以了 > salt-ssh server00 test.ping

可能需要验证是否接受密钥，不想被提示就加上参数 -i > salt-ssh ‘*’ test.ping -i

测试能够连通就可以执行命令了，使用参数 -r > salt-ssh ‘*’ -r ‘uname -a’ -i

这里要说的是配置文件里明文记录密码是十分不安全的行为，极端情况是某台服务器被入侵，发现了这个文件，恰巧又有大量服务器配置在这，相当于把机器送到黑客手上了。即使是加密后的密码也不安全，总之是用文件记录敏感信息都是不负责任的做法。

想要不在配置文件中记录密码，可以在执行命令的时候把密码作为参数 > salt-ssh ‘*’ –passwd ‘password’ -r ‘args’ -i

而配置文件里只要记录 ip 和用户名就可以

server00:
 host: x.x.x.x
 user: root
 
server01:
 host: x.x.x.x
 user: root

这样做的优点是不会在文件中泄露密码，缺点是假如每台机器密码不一样，执行起来会比较麻烦，各自取舍吧。也有通过 keys 验证身份，但测试之后发现还是得认证身份，这里就不提了。

Tips

其实直接在命令中指定密码依然十分危险，因为命令记录会把你出卖…可以执行一下

cat ~/.bash_history

所以涉及到输入密码的命令，可以在输入前键入一个空格，即按一下空格再正常输入命令，这样这条命令就不会被记录在历史里。

sqlite 执行删除操作后文件大小不变的解决办法

Sat, 27 Aug 2016 13:13:18 +0000

在用python对sqlite3数据库进行删除部分数据的操作后，数据库文件大小并没有改变，上网找了找原因，发现确实是这样 :

When an object (table, index, trigger, or view) is dropped from the database, it leaves behind empty space. This empty space will be reused the next time new information is added to the database. But in the meantime, the database file might be larger than strictly necessary. Also, frequent inserts, updates, and deletes can cause the information in the database to become fragmented - scrattered out all across the database file rather than clustered together in one place.

当一个对象（表，索引，触发器或视图）被从数据库中删除，留下一块空白空间。这块空间将被下一次新的信息添加到数据库中重复使用。但在此期间，数据库文件可能变得非常大。此外，频繁的插入，更新和删除可能会导在数据库中的信息成为零散的碎片分布在数据库中，而不是在一个地方聚集在一起。

解决办法是

在数据删除后，手动执行 “VACUUM” 命令

在数据库文件创建时，将 auto_vacuum 设置成 “1” 。

但是第二个方法有一定的限制，它只会从数据库文件中截断空闲列表中的页，而不会回收数据库中的碎片，也不会像VACUUM 命令那样重新整理数据库内容。实际上，由于需要在数据库文件中移动页， auto-vacuum 会产生更多的碎片。而且，在执行删除操作的时候，会产生一个.db-journal文件。使用 auto-vacuum 的前提是，数据库中需要存储一些额外的信息以记录它所跟踪的每个数据库页都能找回其指针位置。所以，auto-vacumm 必须在建表之前就开启。在一个表创建之后，就不能再开启或关闭 auto-vacumm。

在python中就执行

import sqlite3
conn = sqlite3.connect(dbfile)
sql = 'delete from table where ...'
cu = conn.cursor()
cu.execute(sql)
cu.execute('vacuum')
cu.close()
conn.close()

Python 解析 DNS 时 Resolver instance has no attribute 'connectionLost' 异常解决

Fri, 26 Aug 2016 16:32:18 +0000

某个项目中用到dns相关的模块，在长时间运行后偶尔抛出异常:

Resolver instance has no attribute 'connectionLost'

Unhandled Error
Traceback (most recent call last):
  File "dns.py", line 174, in <module>
    reactor.run()
  File "/usr/lib/python2.7/dist-packages/twisted/internet/base.py", line 1169, in run
    self.mainLoop()
  File "/usr/lib/python2.7/dist-packages/twisted/internet/base.py", line 1181, in mainLoop
    self.doIteration(t)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/pollreactor.py", line 167, in doPoll
    log.callWithLogger(selectable, _drdw, selectable, fd, event)
--- <exception caught here> ---
  File "/usr/lib/python2.7/dist-packages/twisted/python/log.py", line 84, in callWithLogger
    return callWithContext({"system": lp}, func, *args, **kw)
  File "/usr/lib/python2.7/dist-packages/twisted/python/log.py", line 69, in callWithContext
    return context.call({ILogContext: newCtx}, func, *args, **kw)
  File "/usr/lib/python2.7/dist-packages/twisted/python/context.py", line 118, in callWithContext
    return self.currentContext().callWithContext(ctx, func, *args, **kw)
  File "/usr/lib/python2.7/dist-packages/twisted/python/context.py", line 81, in callWithContext
    return func(*args,**kw)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/posixbase.py", line 599, in _doReadOrWrite
    self._disconnectSelectable(selectable, why, inRead)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/posixbase.py", line 260, in _disconnectSelectable
    selectable.readConnectionLost(f)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/tcp.py", line 257, in readConnectionLost
    self.connectionLost(reason)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/tcp.py", line 433, in connectionLost
    Connection.connectionLost(self, reason)
  File "/usr/lib/python2.7/dist-packages/twisted/internet/tcp.py", line 277, in connectionLost
    protocol.connectionLost(reason)
  File "/usr/lib/python2.7/dist-packages/twisted/names/dns.py", line 1908, in connectionLost
    self.controller.connectionLost(self)
exceptions.AttributeError: Resolver instance has no attribute 'connectionLost'

查阅相关资料发现不是自己代码的问题，而是 Twisted 库中的 twisted.names.client.Resolver 类没有 connectionLost 方法，而这个方法本身并不需要做任何事，于是解决办法就是，找到 twisted.names.client.Resolver，在最后添加 connectionLost 方法：

def connectionLost(self, p):
    pass

异常解决。

另外，还遇到

Traceback (most recent call last):
Failure: twisted.names.error.DNSQueryTimeoutError:

异常，这个也很奇怪，因为一开始并没有出现，而是运行了一段时间后对某些特定的查询会出现，解决办法是导入dns查询超时异常类，然后捕捉该异常 from twisted.names.error import DNSQueryTimeoutError

参考:

https://twistedmatrix.com/trac/ticket/5224 http://stackoverflow.com/questions/15944617/handle-error-on-a-simple-dns-twisted-client

Python2.7 中 UnicodeEncodeError:'ascii' codec can't encode characters 异常解决

Mon, 15 Aug 2016 14:32:18 +0000

Python的编码问题一直是一个它的一个缺点，特别是在处理中文上。Python提供了Unicode, str, utf-8, ascii等编码的相互转换，然而还是烦琐易错。进行sqlite3数据读取并存入文件时碰到了错误 : UnicodeEncodeError: 'ascii' codec can't encode characters in position 19-22: ordinal not in range(128)

原因是数据库中含有中文字段，Unicode编码与ASCII编码的不兼容，这个Python脚本文件是由UTF-8编码的，同时Sqlite3数据库存取的也是UTF-8格式，而Python默认环境编码是Ascii:

>>> import sys
>>> print sys.getdefaultencoding()
ascii

Python调用ascii编码解码程序去处理字符流，当字符流不属于ascii范围内，就会抛出异常ordinal not in range(128)，解决方法有三种

方法一

更改默认编码

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

把这段代码加在Python文件头部，即可解决异常。

方法二

在打开文件时指定编码

import codecs
fp = codecs.open('output.txt', 'a', 'utf-8')
fp.write(data)
fp.close()

方法三

直接用系统输出byte，不用print

sys.stdout.buffer.write(data)

或者

os.write(sys.stdout.fileno(), data)

Ganglia 扩展 Python模块

Sat, 30 Jul 2016 14:32:18 +0000

Ganglia支持很多模块的扩展，这里介绍python模块的扩展

环境需求

Ganglia 3.1.x
Python 2.5+
Python开发头文件

配置

以下两个目录必须存在，没有则创建 /usr/lib/ganglia/python_modules/ /etc/ganglia/conf.d/

修改配置文件

vim /etc/ganglia/gmond.conf 在modules{}中添加 modules { module { name = "python_module" path = "/usr/lib/ganglia/modpython.so" params = "/usr/lib/ganglia/python_modules" } module { #other modules }
添加include('/etc/ganglia/conf.d/*.pyconf') include ('/etc/ganglia/conf.d/*.conf') include ('/etc/ganglia/conf.d/*.pyconf')

放置 .py 及 .pyconf

在/usr/lib/ganglia/python_modules/下放置python模块代码(.py) root@ubuntu:~# ls /usr/lib/ganglia/python_modules/ process_count.py
在/etc/ganglia/conf.d/下放置python模块配置文件(.pyconf) root@ubuntu:~# ls /etc/ganglia/conf.d/ es_syslog-ng.pyconf 重启服务就可以了 service ganglia-monitor restart

python模块模板

模块中必须包含以下的三个方法

def metric_init(params):
def metric_cleanup():
def metric_handler(name):

前面两个方法的名字必须是一定的，最后一个metric_handler可以任意命名，具体可以看example

import random
descriptors = list()
Random_Max = 50
Constant_Value = 50

def Random_Numbers(name):
    '''Return a random number.'''
    global Random_Max
    return int(random.uniform(0,Random_Max))

def Constant_Number(name):
    '''Return a constant number.'''
    global Constant_Value
    return int(Constant_Value)

def metric_init(params):
    '''Initialize the random number generator and create the
    metric definition dictionary object for each metric.'''
    global descriptors
    global Random_Max
    global Constant_Value
    random.seed()

    print '[pyexample] Received the following parameters'
    print params

    if 'RandomMax' in params:
        Random_Max = int(params['RandomMax'])
    if 'ConstantValue' in params:
        Constant_Value = int(params['ConstantValue'])

    d1 = {'name': 'PyRandom_Numbers',
        'call_back': Random_Numbers,
        'time_max': 90,
        'value_type': 'uint',
        'units': 'N',
        'slope': 'both',
        'format': '%u',
        'description': 'Example module metric (random numbers)',
        'groups': 'example,random'}

    d2 = {'name': 'PyConstant_Number',
        'call_back': Constant_Number,
        'time_max': 90,
        'value_type': 'uint',
        'units': 'N',
        'slope': 'zero',
        'format': '%hu',
        'description': 'Example module constant (constant number)'}

    descriptors = [d1,d2]
    return descriptors

def metric_cleanup():
    '''Clean up the metric module.'''
    pass

#This code is for debugging and unit testing    
if __name__ == '__main__':
    params = {'RandomMax': '500',
        'ConstantValue': '322'}
    metric_init(params)
    for d in descriptors:
        v = d['call_back'](d['name'])
        print 'value for %s is %u' % (d['name'],  v)

Ubuntu Server 安装配置 Ganglia

Fri, 29 Jul 2016 17:54:29 +0000

Ganglia是一个开源的集群监控系统，它基于分层设计，使用广泛的技术，如XML数据代表，便携数据传输，RRDtool用于数据存储和可视化，可以方便地对机器性能及系统运行状态进行可视化监控，广泛应用于对Hadoop，Spark等分布式系统的监测管理。

简介

Ganglia的核心包含gmond、gmetad以及一个Web接界面。主要是用来监控系统性能，如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资源，提高系统整体性能起到重要作用。

Gmond

Ganglia monitoring，它是一个守护进程，用于收集机器内的metric，它还可以接受别的node发送过来的metric，并且保存一小段时间（几十秒），运行在每一个需要监测的节点上，收集监测统计，发送和接受在同一个组播或单播通道上的统计信息。Gmond可以扮演下面三种角色：

收集metric并发送出去，同时也接收别的node发送过来的metric；
只采集metric并发送出去（关键字 deaf）；
只接收别的机器发送过来的metric（关键字 mute）；默认情况下，gmond监听8649端口，用来发送和接收udp，tcp数据包。

Gmetad

Ganglia meta daemon，也是一个守护进程，定期检查gmonds ，从那里拉取数据，并将他们的指标存储在RRD存储引擎中。它可以查询多个集群并聚合指标。默认情况下gmond通过multicast的方式发送自己采集到的数据，整个Multicast group里的node都拥有整个cluster的全部metrics。而gmetad可以从一个cluster的任意一个node拿到整个cluster的全部metric并记录到rrd数据库。默认情况下，gmetad监听8651端口，从这里可以拿到gmetad存放的最新metric数据，也可以给更高层的gmetad使用；监听8652端口，提供数据查询接口，供web使用。

RRD

运行在主节点的一个工具，轮询调度数据库，用于存储数据和可视化时间序列。RRD也被用于生成用户界面的web前端。

安装

安装环境

Ubuntu Server 12.04 (10.24.84.23 master node) Ubuntu Server 16.04 (10.24.84.24 client node) 均需要安装apache服务

主节点 master node

sudo apt-get install ganglia-monitor 
sudo apt-get install rrdtool 
sudo apt-get install gmetad 
sudo apt-get install ganglia-webfrontend

子节点 client node

sudo apt-get install -y ganglia-monitor

配置

主节点 master node

修改 gmetad 配置

vim /etc/ganglia/gmetad.conf

# data_source,cluster的名字,可以自定义，但要与gmond配置对应起来
data_source "my cluster" localhost

修改 gmetad 配置

vim /etc/ganglia/gmond.conf

# 修改 cluster name
cluster {
  name = "my cluster" ## use the name from gmetad.conf
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}
# 修改 udp_send_channel，添加 host
udp_send_channel = {
  # mcast_join = xxx.xxx.xxx.xxx
  host = localhost
  port = 8649
  ttl = 1
}
# 修改 udp_recv_channel，注释掉 mcast_join, bind
udp_recv_channel = {
  # mcast_join = xxx.xxx.xxx.xxx
  port = 8649
  # bind = xxx.xxx.xxx.xx
}

重启 ganglia-monitor 和 gmetad 服务

service gmetad restart
service ganglia-monitor restart

子节点 client node

修改 gmetad 配置

# 修改 cluster name
cluster {
  name = "my cluster"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}
# 修改 udp_send_channel host
udp_send_channel {
  # mcast_join = xxx.xxx.xxx.xxx
  host = master node ip
  port = 8649
  ttl = 1
}
udp_recv_channel {
  # mcast_join = xxx.xxx.xxx.xxx
  port = 8649
  # bind = xxx.xxx.xxx.xx
}

重启 ganglia-monitor 服务

service ganglia-monitor restart

配置apche2

复制到apache www目录

sudo cp -r /usr/share/ganglia-webfrontend /var/www/ganglia

重启apache服务

sudo /etc/init.d/apache2 restart

使用

直接访问http://10.24.84.23/ganglia就能看到ganglia成功运行

Ubuntu 16.04 安装 Glastopf

Fri, 22 Jul 2016 14:32:18 +0000

glastopf是一个开源的低交互式Web应用蜜罐，用python编写，可以在各种操作系统上部署，可以方便监控和捕获恶意文件样本，攻击方式等，后期也有开源脚本利于统计分析，同时方便安装配置。

项目地址

https://github.com/mushorg/glastopf

安装依赖

python要求2.7+，pip要求2.7+

pymongo

pip2.7 install --upgrade pymongo

numpy and other deps

pip2.7 install numpy
pip2.7 install chardet sqlalchemy lxml beautifulsoup pyOpenSSL requests MySQL-python
pip2.7 install scipy

(be warned: pip installs software from alpha centauri so expect some delays. also compiling can take a while.)

antlr

wget http://www.antlr3.org/download/antlr-3.1.3.tar.gz
tar xzf antlr-3.1.3.tar.gz
cd antlr-3.1.3/runtime/Python
python2.7 setup.py install

SKLearn

git clone git://github.com/scikit-learn/scikit-learn.git
cd scikit-learn
python2.7 setup.py install

evnet

git clone git://github.com/rep/evnet.git
cd evnet
python2.7 setup.py install

或者直接安装

sudo apt-get update
sudo apt-get install python2.7 python-openssl python-gevent libevent-dev python2.7-dev build-essential make
sudo apt-get install python-chardet python-requests python-sqlalchemy python-lxml
sudo apt-get install python-beautifulsoup mongodb python-pip python-dev python-setuptools
sudo apt-get install g++ git php5 php5-dev liblapack-dev gfortran libmysqlclient-dev
sudo apt-get install libxml2-dev libxslt-dev
sudo pip install --upgrade distribute

安装PHP sandbox

cd /opt
sudo git clone git://github.com/mushorg/BFR.git
cd BFR
sudo phpize
sudo ./configure --enable-bfr
sudo make && sudo make install

在/etc/php/5/cli/php.ini添加 zend_extension = /usr/lib/php5/20090626+lfs/bfr.so 或者 zend_extension = /usr/lib64/php/modules/bfr.so

安装Glastopf

sudo pip install glastopf 或者编译安装

sudo git clone https://github.com/mushorg/glastopf.git
cd glastopf
sudo python setup.py install

配置运行

sudo glastopf-runner 在目录下会产生db, data, log文件夹和一个glastopf.cfg配置文件，可以配置ip和端口，注意端口不要冲突 db存放本地sqlite数据库文件运行glastopf-runner 浏览器访问Web 可以看到如下输出

2013-03-14 08:34:08,129 (glastopf.glastopf) Initializing Glastopf using "/opt/myhoneypot" as work directory.
2013-03-14 08:34:08,130 (glastopf.glastopf) Connecting to main database with: sqlite:///db/glastopf.db
2013-03-14 08:34:08,152 (glastopf.modules.reporting.auxiliary.log_hpfeeds) Connecting to feed broker.
2013-03-14 08:34:08,227 (glastopf.modules.reporting.auxiliary.log_hpfeeds) Connected to hpfeed broker.
2013-03-14 08:34:11,265 (glastopf.glastopf) Glastopf started and privileges dropped.
2013-03-14 08:34:32,853 (glastopf.glastopf) 192.168.10.85 requested GET / on 192.168.10.102
2013-03-14 08:34:32,960 (glastopf.glastopf) 192.168.10.85 requested GET /style.css on 192.168.10.102
2013-03-14 08:34:33,021 (glastopf.glastopf) 192.168.10.85 requested GET /favicon.ico on 192.168.10.102

参考

https://github.com/mushorg/glastopf/blob/master/docs/source/installation/installation_ubuntu.rst http://seccentral.blogspot.com/2013/02/how-to-install-glastopf-on-centos-6-in.html

Coding on 诗与胡说

QQ 空间爬虫之爬取说说

接口地址

所有说说

详细信息

点赞情况

数据分析

数据库设计

说说表qq_moods

评论表qq_moods_reply

点赞表qq_moods_like

核心代码

解释

流程图

结束语

QQ 空间爬虫之爬取留言

接口分析

数据分析

踩坑

坑一

坑二

数据库设计

结束语

QQ 空间爬虫之获取好友

获取好友

普通信息

接口地址

数据形式

详细信息

接口地址

数据形式

数据库设计

结束语

QQ 空间爬虫之模拟登录

1. 登录流程

2. 常规登录

3. 从 cookies 登录

3.1 保存 cookies

3.2 读取 cookies

3.3 cookiejar 对象转字符串

4. g_tk 值

5. 检查登录

6. 后续

分享几个有用的小程序

1. 一個改良的 Ping

2. 随机密码生成脚本

3. 不定期更新

Github 没有记录 Contributions 的解决

1. 重新克隆一个repo

2. 新建一个脚本

3. 更改旧的邮箱，以及填写正确的用户名和邮箱，执行

4. 把正确历史 push 到 Github

5. 查看git log 检查push历史是否被更正，没有错误的话就可以删掉这个clone了

6. done

Python 使用 Mysql 存储 Emoji 表情

一. 报错信息

二. 错误分析

三. 解决办法

1. 使用 utf8mb4 编码存储数据，utf8mb4 is a superset of utf8

方法(1)

方法(2)

2. 使用正则表达式过滤 emoji 字符

关于 MHN 的一些部署介绍

简介

一些注意点

一

二

三

关于具体的蜜罐

cowrie

dionaea

glastopf

suricata

salt-ssh 配置使用

sqlite 执行删除操作后文件大小不变的解决办法

Python 解析 DNS 时 Resolver instance has no attribute 'connectionLost' 异常解决

Python2.7 中 UnicodeEncodeError:'ascii' codec can't encode characters 异常解决

Ganglia 扩展 Python模块

环境需求

配置

说说表`qq_moods`

评论表`qq_moods_reply`

点赞表`qq_moods_like`

3.3 `cookiejar` 对象转字符串

4. `g_tk` 值

5. 查看`git log` 检查push历史是否被更正，没有错误的话就可以删掉这个clone了

1. 使用 `utf8mb4` 编码存储数据，`utf8mb4 is a superset of utf8`