周末在家练手用go写的一个笑话爬虫,发出来大家笑笑,不知道算不算广告,如果算的话麻烦站长删除。

忙活了2天,不知道算不算广告,如果算的话麻烦站长删除。点我访问

周末在家练手用go写的一个笑话爬虫,主要是为孩子妈在家带孩子解闷,所以手机上看也的话,界面也还凑合。 主要使用了技术: golang mongodb mgo bootstrap beego 自己实现了一套简单的spider,包含调度器,蜘蛛,过滤器,存储器,使用了开源的goquery,以及mgo(用于连接mongodb),WEB展现为beego。

共 33 个回复


captain

你这只是专门抓取特定网站的吧?

# 0

forbe

目前还比较简陋,不支持自定义ua,也没有将cookie带进去,但是可以扩展,比如增加一个新网站只需要增加一个spider就好了

# 1

forbe

嗯,可以漫游,这是可配置的,我只写死了抓某几个网站的某个页面。

# 2

forbe

因为我用的是阿里云,所以还不太敢抓太多。现在每天可以更新2000条笑话(包括图文),现在图片也没有抓到本地。因为空间只有20G。恐怕不太够。呵呵。

# 3

dingjial

不错! 我也写个练练手.

就花了两天吗?!

# 5

forbe

嗯,差不多吧。你可以用gocrawl。我后来发现这个也不错。

# 6

laoshe

不错

# 7

TinMan

代码会考虑开源吗

# 8

forbe

可以啊,你要给我留个邮箱吧。代码特别少,很简单的。

# 9

wheatj

forbe 也请发一我一份吧, 多谢啦

# 10

wheatj

邮箱 :wheatj#126.com

# 11

aprilsky

恩,不错,也给我发一份吧,谢了。 2522796025@qq.com

# 12

illzxj

刚开始学习,也给我发一分看看吧~114877850@qq.com

# 13

popoy

刚开始学习,希望也发我一份看看~1107022013@qq.com

# 14

WytheOnly

求代码,最好传到github上。。。。449006124@qq.com 3Q

# 15

wuzhongxing

刚开始学习,能分享一份吗?1992342102@qq.com, 3x

# 17

itlu

学习代码留个邮箱 3407125@qq.com

# 18

alexsino

forbe 也请发一我一份吧, 多谢啦, 726867081@qq.com

# 19

henson

可以发我一份吗?henson.lu@gmail.com,学习下,谢谢

# 20

spike8800

给我一份代码吧, 250702100@qq.com 谢谢

# 21

yygo

也给我一份吧,2206483@qq.com,谢谢了~

# 22

forbe

这么多人要呀。我干脆分享到百度云好了。一会贴个链接过来。 enter image description here

enter image description here

enter image description here

# 23

forbe

http://pan.baidu.com/s/1kTE7MJH

这个只是crawler,不包含网站部份。可以编译, 如果打开了mongodb则可以自动抓取存储了。网站怎么展现其实就看各位爱好了。

将就着看呗。谢谢各位!

# 24

spike8800

我想学习一下网站怎么弄,能把网站的全部代码给我吗?如果不方便的话,给我介绍一个全部开源的网站代码吧,我对web不了解,想全面学习一下。

# 25

jimmykuu

这个网站就是开源的,看最底部的GitHub链接。

# 26

forbe

网站就是用beego啦,很简单的。

# 27

nanjishidu

抓取的时候做过编码转换吗,比如GB2312 转UTF8,我用的icov-go 抓取的内容有时候是不完整的?

# 28

team111

问一下,代码截图上 那个是用的什么编辑器,还有箭头是用什么工具做的,看着蛮舒服

# 29

forbe

用的everedit,非常好的国产编辑器。

# 30

85437898

hi,请问你的微信朋友圈 是如何抓取的 请教一下 ,微信的朋友圈 用的是 什么协议 可以自己写程序 自己登录抓取吗 我的 邮箱 958230839@qq.com

# 31