分享一个这个月刚写好的BT资源搜索引擎

最近完成了一个BT搜索引擎。爬虫是用Go写的。这里开源一个Node.js的版本dhtspider

爬虫运行在一个月5美金的vps上,Node.js版本CPU吃不消,CPU占用常年在120%-150%,时不时会被运营商杀进程。GO版本运行良好,CPU占用基本不会超过60%。

技术文档在这里DHT爬虫

Bittorrent DHT方面的现在都搞定了,一天可以爬300万以上的unique infohash,50万左右的metainfo。现在在搞edonkey Kad这方面的,资料比较少,有没有志同道合的同学交流一下?

共 16 个回复


qwsaeda

下载看看先

# 0

hmly

没诚意,只开源nodejs版本

# 2

nuokesasi

还以为golang版本的开源呢

# 3

luxor

楼主是高手,索引的数据量估计是全网最多的了,不过我担心这个有没有法律风险?

# 4

knift

还好,有些老外会发邮件要求删除资源,删了就是。
资源收集总数肯定赶不上btdigg,人家的爬虫都跑了10年了。
运行几个月了,爬虫一天收集不到50w资源了,也就18w左右,以后估计会稳定在10w左右。

dht网络入侵率太高也有点受不了,带宽压力也大。。

# 5

markg1990

方便里留个联系方式 吗,交流一下技术。

# 6

proudlily

不是可以看小电影?

# 8

knift

@proudlily 多得很,番号神器。自从做了这个,我的硬盘已爆炸。

# 9

luxor

楼主用的啥VPS,速度好快啊

# 10

knift

@luxor vultr日本节点。。。其实没linode快,只是图个便宜

# 11

luxor

楼主怎么解决存储问题?上亿条数据得有几十上百G吧?那个数据库扛得住

# 12

shesuyo

是不是发错社区了,感觉应该发去node社区的。。

# 13

RedMothball

可不可以开源golang版本的?

# 14

floydzhang

@knift 很棒的项目!我们正在做一套Golang工程师的实战项目课程,不知道是否有兴趣参与,QQ:345777566 谢谢~

# 15