本帖最后由 finder 于 2014-12-28 15:24 编辑 4 j: H. S2 U/ g) I$ g + D% q: W. v1 d5 f: s1 V 以前自己写过一个采集阿里巴巴商家email,电话,公司名称和职位的一个爬虫程序。感觉这个邮件采集程序的原理和我原来采用的一样,都是采用多线程,发起httpget请求,对返回结果用正则表达式匹配href,和自己需要找的邮件,电话啥的。然后再以这个href List为基础继续发起http get请求,如此,循环。则可以爬遍整个互联网。这是小弟自己的看法,望大神多多指点! ; G7 R4 t3 U) f! G( y 4 M$ t3 B) w5 _: w- X; v" v email_spider是使用比较多的一个邮箱采集程序。官方网址是:
http://email.spider.gsa-online.de/
复制代码
目前程序最新版本是V7.00. / J3 m7 Q) c) {* h: ]8 } 程序的功能包括:/ A# t! r( L3 U
•从起始网站提取电子邮件, q/ w- Z: g' f/ w6 r
•除了电子邮件采集,电话和传真号码,您可以搜索5 a+ A, B8 V0 I+ I
•自动化发送电子邮件到您的新客户 " H9 B5 f3 ]; P' [6 H; f•收获电子邮件与搜索引擎的帮助下(300+包括) * B5 i! f+ c' g9 H d4 o( \•支持HTTPS网站! q% e3 ~# [1 r/ Y5 S# Y+ y
•支持SSL唯一的电子邮件服务提供商(如谷歌邮件) 9 A! a; r& b- m) N- Y' A•内部SNMP服务器直接发送电子邮件 2 t* z- k. M- O, M•JavaScript的分析,找出保护的电子邮件地址; t" E8 N4 z2 e* r! I2 \
保护•反蜘蛛引擎(例如随机用户代理) ( y' V. ?+ E# S9 C) b4 b8 x: Q•收集电子邮件,它们的附加数据(如地址) ( o! W( X# L2 g•许多过滤器只能提取你想要的电子邮件6 H+ s$ p3 V3 w+ p" [0 ?2 a1 M
•非常快的处理(100个线程,你可以很容易地提取500个新邮件一分钟)9 f( g& t' O* ~ v
•多语言支持(现在的英语和德语) $ G f6 u& q0 j" {7 U F6 ?7 Q/ l; @& E8 u
2 `2 c$ W0 M# V6 o+ k 这次分享的 email_spider是V5.3的crack版本,也几乎包含了上边所有的功能,可以从指定网址开始收集,也可以输入关键字收集,我在虚拟机中跑了一天,收集了大量的email。我用的虚拟机的配置是521M内存的,如果分配的大,可能获取的更多。如果想要收集更多,可以在多台vps上跑。 m1 w& k; i/ w8 t6 c/ b; b % l2 m# a4 B/ z ) ^4 H4 d9 O' ?6 Y1 @9 `% I/ N 程序跑起来比较稳定: 8 v- ]; c D5 v& \4 o2 T 7 W. h% ^* ]. @) A
/ C% @ c& k6 ]( l
程序安装步骤:9 Z, G2 }9 B1 U0 O, J
1) 添加如下内容到hots文件中7 x! M. V) E& Z g
, x( t1 b! v6 [' [- n
127.0.0.1 www.findsoftware.eu / Q9 M* l3 Y4 d; Y& e127.0.0.1 findsoftware.eu 9 O# P8 o8 X N: k) `# k* J, h127.0.0.1 www.rostock-schwarz.de + G: q0 F! k/ \9 L2 i$ y127.0.0.1 rostock-schwarz.de / B7 q) e U$ f0 m) H: I127.0.0.1 www.gsa-online.de 5 o& o: S5 y) _* _+ h0 F( c127.0.0.1 gsa-online.de- N- l, f2 e4 C& }, `+ b
0 t9 G' Y2 j. _7 R' u7 F# [! q# @: T9 n4 W- g
2)执行 email_spider.exe . L. L6 W% c* O. m2 O' }% I2 H9 t1 x4 ^# v% |
& g* ^! N9 x, Q5 W( U- f, N
3) 要求注册时,输入用户名和密码。 5 b5 y F# ?9 ~6 V, ^# |) O, x/ h! L' K1 C" Y
Your license name is: MKDEV TEAM : `9 z/ Z! d3 j' y, x/ S9 rYour license code is: L1E1-1437-I93N-L1KL5 O1 \% ^8 H: w0 M" B1 @1 f% a