|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。( O: }0 j8 I i& ?7 E
很简单:- w' ~& A3 d- r: a* a
1.打开amazon.com的robots.txt文件,找到sitemap:! M. {0 _& F; X" x l0 u& G
http://www.amazon.com/robots.txt
9 i/ R* y2 d5 ?% e8 m2 S$ C4 }3 f0 q- # Sitemap files6 L7 E9 E/ v) q" P9 o$ K0 K
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml
' J8 w! \8 z; f' x7 m - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml% e5 r# {% P& H/ {" q* d! N
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
( P6 b5 O. [* e, M+ A# K - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
9 Y( W% U C; x+ Z7 V1 f - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
4 `' T- Q2 M/ A - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
; G" D; H3 X) O. S - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
/ V9 z( r% k" \/ g. G - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
7 [9 _9 D5 F8 w; W# g - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
7 O: A" Q" s' m7 e1 i+ ?" H3.下载索引压缩文件后解压。
$ K5 u7 f' o/ @' d, v4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。, p' x" [: _9 h3 F a
5.下载后解压这些sitemap压缩文件。
" o, f/ N* l: B4 O# u. X6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
$ o# ~$ @% x8 a9 o6 i5 T3 @& K, f7.没有什么了吧,剩下就由你自己发挥弄吧。
7 {9 [' X* p3 _+ a6 M q, g
$ p, @: g0 F" K- j) q8 t: z& k# R感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。/ N; N# B6 b, ]- u4 T0 b
X5 E. Q- M4 {+ ]3 S- n各位喜欢的赶快顶我一下吧。- Q4 U# e$ ?7 \7 N4 m& L0 y9 {2 W
# J7 M5 M/ v, }0 R1 u( a, y! \
|
评分
-
查看全部评分
|