本帖最后由 finder 于 2014-12-28 11:24 编辑
4 b7 T" K5 |; t% o `4 j7 B) t: { M) x$ ~/ r3 S* E. L
最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,% z- g6 d$ i% Y- E" ~, o f. `
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
! L. o% S# j5 f" u有篇blog对这个介绍的比较详细,我就不在这里赘述了. O2 m6 ?% W' f- E
8 `3 W2 T; ^, l) ~这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:
1 m6 n: `1 f! p; K" R4 G5 s+ A: h1 d2 `5 w) r- T5 Y% j6 N
2013年09月29日17:47:27 补充 * A2 ?; B+ A6 |2 m& E3 w B
! y. Z) l/ x6 Z. w* X( R3 s9 ~9 ^
6 t2 H3 ]; [2 z! K, \/ P0 s1 R, T# S! z0 q5 q3 {! G
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
! M0 i. u8 J9 u! T7 g5 F; t0 R2 H5 V. ^* }$ H# `4 _1 J
* @5 B& s, r V$ E; |
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!3 o+ _3 `1 s5 q. t) Y7 ~+ E
# w- G# i+ O; M+ T
$ @+ T) y, y# D2 o0 `+ g! u |