本帖最后由 finder 于 2014-12-28 11:24 编辑 ; a# G, h" ^* \0 W0 N" y* ^; n
) l* e0 w/ e9 W# H 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
3 t, M n3 p8 a' w: w9 V做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
: E( H; V& c1 Y% }. F* E有篇blog对这个介绍的比较详细,我就不在这里赘述了
2 r. L1 t" J3 ]3 ]' T6 Q6 x$ J: x7 u; d) Y8 y; M) |
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:* O: N: {6 M' N, B1 c6 U
2 i& w$ I; L/ Z$ o
2013年09月29日17:47:27 补充 + Q. [- {) \( g7 _( j. \7 Y; ^
+ w0 H% `$ _$ |# N
4 \; H: O( J( \; I6 R) a- C; P, R6 l6 V% j9 B& z" ?2 c& S
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 2 T9 M2 T1 _3 z) \( Y ?$ Q0 E
8 B% _: l2 d, U4 E6 x
J3 T, v# C. A& W
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!
" `( ~0 W' D& }6 |( G# B
7 z; S9 Y. {# Z8 L5 G" r' x
3 u2 o" v6 ]& P$ t0 I& C/ F. `) @ |