一个开源的正文提取程序

bjzhush · 发表于 2013-9-28 19:08:26

本帖最后由 finder 于 2014-12-28 11:24 编辑

最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
有篇blog对这个介绍的比较详细,我就不在这里赘述了

这里可以看详细的介绍以及DEMO :

http://urlshort.shuaizhu.com/1k2

复制代码

这里你可以输入一个URL进行测试:

http://urlshort.shuaizhu.com/1k3

复制代码

这里你可以直接下载程序安装到本地:

http://urlshort.shuaizhu.com/1k4

复制代码

PS:

2013年09月29日17:47:27 补充

我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码

只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!

bjzhush · 发表于 2013-9-28 22:18:29

感谢 @mj23zyb 帮我编辑URL格式,以前论坛用的少,这个还不太熟,以后我会注意

阴天的下午 · 发表于 2013-9-28 22:31:06

不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。

bjzhush · 发表于 2013-9-28 22:35:44

阴天的下午发表于 2013-9-28 22:31
/ W9 f6 `0 I5 f; y% ]$ ^不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。 ...

这个东西做一个接口非常容易的
   $title = $Data['title'];
      $content = $Data['content'];
      include 'template/reader.html';
这是index.php的最后的部分,只需要把include所在的一行注释掉,然后加一行
      echo json_encode($Data);
就可以以json格式返回,那么需要批量的时候,直接每次调取就可以了
如果还不清楚,可以继续问

阿百川 · 发表于 2013-9-29 07:55:00

自从用过这个之后，自己用的模板就全修改了一遍

JasonLee · 发表于 2013-9-29 10:32:56

感谢真心很不错的希望楼主以后能继续分享类似的

bjzhush · 发表于 2013-9-29 11:07:47

阿百川发表于 2013-9-29 07:55
- m/ G* j0 d% l! l6 e W. e! L自从用过这个之后，自己用的模板就全修改了一遍

什么意思呢? 为什么要修改模板

阿百川 · 发表于 2013-9-29 11:42:16

bjzhush 发表于 2013-9-29 11:07
7 s0 D- w! V& v9 n什么意思呢? 为什么要修改模板

防止被这种程序提取内容

bjzhush · 发表于 2013-9-29 11:53:13

阿百川发表于 2013-9-29 11:42 ! Z d: U! g% P& X
防止被这种程序提取内容

真的要扒你的站,你是防不住的
不怕贼偷,就怕贼惦记,哈哈

bjzhush · 发表于 2013-9-29 17:48:25

阴天的下午发表于 2013-9-28 22:31 : y- k/ H! o A+ A% |+ A
不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。 ...

我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码

只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!

今天刚刚发现的

		自动登录	找回密码
密码			立即注册

Google-Bing-Mediago-Criteo开户	⚡️按条S5代理⚡️静态⚡️独享⚡️5G	广告专用虚拟卡/U充值/高返点	皇家代理IP⚡️#1性价比⚡️
Mediabuy⚡️玩家开户首选	【鲁班跨境通-自助充值转账】	FB/GG/TT❤️官方免费开户	Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理	*开户投流-724h❤️人工在线**	【官方】❤️搜索套利买量投流开户	独立站⚡️开户投放
⚡️AdsPower:安全不封号,高效自动化	Google FB TK游戏代投	⚡️E.PN 虚拟卡⚡️	BINOM TRACKER 60% OFF!
比Adplexity还好用的Spy工具	ADPLEXITY + ADVERTCN	7200W全球动态不重复住宅IP代理	虚拟信用卡+独立站收款
全球虚拟卡, 支持U充值	Facebook 批量上广告	尤里改 - FB 稳定投放	免费黑五教程（持续更新、欢迎交流）
FB 三不限源头 - 自助下户充值转款	各种主页、账单户、BM户（优势）	IPCola原生住宅IP⚡️$1.8/条双ISP	FB资源，账单户，分享户，国内一手
TK加白户/二解户/FB海外户/GG老户	海外CL企业户源头	FB虚拟卡⚡️消费越多返现越多	最大欧洲Nutra网盟BA找量
FB广告Spy工具⚡免费试用✅	FB个号1块一个	TikTok2审户/老户/国内外端口/加白	GG,FB,TK, 欧美源头, 欢迎合作❤️
FB企业户海外户,授信户,TK加白户	联盟收款/海外资金下发/服贸结汇	域名防红⚠斗篷工具/可试用3天	广告位出租
8500万高质量住宅IP，助力各种需求	虚拟卡返佣1%，国内持牌机构

[软件工具] 一个开源的正文提取程序

评分

浏览过的版块

社区QQ达人