水淼万能文章采集器是一款简单易用的文章采集工具,用户只需要输入关键词就能够快速采集主要搜索引擎的新闻源和泛网页,再也不用为了查找文字而到处翻网页了。水淼万能文章采集器不仅具有采集速度快、操作简单的特点,文章采集器还可以精确提取网页里的正文部分保存为文章,并且支持去标签、链接、邮箱等格式化处理,将纯文字的结果展示给用户,免去了用户二次处理文字的麻烦。
使用教程
1、点击“关键词采集文章”按钮
2、选择搜索引擎及类型
3、输入搜索词语
4、选择输出结果的保持目录及保持对象
5、点击“开始采集”
6、文章输出
软件功能
1、可以精确提取网页里的正文部分保存为文章
2、支持去标签、链接、邮箱等格式化处理
3、插入关键词功能
4、可以识别标签或标点旁边插入
5、识别英文空格间距插入
更新日志
水淼万能文章采集器 v2.17.7.0 更新日志(2020-4-8)
1、全新增加正文过滤功能,可以屏蔽掉绝大多数不属于正文的内容;合并严格和标准的正文识别,并强化正文识别能力(现在识别的正文没有再带父层的div标签了,都是取内部的代码了);增强对部分特意伪装的网站标题的提取能力;其他更新。
2、采集文章URL,强化相对路径的处理,比如../ 和 ../../ 等,经过本版本强化处理后,相对路径将完全转化为绝对路径,与浏览器中鼠标移到链接上查看到的一致。
3、修复谷歌改动导致采集失败的问题。
4、修复关键词采集文章栏目选定精确标签时没有弹出输入的问题(前面版本造成);根据URL采集文章栏目新增删除外层代码可选选项(之前默认启用);调试模式更改为文章来源;疑点说明更新;其他。
5、修复微信采集失败问题。
6、增强分页采集识别能力。
7、新增谷歌地址前缀指定,可自行设置能使用的谷歌域名。
8、采集设置的正则替换支持使用<#sm#>隔开多个匹配和替换表达式。
9、增强正文识别能力,识别准确度有所提升;增加对特殊编码响应的识别。
10、增加对二次加载图片的新属性“original”识别转换。
11、外置文件更新谷歌翻译使用的域名;修正谷歌tk参数变动翻译失败的问题。
12、修复部分情况因系统原因无法跳转网址导致百度网页无法采集的问题;新增自动去除网址的#后缀部分,该部分会导致网页读取错误;采集文章URL新增左边和右边插入选项;修复前面版本导致的正文提取的过滤存在的一些问题;其他更新。
13、增强对部分采用跳转的网页识别。
14、增加标题字数限制为最多100字,以免字数超长导致的一些问题;其他更新。
水淼万能文章采集器2.15.8.0更新日志(2017年3月24号)
修复百度网页搜索时间设置失效问题并取消百度新闻时间设置(已不支持);
微信采集时增加正文最少字数的设置支持(原先只有自动识别的可以设置字数,而微信是内置精确标签的所以不能设置字数,现在可以了);
【文章查看】切换显示时增加自动刷新目录树;
关键词采集正文字数不足时补充提示设置的字数值
特别说明
解压密码:www.32r.com