ET采集器是一款功能强大的自动采集软件,该软件主要的功能就是帮助用户采集网络中的资源,全自动采集发布,静默工作无须人工干预;独立软件免除网站性能消耗;安全稳定,可长年累月不间断工作T,全自动监控,并且能整理信息,提供免费的文件下载,适用于绝大多数网站,稳定方便,长时间采集不消耗网站性能。;支持任何网站和数据库的采集发布,软件内置了包括discuzX,phpwind9,dvbbs,dedecms,dede淘宝客,wordpress,phpcms,帝国cms,动易,新云,风讯,pbdigg,php168,bbsxp,phpbb,百度空间等常用系统的范例。本软件适合需要长期更新内容的网站使用,不需要你对现有论坛或网站做任何修改。您可以使用它采集网站中的应用、文章、图片、视频,并将采集的信息全部显示在软件中,支持一键下载采集的资源,他与一般的资源自动搜索软件不一样,在提供资源收集以外,还能自动连接到迅雷、快车、旋风等链接文件,从网址中访问下载站的资源,处理新浪、DZX等假地址图片等,功能非常丰富,无需人工值守,24小时自动实时监控目标,实时高效采集,昼夜不停为您提供内容更新。满足长期运行需求,让您彻底解放双手,让软件帮助您搜索网页上的各类资源,极大的节约了时间。ET采集,释放自由,易用、稳定、低耗,有需求的用户请下载体验!
软件特色
1、开机自动运行ET:启动电脑进入系统后,自动运行ET程序;
2、ET启动后自动工作:ET启动运行后,自动执行上一次使用ET时勾选的工作方案,只有启用本项,才会自动保存当前勾选的工作方案;
3、启动后最小化:ET启动后,隐藏主窗口,只显示托盘图标;
4、忽略规则首尾空白:启用本项后,采集配置中的各个规则将自动去除首尾的空格、回车、换行等空白字符,以避免用户多输入空格或换行导致规则分析失败;如果用户需要利用空格或换行来确定规则的首尾边界,则请取消勾选;
5、方案执行间隔时间:在进行自动工作、选择多个方案时,一个方案的当前列表采集完后,间隔多久更换采集下一个方案;
6、访问网络超时时间:设定在访问网络时超过多久无响应则强制断开;
7、访问网络重试次数:设定在访问网络时遇到失败的自动重试次数,例如采集网页、下载文件、FTP上传等,这是2.2版中新增功能;
8、访问网页失败后自动重启ET:设定在访问网页失败一定次数后自动重启ET,以解决一些可能出现网络阻塞导致无法继续正常工作的问题;本功能仅在自动工作时生效,停止自动工作将重置失败计数,重试访问不计数;这是2.3.7版中新增功能;
软件特点
【全自动无人值守】
无需人工值守,24小时自动实时监控目标,实时高效采集,昼夜不停为您提供内容更新。满足长期运行需求,将您从繁重工作中解脱
【适用广泛】
最全能的采集软件,支持任意类型网站采集,适用率高达99.9%,支持发布到所有类型网站程序,更可以采集本地文件,免接口发布。
【信息随心所欲】
支持信息自由组合,通过强大的数据整理功能对信息深度加工,创造全新内容
【任意格式文件下载】
不论静态或动态,不论是图片、音乐、电影、软件,又或者是PDF文档、WORD文档,甚至种子文件,只要你想
【伪原创】
高速同近义词替换、多词随机替换、段落随机排序,助力内容SEO
【无限多级页面采集】
无论垂直方向多层页面,还是平行方向复数分页,抑或AJAX调用页面,为你轻松采集
【自由扩展】
开放的接口模式,可以自由二次开发,自定义任何功能,实现所有需求
软件功能
设置劫持特征代码;
很多地区的电信宽带用户在上网时,会被强行在访问信息中,用一些代码替换访问信息,让用户只能通过代码中的框架查看原本要访问的网页,这通常用来显示电信的广告或进行其他隐秘的动作,这种行为被称为劫持浏览器;当出现这种情况时,ET所采集的源码也只能得到这些劫持代码,而不是要采集的网页源码
设置UserAgent;
网站通过userAgent来判断当前用户使用的是什么浏览器,并根据这个浏览器能够支持的情况提供相应的功能。浏览器在访问一个网页时通常会传送一个识别字串告诉网站它是什么浏览器软件,我们访问的部分网站会对UserAgent进行限制,我们可以在基本设置中修改UserAgent,也可以点击'获取本机UserAgent'按钮获得本机的IE默认UserAgent
设置支持语言;
采集某些网页时,网站可能会检查支持的语言,用户可以在此调整。
锁定设置
此功能用于设置打开各个配置窗口时的密码,当设置了锁定密码后,使用 菜单-锁定 功能,即可在用户离开电脑后,防止他人访问操作各项配置。
数据项设置
数据项用于定义从采集页面获取的各项信息,除[标题]、[缩略图]、[文章网址](即发布规则中的[文章网址])这三项数据可在列表设置页获取外
数据项属性编辑区
[缩略图]、[标题]、[正文]、[文章网址]四个基本数据项的名称不能修改。
其中[文章网址]数据项的取值为列表规则中文章网址合成的结果。
[标题]数据项对应列表分析中的[文章标题]标记,默认取值为列表分析获取的文章标题。
[缩略图]数据项对应列表分析中的[缩略图]标记,默认取值为列表分析获取的缩略图。
功能介绍
适用广泛
比较全能的采集软件,支持任意类型网站采集,适用率高达99.9%,支持发布到所有类型网站程序,更可以采集本地文件,免接口发布。
信息随心所欲
支持信息自由组合,通过强大的数据整理功能对信息深度加工,创造全新内容
任意格式文件下载
不论静态或动态,不论是图片、音乐、电影、软件,又或者是PDF文档、WORD文档,甚至种子文件,只要你想
伪原创
高速同近义词替换、多词随机替换、段落随机排序,助力内容SEO
无限多级页面采集
无论垂直方向多层页面,还是平行方向复数分页,抑或AJAX调用页面,为你轻松采集
自由扩展
开放的接口模式,可以自由二次开发,自定义任何功能,实现所有需求
软件内置了包括discuzX,phpwind,dedecms,wordpress,phpcms,帝国cms,动易,joomla,pbdigg,php168,bbsxp,phpbb,dvbbs,typecho,emblog等大量常用系统的范例。
主要优势
1、工作记录:
该栏记录ET的每一步工作过程及状态,包括目录采集和文章处理两大部分,我们通过工作记录可以了解该次采集执行是否正确完成,或是出现了什么问题;当出现问题时,可以根据提示、结合信息栏的其他反馈内容,用户可以迅速准确地找到故障原因并予解决。
2、采集源码:
此栏显示执行过程中所采集的文章列表页、文章页面、文章分页等的网页源代码,利用此栏源代码,可以方便的进行规则测试、提供规则定制依据。
注意,某些网站会根据不同来访浏览器而显示不同的源代码,所以,ET的采集规则定制时,应以此栏的源代码为准,例如采集规则范例中的‘SMF 1.1.5’,其网站通过IE访问和ET采集获取到的源码就有区别。
3、分析数据:
此栏显示文章处理过程中的各个数据项信息,从分析到的原始代码,到整理后的代码,再到经过URL修正后的代码,用户通过查看此栏,可以了解设置的数据项分析规则是否准确、整理组规则是否完善、最终的信息是否符合自己的要求。
例如:当工作记录栏提示错误‘正文字数大于或小于发布设置’时,我们可以查看本栏的‘正文’数据项,了解具体是大于还是小于发布设置,原因是正常还是因为整理组设置不当,从而调整各个设置。
4、发送代码:
此栏显示ET向发布网站发送的数据,包括文章检查部分和文章发布部分;
用户可以通过此栏信息了解通过一系列分析、整理操作,最终向发布网站提交的数据,用以检查自己的采集规则数据项、发布规则的参数设置等是否正确、完整。
5、返回信息:
此栏显示ET向发布网站发送数据后发布网站的反馈,包括文章检查反馈和文章发布反馈;
通过查看此栏,我们可以清晰的了解当采集过程出现问题时的大部分原因。
一些接口在返回错误信息时,信息可能是HTML代码,不熟悉HTML代码的用户阅读比较吃力,点击WEB浏览按钮,可以在操作系统默认浏览器中方便的查看它们
使用说明
提示库未注册或无法打开MDB文件的解决办法
运行ET时出现“库没有注册”的错误提示,通常是因为您的计算机系统有重要DLL文件注册丢失,需要重新注册。
解决方法如下:
一、
在 开始菜单-运行 中 依次输入并运行以下命令:
regsvr32 scrrun.dll
regsvr32 jscript.dll
regsvr32 vbscript.dll
二、
若使用上步后,仍有问题,因为无法判断具体是哪一个文件未注册,所以可以将system32下所有DLL文件重新注册一遍,操作如下:
在 开始菜单-运行 中输入命令 cmd,然后在CMD窗口的命令提示符下输入下列命令后运行即可。for %1 in (%windir%system32*.dll) do regsvr32.exe /s %1
注:
请在运行此命令的时候关闭其他程序。尤其是杀毒软件的监控。如果内存比较大。速度将很快!在CMD窗口中粘贴的技巧:右击CMD窗口在弹出的菜单中选择编辑 - 粘贴。刚才复制的命令内容就已经粘贴到命令行中了。直接回车就开始运行命令了!
三、
若以上2个方法都不能解决,那么您很可能是mdac被损坏,请下载mdac 2.8以上版本重新安装;如果是XP系统修复安装,方法是在 c:windowsinf 下(c:windows是一般系统目录,操作时按您实际的系统目录)找出mdac.inf 然后点右键->安装。在弹出提示路径选取 c:windowsservicepackfilesi386,再提示需要XP CD的时候放入cd就可以了。
三、非简体中文Windows操作系统下ET不能正常显示界面的解决办法
ET是专为中国用户提供服务的软件,目前仅发布了简体中文版本,支持在简体中文windows系列操作系统上使用;
当在其他语言的windows操作系统上运行时,可能出现软件界面上的文字显示为问号乱码的问题,这是因为该操作系统缺少ET所使用的微软标准简体宋体字库文件,这时请安装该字库即可解决问题,该字库文件名 simsun.ttc ,请从微软简体中文windows安装光盘获取;
四、UserAgent的说明及在ET中的设置
系统环境
1、EditorTools 适用于WINDOWS系列简体中文版操作系统;
包括 windows xp简体中文版、windows 2000简体中文版、windows 2003简体中文版、windows vista简体中文版;
对于其他语言环境的windows系统,部分可以使用,用户可自行尝试,开发方不提供对应技术支持。
2、EditorTools 需要计算机上装有如下软件:
mdac 2.8或以上版本 (最新ADO数据库驱动)
已注册的scrrun.dll (用于阅读和编写脚本和文本文件)
已注册的vbscript.dll (VBScript脚本相关支持文件)
以上软件均为windows系统内置的免费软件,但可能在使用中被损坏或禁用。
常见问题
1、什么是UserAgent?
是指网站网页通过userAgent来判断当前用户使用的是什么浏览器,并根据这个浏览器能够支持的情况提供相应的功能。浏览器在访问一个网页时通常会传送一个识别字串告诉网站它是什么浏览器软件。很多统计网站使用它来了解有多少用户使用什么版本的浏览器。
2、UserAgent在ET中有什么用?
某些网站会对来访浏览器进行限制,诸如防止搜索引擎爬虫、广告群发、机器人软件、或者其他非法访问等各种原因,导致采集失败,此时,需要对UserAgent进行设置,可以用识别字串冒充其他浏览器,例如:
QQ的USERAGENT:
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)
FIREFOX3的USERAGENT:
Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.9) Gecko/2008052906 Firefox/3.0
其他常用USERAGENT:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.590; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)
3、设置Useragent
在ET中设置UserAgent请参见 使用篇-操作第一步-设置UserAgent ;
五、DEDE发布提示“首页文件路径错误,无法创建文件”的解决办法
方法一、修改您的首页生成HTML路径,注意相对路径的区别;
方法二、 改接口,找到dede接口文件etpost.php中以下代码:
if($cfg_makeindex=='是'){
$pv = new PartView();
$row = $pv->dsql->GetOne("Select * From #@__homepageset");
$templet = str_replace("{style}",$cfg_df_style,$row['templet']);
//$homeFile = dirname(__FILE__)."/".$row['position'];
$homeFile = dirname(__FILE__)."/../".$row['position'];
$homeFile = str_replace("\","/",$homeFile);
$homeFile = str_replace("//","/",$homeFile);
$fp = fopen($homeFile,"w") or die("首页文件路径错误,无法创建文件");
fclose($fp);
$pv->SetTemplet($cfg_basedir.$cfg_templets_dir."/".$templet);
$pv->SaveToHtml($homeFile);
$pv->Close();
}
$arc->Close();
return $reurl;
把代码
$homeFile = dirname(__FILE__)."/../".$row['position'];
替换为
$homeFile = dirname(__FILE__)."/".$row['position'];
即可。
使用教程
安装软件后双击亿名通ET采集桌面快捷方式打开软件
亿名通ET采集是一款网站内容抓取工具。使用ET采集可以将其他网站上的文章内容抓取并转发到自己设置的网站中;
极速小编还这一次就给大家演示一下怎么使用亿名通ET采集查看网站文章。点击ET采集左上角的抓取方案中的范例方案-论坛;
选择好之后点击ET采集界面上的开始,就可以开始抓取网站文章了;
ET采集正在进行文章采集;
点击文章标题,然后点击标题比较右边的选项按钮,就可以打开文章原网页;
文章原网页打开完成。
以上就是ET采集的使用方法了。
更新日志
ET采集器(EditorTools3) v3.2.6更新日志:(2018-8-12)
1、修正:主窗口当前方案文章列表勾选处理有时会失效的问题。
1、新增:自动分词模块,可用于自动提取关键词/TAG。
2、新增;数据项可以选择指定内容模式,支持引用其他数据项、随机字符串等预设内容。
3、优化:采集配置按照列表页、采集页、数据项的从属关系优化了界面。
4、优化:数据项现在可以选择是否使用翻译了,以方便对翻译内容进行整理。
5、优化:数据项现在可以独立选择是否修正网址了。
6、新增:采集页和数据分页的网址合成现在可以引用数据项,适应更复杂的网址合成。
7、优化:方案间隔时间从系统设置窗口移到制订方案窗口,可以为每个方案单独设置间隔时间了