GooSeeker(集搜客网络爬虫软件)大数据软件开发始于2007年,能够采集网页文字、图片、表格、超链接等多种网页元素,致力于把互联网装进表格和数据库,提供一套便捷易用的软件将网页内容进行语义标注和结构化转换,让您不限深度和广度抓取网页数据,其工作原理就是将网页内容进行语义标注和结构化转换,一旦有了语义结构,整个Web就变成了一个大数据库;可视化免编程、网页内容可见即可采,一旦内容被赋予了意义就能从中挖掘出有价值的知识,使用这些数据寻找潜在客户,进行数据研究,商机挖掘...等等,让你随心所欲玩转大数据。
安装教程
1、将软件资源包下载到电脑上后解压出来,运行安装程序运行,开始安装,选择“简体中文”下一步,继续安装
2、点击“浏览”可以更改软件安装目录,设置你的个人偏好然后继续安装
3、勾选“创建桌面快捷方式”复选框,创建桌面快捷方式,以便日后启动程序
4、等待安装文件释放完成即可成功安装GooSeeker
软件特色
1、集搜客网络爬虫:功能强大、免编程、 大批量网页抓取、 国内外网站通用、自己动手丰衣足食
2、微博采集工具箱:关键词、评论、转发、粉丝、 博主、话题、覆盖全微博、 输入网址即可采集,一键输出EXCEL表格
3、全网采集工具箱:一键数据采集,输入网址即可、 电商、房产、论坛, 新闻、点评、图片,更多网站可定制添加
4、分词打标软件:自动分词,筛选词库、 开店选品,发掘营销关键词,行业研究、掌握话题要点
5、报表摘录软件:收集素材做笔记、采摘数据整理报表、写paper做研究的好帮手
6、智慧城市要素库:智慧城市海量数据库、 直接下载用于数据分析、数据分析课的好素材
功能介绍
1、直观点选 海量采集:用鼠标点选就能采集数据,不需要技术基础,爬虫群并发抓取海量网页,适合大数据场景,无论动态或静态网页,ajax和html一样采集,文本和图片一站采集,不再需要下图软件
2、整理报表:从公司年报摘录数据、从政府报告摘录数据、从政策文件摘录数据、从PDF文件摘录数据、生成结构化的excel报表
3、摘录笔记:为学术论文收集素材、为研究报告收集素材、为市场营销准备弹药、随想随记拓展知识
4、文本分词和标签化:自动分词,建设特征词库、文本标签化形成特征词对应表、用于多维度量化计算和分析、发现行业动态,发现市场机会,解读政策,快速掌握主旨要点
常见问题
一、网络爬虫状态错误,无法从FAILED状态启动爬虫?1)这个报错是说服务器连接失败,失败的时候显示为红色状态,正常是绿色
二、保存信息结构描述文件失败:not writable?1)主题名重复了,换个主题名就行
2)“爬虫路线”工作台上,如果有下级线索,也要注意不能与别人重名。都有“查重”按钮,可以检查一下
三、为什么谋数台又打不开了,打数机能打开?1)火狐自动升级后跟爬虫不配套,就不能正常使用了,所以,安装火狐的时候要去工具菜单-选项-高级-更新里设置不检查更新
2)下载了更高版本或中国版火狐,里面安装很多插件,可能影响到gooseeker爬虫的正常使用
3)电脑安装了360等杀毒软件,会悄悄破坏其他程序,只需禁止其安全防护功能
更新日志
1、解决Mac版菜单失灵问题
2、连续打码增强成高仿真输入
3、连续打码处理图片功能增加适应性