爬虫软件(爬虫网app下载)


盘点几款C#开源爬虫软件工具

NWebCrawler是一款开源,C#开发网络爬虫程序,具有以下特性:

1。可配置:线程数、等待时间、连接超时、MIME类型和允许的优先级、下载文件夹;

2.统计信息:URL数、下载文件总数、下载字节总数、CPU利用率、可用内存;

3.优先爬虫:用户可以设置优先级的MIME类型;

4、Robust: 10+ URL normalization rules, crawler trap avoiding rules。

许可协议:GPLv2

开发语言: C#

操作系统:Windows

功能:统计信息可视化和执行过程。

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件。

授权协议:麻省理工

开发语言: C#

操作系统:Windows

特点:以递归树为模型的多线程web爬虫程序,支持以GBK (gb2312)和utf8编码的资源,使用sqlite存储数据。

三。网络矿工

网站数据采集软件,网络矿工采集器(原soukey picking)。

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。

许可协议:BSD

开发语言: C# .NET

操作系统:Windows

特点:功能丰富,不逊于商业软件。

广南县人民政府办公室