得得

开源

SeimiCrawler

一个简单、敏捷、分布式的支持SpringBoot的Java爬虫框架;An agile, distributed crawler framework.
Apache-2.0开源 快速上手
最新版本:v2.1.2     更新时间:2019-12-06
集群原理
添加maven依赖(中央maven库最新版本2.1.1):,在包crawlers下添加爬虫规则,例如:,然后随便某个包下添加启动Main函数,启动SeimiCrawler:,以上便是一个最简单的爬虫系统开发流程。
Spring boot(推荐)
推荐使用spring boot方式来构建项目,这样能借助现有的spring boot生态扩展出很多意想不到的玩法。Spring boot项目打包参考spring boot官网的标准打包方式即可
独立运行
上面可以方便的用来开发或是调试,当然也可以成为生产环境下一种启动方式。但是,为了便于工程化部署与分发,SeimiCrawler提供了专门的打包插件用来对SeimiCrawler工程进行打包,打好的包可以直接分发部署运行了。,pom中添加添加plugin,执行mvn clean package即可,打好包目录结构如下:,接下来就可以直接用来分发与部署了。,详细请继续参阅maven-seimicrawler-plugin,目前可以参考demo工程中的样例,基本包含了主要的特性用法。更为细致的文档移步SeimiCrawler主页中进一步查看,大家有什么问题或建议现在都可以选择通过下面的邮件列表讨论,首次发言前需先订阅并等待审核通过(主要用来屏蔽广告宣传等),订阅:请发邮件到 seimicrawler+subscribe@googlegroups.com,发言:请发邮件到 seimicrawler@googlegroups.com,退订:请发邮件至 seimicrawler+unsubscribe@googlegroups.com,QQ群:557410934,这个就是给大家自由沟通啦,里面会发布一些使用案例等文章,以及seimi体系相关项目的最新更新动态等。,请参阅 ChangeLog.md,Github,BTW: 如果您觉着这个项目不错,到github上star一下,我是不介意的 ^_^
研发人员
SeimiCrawler的研发团队来自五湖四海,期待你的加入。
xiaohuo