# CrawlerClientCAS **Repository Path**: rembern/CrawlerClientCAS ## Basic Information - **Project Name**: CrawlerClientCAS - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: dev - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2018-06-26 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # readme ## 注意 1. 微信爬虫运行需要系统装有firefox浏览器 ## 配置 config.properties: - 数据源 - 配置读取方式 0:from xml file, 1: from database - 运行方式: run/test ### 需要登录的站点 将账号配置在crawler_account表中 site_id与site_template表中对应模板的id一致 ### 垂直监控配置 将要监控的url配置在monitor_site中,注意site_name ## 爬虫启动 #### maven 打包运行方式 ##### 1. 本地maven库安装第三方依赖jar ``` //project 目录下运行命令 mvn install:install-file -Dfile=lib/ojdbc6.jar -DgroupId=com.oracle -DartifactId=ojdbc6 -Dversion=11.2.0 -Dpackaging=jar mvn install:install-file -Dfile=lib/chardet-1.0.jar -DgroupId=org.mozilla.intl -DartifactId=chardet -Dversion=1.0 -Dpackaging=jar mvn install:install-file -Dfile=lib/crwlerlog.jar -DgroupId=crwlerlog -DartifactId=crwlerlog -Dversion=1.0 -Dpackaging=jar mvn install:install-file -Dfile=lib/hadoop-core-1.0.4.jar -DgroupId=org.apache -DartifactId=hadoop -Dversion=1.0.4 -Dpackaging=jar mvn install:install-file -Dfile=lib/hbase-0.94.16-security.jar -DgroupId=org.apache.hadoop -DartifactId=hbase -Dversion=0.94.16 -Dpackaging=jar mvn install:install-file -Dfile=lib/mail.jar -DgroupId=com.sun.mail -DartifactId=mail -Dversion=1.0 -Dpackaging=jar ``` ##### 2. 打包 mvn clean package -DskipTests ##### 3. 复制 config 目录到target/ ``` cp -r config target/ ``` ##### 4. 运行 java -jar CrawlerClientCAS-1.0.jar type=15 name=test project=66666 - 参数 ``` type=n ``` >1: 新闻搜索; 2: 新闻垂直; 3: 论坛搜索; 4: 论坛垂直; 5: 博客搜索; 6: 博客垂直; 7: 微博搜索; 8: 微博垂直; 9:视频搜索; 13: 电商搜索; 14: 电商垂直; 15: 微信搜索; 16: 微信垂直; 21: 上市公司报告搜索; 34: 公司信息垂直 ; 37: 政务搜索; 39: 刊物搜索; 41: 外媒搜索 ;45:客户端搜索 ``` crawlercount=n ``` >需要分布式部署多少个爬虫 ``` clientindex=n ``` >当前是几号爬虫,同时该字段也对应与微博爬虫的账号选择, 选择方式是,clientindex = int[(crawler_account.valid+1)/2] _组内爬虫程序_ ## 目录: config/ 配置文件目录 _ ./site 站点采集属性配置 _ ./app-sysconfig.xml 爬虫结构属性配置 _ ./config.properties 爬虫运行属性配置 site/ 站点采集模板(新配置站点已经采用数据库存储) src/ _ ./common _ _ ./bean _ _ ./communicate _ _ ./down _ _ ./extractor _ _ ./filter _ _ ./http _ _ ./rmi _ _ ./service _ _ ./siteinfo _ _ ./system _ _ ./up2hdfs _ _ ./util _ _ CrawlerStart.java ##运行脚本 - 程序启动运行脚本 startall.sh - 程序停止运行脚本 stopall.sh - 程序运行状态查看脚本 status.sh - 程序辅助运行脚本 assistManage.sh ##注: - 增加了代码的分布式运行方式