liulpStart / SparkLogAnalysis

用spark进行常规的日志分析

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

博客地址:http://blog.csdn.net/u014171282/article/details/79389333


集群线上运行成功代码
filbeat6.1.1  ->  logstash6.1.1 -> kafka_2.11-1.0.0 -> spark-1.6.1-bin-hadoop2.6 - elasticdearch-5.5.2


第一个流量计算Demo
nohup $SPARK_HOME/bin/spark-submit --class RequestCountTe  --master spark://sp26:7077 --executor-memory 20G --total-executor-cores 10 /home/ubuntu/sparkJar/LogBIgData-1.0-SNAPSHOT.jar &


第二个进行域名的请求数计算   存入es的格式安装现在的线上环境
nohup $SPARK_HOME/bin/spark-submit --class TotalIPCountUserMySQl  --master spark://sp26:7077 --executor-memory 20G --total-executor-cores 10 /home/ubuntu/sparkJar/LogBIgData-1.0-SNAPSHOT.jar &


第二个进行域名的请求数计算   存入es的格式安装现在的线上环境  增加异常捕获 请求日志计算成功
nohup $SPARK_HOME/bin/spark-submit --class TotalIPCountDomain  --master spark://sp26:7077 --executor-memory 20G --total-executor-cores 10 /home/ubuntu/sparkJar/LogBIgData-1.0-SNAPSHOT.jar &


第三个 TotalIPCountUserMySQl
这个类是查询数据库 请求数可以用户查询成功 线上测试
nohup $SPARK_HOME/bin/spark-submit --class TotalIPCountUserMySQl  --master spark://sp26:7077 --executor-memory 20G --total-executor-cores 10 /home/ubuntu/sparkJar/LogBIgData-1.0-SNAPSHOT.jar &


第四个进行离线计算   OfflineTotalIpDountDomain
从hadoop取出原始日志 然后进行计算存到es中
$SPARK_HOME/bin/spark-submit --class offline.OfflineTotalIpDountDomain  --master spark://sp26:7077 --executor-memory 20G --total-executor-cores 10 /home/ubuntu/sparkJar/LogBIgData-1.0-SNAPSHOT.jar 20171204



第四个进行离线计算   OfflineTotalIpDountUserMySQl
从hadoop取出原始日志 然后进行计算存到es中  这里进行了数据库查询 存的是userId

$SPARK_HOME/bin/spark-submit --class offline.OfflineTotalIpDountUserMySQl  --master spark://sp26:7077 --executor-memory 20G --total-executor-cores 10 /home/ubuntu/sparkJar/LogBIgData-1.0-SNAPSHOT.jar 20171204


//=================
实时统计完成 主类是 Online.CaclMain
现在实现的实时统计共包括
最终线上使用
nohup $SPARK_HOME/bin/spark-submit --class Online.CaclMain  --master spark://sp26:7077 --executor-memory 40G --total-executor-cores 10 --files /home/ubuntu/sparkJar/qqwry.dat /home/ubuntu/sparkJar2/LogBIgData-1.0-SNAPSHOT.jar &


总请求数统计
文件类型统计   PV访问统计
访问分布统计:地区分布和运行商分布
访问终端统计: 浏览器分布  操作系统分布

未实现流量带宽统计,实现很简单,因为现在没有界面展示验证  其实可以存到数据库中





About

用spark进行常规的日志分析


Languages

Language:Scala 60.9%Language:Java 39.1%