spark-shell读取.log文件获取日志信息后,怎么进行分析?比如统计包含404的行数
发布网友
发布时间:2022-07-15 06:16
我来回答
共2个回答
热心网友
时间:2023-11-23 23:51
用spark-shell去进行日志信息的统计的话,首先第一步就是创建rdd,将数据加载进去。
第二步,就是进行map操作,然后调用filter进行过滤,包含404的页面,然后调用count进行统计行数。
当然,如果你要进行更详细的统计,或者操作(如果你的log,每列数量都相同的话),可以使用java编写自定义的日志处理类,然后在map的时候,对log进行操作。
热心网友
时间:2023-11-23 23:51
awk命令去处理