论文原文 大体框架 无监督的日志异常检测算法。 其中模板抽取是基于源码和机器码实现的,这么做工程量很大,但好处显而易见,准确率几乎 100%,并且可以识别未输出过的日志,当然这也造成了后期的一些方案仅适合其他系统。向量化阶段本论文忽略了日志消息的自然语言信息,认为其难以抽取并且信息模糊,使用了时间窗口内模板 type、状态标识符 identifier 和变量 variable 之间的比例作为向量化特征,所以本论文其实是基于统计学的频繁模式发掘的方法。通过 PCA 产生正常异常维度进行异常检测,最后使用决策树将结果可视化展示。 内容摘要 4.离线检测和可视化 4.1.特征构建 Feature Rows Columns Status ratio matrix Ys time window Status value Message count matrix Ym Identifier Message type 4.1.1.状态变量和状态比向量 作者将变量分类为标示状态的和指标变量两类,状态是指类似于 open 和 close 一类,指标则是 ID 数值类变量,这两类变.... System Problem Detection by Mining Console Logs 论文阅读