标题:基于启发式规则的流式日志事件提取方法 作者:范鹏 严军 作者单位:上海大学通信与信息工程学院,上海 200444 关键字:日志解析;事件提取;流处理;最长公共子序列 摘要: 日志事件提取指将非结构化的日志消息解析为系统中对应的事件,是多数日志分析中必不可少的前置工作。传统的日志事件提取以批处理方法为主,需要等待所有日志数据到达再进行处理,实时性不佳。能够进行实时日志采集并处理的流处理方法逐渐成为主要研究方向,但已有的流处理方法在解析模型的构建方面存在缺陷,准确性不够高。针对上述问题,提出了层次化不变序列搜索方法,即HISS(Hierarchical Invariant Sequence Search)。该方法以流处理方式解析日志,基于启发式规则分别在不同层次对日志进行标识和划分,通过日志文本相似度和事件模板质量评价机制维护解析模型,生成日志事件。将该方法和现有日志事件提取方法基于典型系统的日志数据集进行对比实验,实验表明,HISS在执行效率上与最快方法Drain相当,并拥有更高的准确性,在结构较复杂的日志数据上准确度可提高7.6%~19.8%。 |