机器学习正变得越来越容易

发布时间：2021-02-21 17:55:19 所属栏目：传媒来源：互联网

导读：2.2 自定义解析的灵活性通过前面的分析得知，日志标准化解析在这类产品中的地位举足轻重。如何把日志解析的能力提供出来，就显得尤为重要，目前自定义解析的方式主要有几种方式：通过编码实现。直接在代码中处理，编译发布，这种方式对厂家来说最灵活，但

2.2 自定义解析的灵活性

通过前面的分析得知，日志标准化解析在这类产品中的地位举足轻重。如何把日志解析的能力提供出来，就显得尤为重要，目前自定义解析的方式主要有几种方式：

通过编码实现。直接在代码中处理，编译发布，这种方式对厂家来说最灵活，但对使用者来说最麻烦，因为几乎没有办法进行调整；
通过配置文件实现。比如logstash中配置input，filter，output等，这种方式解决了用户不能直接调整的问题，非常方便。但这种情况只能登录后台查看配置文件，如果安装的比较多，调整修改起来会稍显繁琐；
通过工具生成。比如之前版本的symantec的ssim平台，通过他们提供的工具实现进行配置，继而导出他们产品能识别的安装包，最后安装到平台中。这种方式本质上是前面两种解析方式的结合，比较灵活。唯一的缺点，是解析查看的时候需要借助工具，如果有修改或者添加的操作，需要重新部署一遍；
通过脚本实现。脚本实现其实可以归于编码实现的一个特例，只是大多数脚本不用编译，可以直接运行。这种解析方式的优点是比较灵活，缺点是对使用者要求较高，同样调整修改起来较为麻烦；
通过界面配置的方式实现。就是在平台上直接进行配置，比如splunk、secilog等，这种方式的优点是比较灵活，从界面上配置非常方便。

从这个日志中就可以看到很多的信息，比如直接信息包括：

间接信息主要包括：直接信息中体现不出来，但通过客户环境的其他信息可以得到的信息，比如：

资产信息：通过设备IP地址可以得到设备的网络域环境、所属业务系统、部署的机房位置、设备管理人员等信息；

账号信息：通过登录账号信息可以得到这个账号授权给哪个人、账号是否有效、账号创建时间等信息。源ip相关信息：如果是公网，可以得到IP的地理信息，包括国家省市、IP的经纬度、从情报中可以得到这个IP是否是高危IP等；如果这个IP是内网，可以得到这个IP的部署位置、分配给哪个人、网络域信息、业务信息等。

通过上面分析后，把每个字段存储到数据库中，这样日志的信息就很丰富了，为后面的关联分析、统计报表等打下了坚实的基础。

解析的关键点如上所述，但在日志解析的实际操作阶段有几个不可回避的问题：

2.1 预解析和后解析

预解析的主要含义是，在入库之前把所有维度的信息预先解析出来，然后进行入库；后解析的主要含义是反过来的，就是刚开始只入库原始日志等基本信息，后面需要进行搜索、告警、报表等操作的时候再解析，把需要的维度放在内存中进行分析。

预解析的优势是预先把维度存储到数据库中，使后面的操作更加便捷，劣势是需要额外占用存储空间，并且当预先解析内容不准确或者内容有变化的时候，无法进行下一步的分析（比如账号信息发生了变化）；后解析的优缺点正好和预解析相反。目前市场上绝大多数的产品都是预解析，纯后解析的产品几乎没有。

比较理想的解析方式是预解析和后解析相结合，目前市场上只有少量产品支持这种特性。这种特性结合了两者的优点，缺点又相对能接受，可以达到一个比较好的平衡。但这种方式为什么市场上用的少呢？据我分析，主要的原因是这种模式过于复杂。

首先是操作复杂，这种模式要求使用者掌握一些相关技能；其次是技术复杂，目前应用较广的大数据平台技术，对关联查询的支持不是特别理想，比如Elasticsearch目前对关联查询就非常繁琐。但是这种预解析和后解析相结合的方式在应用上优势明显，是日志解析未来的发展趋势。

其他问题可以通过特殊手段来解决，比如：可以把繁琐的操作封装在产品中，隐藏在操作的后台；如果用关系数据库，倒是容易解决后处理的问题，但是多数关系数据库的处理能力和目前的大数据平台还是有较大差距，可以在日志数量不大的时候使用。

（编辑：南通站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!