变化的步伐正在加快。组件尺寸正在缩小。监控解决方案一直在用日志数据、指标、状态报告和警报轰炸我们。一切都可以扩展,但我们没有。我们如何防止淹没在运行时数据中?
很多公司都面临着同样的问题。他们拥有如此庞大的数据量,却无法得到一个整体的统一概览。当他们的 IT 堆栈出现问题时,他们不知道问题出在哪里。是变化、过载、攻击还是其他原因?根据我们的经验,我们创建了
监控成熟度模型
。你的公司现在处于哪个级别?
级别 1 - 组件的健康状况
在第一级,您有不同的组件,但此级别的监控解决方案仅报告它们是启动还是关闭。如果您的 IT 堆栈出现问题,您会看到很多红点,并且您可能会收到很多电子邮件,说有什么东西坏了。因此,在第一级,您只会看到每个(单个)组件的状态和警报通知。
级别 2 - 不同级别的深度监控
我们见过的大多数公司都处于监控成熟度模型的第二级。在这个级别上,您从不同的角度和来源监控不同的级别。 Splunk 或 Kibana 等工具用于日志文件分析。 Appdynamics 或 New Relic 用于应用程序性能监控。最后,我们有像 Opsview 这样的工具来查看不同服务的组件状态。这是一件好事,因为你需要所有这些类型的数据。您拥有的数据越多,您对不同组件的了解就越多。因此,在这个级别,您能够更深入地了解您自己的团队正在使用的系统。
但是,如果您的 IT 堆栈深处某个地方出现故障,这会影响您的团队怎么办? IT 环境中的任何变化或小故障都会产生多米诺骨牌效应,并最终停止核心业务功能的交付。您的团队只能看到他们在总堆栈中的部分。针对这个问题,我们引入了三级监控成熟度模型。
级别 3 - 创建总体概览
在第三层,我们不仅查看所有状态、事件和指标,还查看依赖项和更改。因此,您需要了解整个 IT 堆栈,这些堆栈将使用您可用工具中的现有数据创建。要创建此概览,您需要来自以下工具的数据:
- 监控工具(AppDynamics、New Relic、Splunk、Graylog2)
- IT 管理工具(Puppet、Jenkins、ServiceNow、XL-Deploy)
- 事件管理工具(Jira、Pagerduty、Topdesk)
重新使用来自不同工具的现有数据来创建整个 IT 堆栈的总体概览。在第三级,您可以升级整个组织。现在每个团队都可以将他们的团队堆栈视为整个 IT 堆栈的一部分。因此,团队可以更轻松地找到失败的原因。此外,团队现在可以在最需要的时候找到彼此。此级别还有助于公司获得统一的概览,同时让团队决定他们想要/需要使用哪些工具。
第 4 级 - 自动化操作
第四级是我们更大愿景的一部分,在这个级别我们将能够:
- 在出现故障之前发送警报
- 通过例如在服务过载之前扩展或重新路由服务来进行自我修复
- 异常检测
- 高级信号处理
你的下一步
详细了解我们的监控成熟度模型以及如何
改进当前的 IT 运营
。