深入了解:MinIO 企业对象存储的可观察性

可观测性是关于收集信息(跟踪、日志、指标),目标是提高性能、可靠性和可用性。很少有单一的信息能够直接确定事件的根本原因。更多时候,当我们将这些信息关联起来形成叙述时,我们才能更好地理解。
从一开始,MinIO 就不仅专注于性能和可扩展性,还专注于可观测性。MinIO 具有一个内置的端点 /minio/v2/metrics/cluster,Prometheus 可以抓取并收集其中的指标。您还可以 发布事件 到 Kafka,并触发警报和其他依赖于 MinIO 中执行的操作的流程。
在上一篇博文中,我们从一万英尺的高度,以入门级的视角讨论了 可观测性。在这篇文章中,我们将更深入地探讨可观测性的每个不同功能,并了解如何使用它们来获得开箱即用的生产级监控。
概述
查看集群的整体状态,包括使用的总磁盘空间、擦除码设置和驱动器设置等。
数据
深入特定磁盘池,查看可能处于修复过程中的驱动器。
系统
集群的整体 CPU、内存、磁盘和网络指标。
API
针对集群进行了大量的 S3 调用。监控这些调用以确保没有故障或延迟是谨慎的做法。这可能意味着某个地方存在更大的问题。
复制
启用复制后,可以跟踪所有与复制相关的状态,例如剩余要复制的对象和复制速度等。
ILM
过去我们讨论过 MinIO 可以使用集成生命周期管理 (ILM) 的不同 层级,现在您可以详细监控其进度。
修复指标
如果任何磁盘出现故障或数据损坏,MinIO 会自动启动 修复过程。这可以详细监控。
扫描器
随着对象被扫描以进行各种操作,这些指标将在此处显示。
监控是关键
可观测性是多方面的;您通常需要检查跟踪、指标和日志的组合才能确定根本原因。您可以使用混沌工程工具(例如 Gremlin、ChaosMonkey、我们自己的 MinIO Warp 等)来分解您的系统并观察指标中的模式。
例如,也许您正在收集 HTTP 请求状态,并且通常您始终看到 200 状态码,但突然间,您看到 500 状态码激增。您查看日志,发现最近进行了部署或数据库停机进行维护。或者,如果您正在监控对象存储性能指标,则可以将任何服务器端问题与这些数据相关联。通常是这些类型的事件会导致最严重的麻烦,在这种情况下拥有可见性至关重要。
如果您对 MinIO 企业对象存储有任何疑问,请发送电子邮件至 hello@min.io 与我们联系。