一文知道区块链运维监控平台

时间:2021-07-27 18:30编辑:未知

出处: PlatON 作者:PlatON

导语:区块链运维监控平台的打造旨在将各个区域不同节点通过监控的方法将数据进行可视化展示,便于为运维职员提供各节点基础监控和业务监控服务,并通过监控告警将节点问题的发生到响应处置的过程时间最小化,提升运维职员对节点的运维管理效率。

1. 区块链运维监控平台的必要性

监控,是网络工业链上尤为重要的一环,监控的目的就是防患于未然与事后复盘。

区块链技术的核心优势本就是去中心化、集体维护、时序数据等,搭建区块链运维监控平台的主要为了为了实时监控自有节点健康状况,准时响应节点问题,保障节点的持续稳定运行,以降低因节点问题而导致的经济损失。

2. 区块链运维监控平台的基础构造

区块链运维监控平台提供了便捷的批量部署主机监控的方法,可以智能化安装Zabbix-agent,大大缩减了部署的时间,通过自概念监控项,完成对应用的监控的不一样的数据的采集,借助Grafana友好的显示成效图,展示节点主机的CPU、内存、互联网、磁盘、与业务有关的监控信息,通过ElasticSearch来存储历史数据,延长了历史数据的保留时长。

区块链运维监控平台是通过Ansible、Zabbix、Grafana、MySQL、ElasticSearch来达成:

· 基于Ansible撰写Role角色,来达成批量部署和智能化,自动区别Centos和Ubuntu系统,并安装Zabbix-agent、添加磁盘监控脚本。

· 通过Ansible的Playbook来分发不同业务上的应用的脚本,通过脚本来获得监控数据。

· 通过撰写Zabbix的自概念模板来获得数据并设置告警,将主机、监控项、触发器等信息存储在MySQL,将历史数据存储在ElasticSearch。

· 借助Grafana调用Zabbix-api来获得主机数据,并展示不一样的监控数据。

区块链运维监控平台基础构造图,如图1所示。

现区块链运维监控平台,监控约100个节点,MySQL存放了约4000可用监控项,1500个触发项。如有需要的话,Zabbix每秒钟可处置上万条数据。ElasticSearch中储存的历史数据,如不考虑本钱问题的话,数据可长期存放。

3. 区块链运维监控平台的监控项

作为一套完整的区块链运维监控平台,不止是对主机的基础项的监控,还有区块链节点有关业务的监控项。区块链运维监控平台节点监控项分为两种:一种是节点基础监控项,一种是区块链业务监控项。通过对这部分监控项使得运维职员可以愈加直观的认知各节点状况,也便捷了开发和测试职员对项目的测试和调优。

3.1、区块链基础监控项

第一关于监控平台的节点主机基础监控项。关于这部分节点主机基础监控项运维职员需要知晓:节点主机的CPU是怎么样工作的其用率、需要占用多少的Memory、磁盘的用比率、互联网流量的消耗、磁盘的每秒的输入输出量、每秒上下文切换。确认了这部分节点主机基础的监控项后还需要明确对其报警的阈值是多少后,需要设定达到了这个值就通过邮件或者电话的报警方法公告运维职员,引起注意。

具体区块链基础监控项展示图,如图2所示。

3.2、区块链业务监控项

除去节点主机的基础监控以外,还有节点业务有关的监控项。譬如:节点主机Peers的连接数、节点主机的块高同步数、节点主机RPC端口的响应时间、PlatON进程的状况、单个节点在验证节点中的排位数、句柄数、区块链买卖Pending数目信息、NTP服务状况;周围应用等状况信息。

具体区块链业务监控项展示图,如图3所示。

依据需要将各个节点的某些单个指标整理集合至各自的单个节点指标版块,如此便于对比查询状况,如此对用户的观看愈加友好,不需要点进节点监控项里一个一个查询。

譬如像节点的块高趋势、节点的排行榜、节点的进程状况这部分监控项。在同一版块展示可以实时、直观的认知和对比这部分指标。

举例对于区块链块高的集成单个指标版块展示图,如图4所示。

4. 区块链运维监控平台告警方法

区块链运维监控平台告警方法分为邮件告警和电话告警:

通常告警--只通过邮件告警,将告警邮件发送到告警邮箱。

紧急告警--将告警邮件发送到告警邮箱,并告警到二级运维职员邮箱,通过电话告警公告值班职员,当电话告警并没引起值班职员注意时,则电话公告备岗值班职员。

具体区块链运维监控平台告警设计图,如图5所示。

5. 区块链运维监控平台的稳定性

区块链运维监控平台,其监控数据重要程度不言而喻,提供安全靠谱的数据保障是运维部门的职责所在。

假如区块链运维监控平台数据库只有一台服务器那样比较容易就产生单点问题的问题,譬如说这台服务器访问重压过大而没响应或者崩溃,那样服务就不可用,再譬如这台服务器出现意料之外状况,致使整个数据库的数据全部丢失,就会导致重大的安全事故。

为了防止服务的不可用性与保障数据的安全靠谱性,至少需要部署两台或两台以上的服务器来存储数据库数据,也就是需要将数据复制多份部署在多台不一样的服务器上,即便有一台服务器出现问题了,其他服务器依旧可以继续提供服务。

区块链运维监控平台通过MySQL主从、ElasticSearch集群的方法,来达成了区块链运维监控平台的高可用。大大提升了区块链运维监控平台的稳定性。

本文标签: