当前位置:首页 > 嵌入式 > 嵌入式软件
[导读]适用环境:Cluster or GFS on RHEL4 and later故障现象:日志报错openais[3345]: [CMAN ] lost contact with quorum device目前只要客户有共享存储,在部署Cluster和GFS的时

适用环境:Cluster or GFS on RHEL4 and later

故障现象:日志报错

openais[3345]: [CMAN ] lost contact with quorum device

目前只要客户有共享存储,在部署Cluster和GFS的时候,都建议配置quorum disk。而上面这个报错相信大家都不会陌生吧。这个问题一般是因为qdisk进程太长时间没有与cman/ais通信,超过了qdisk的poll投票时间,从而此节点被断开。特别是在配置了multipath、rdac等多路径软件环境中做链路失效切换测试时,由于failover的时间可能比较长,造成链路切换之前qdisk就已经丢失了,节点直接被reboot,而这当然不是我们所期待的结果。那怎么解决这个问题呢?

先来了解几个基本概念:

① 集群要认为一个节点健康,需要以下3要素

· CMAN认为该节点online

· 该节点能足够连续的读写quorum disk

· 该节点heuristic有足够的score

② qdisk包括两个主要线程:主线程负责循环和进行I/O操作;第二线程负责heuristic相关。

主线程另一个工作就是每隔一段时间告诉cman/ais自己还活着。如果qdisk超过quorum_dev_poll的时间而没有和cman/ais通信,cman就会声明说此节点与quorum disk断开连接,此时日志便会有如上报错。默认的cman.h里

#define DEFAULT_QUORUMDEV_POLL 10000

单位是ms,即10秒。修改quorum_dev_poll需要在cluster.conf文件里修改cman标签:

cman quorum_dev_poll="50000">/cman>

③我们平时指的qdisk timeout是指连续一段时间对quorum disk的读写都是失败。假如cluster.conf里

quorumd device="/dev/sdb1" interval="3" min_score="2" tko="13" votes="2">

其中

interval="3"

This is the frequency of read/write cycles, in seconds.读写quorum disk的频率

tko="13"

This is the number of cycles a node must miss in order to be declared dead.连续失败多少次则判定此节点死掉

qdisk_timeout = interval x tko

④再来看看RHEL5里cman timeout是怎么去配置的,

 

token

This timeout specifies in milliseconds until a token loss is declared after not receiving a token. This is the time spent detecting a failure of a processor in the current configuration. Reforming a new configuration takes about 50 milliseconds in addition to this timeout. The default is 1000 milliseconds. 连续多长时间没有收到token就判定令牌丢失。默认1秒,其中有50ms是生成一个新的配置的时间。

retransmits_before_loss

This value identifies how many token retransmits should be attempted before forming a new configuration. If this value is set, retransmit and hold will be automati- cally calculated from retransmits_before_loss and token. The default is 4 retransmissions. 连续丢失几次token,才会生成新的cluster配置(将丢失token的节点踢出集群)。默认4次。

token_retransmit

This timeout specifies in milliseconds after how long before receiving a token the token is retransmitted. This will be automatically calculated if token is modi- fied. It is not recommended to alter this value without guidance from the openais community. The default is 238 milliseconds. 重发token的时间间隔,这个值是由上面的token和token_retransmit自动计算的。(1000-50)/4≈238ms

如果出现上面说的丢失心跳token的时候,日志会出现如下报错:

openais[3345]: [TOTEM] The token was lost in the OPERATIONAL state.

注意单位为毫秒。另外,也可以修改cman的标签:

注:RHEL4并未使用openais的架构,因此只能通过deadnode_timeout来修改。

好,有了前面的基础,不难想象到各个timeout值,用T(*)表示,应有如下关系:

T(MPIO)

RH官方有如下建议:

T(qdisk) = T(MPIO) × 1.3

T(cman) = T(MPIO) × 2.7

参考文档:

Red Hat Knowledgebase

、man page of

qdisk(5)

openais.conf(5)

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭