CRS-1726 Process failed to run in real-time priority

2023-12-26 17:03:48

故障现象

集群的alert日志的核心报错为

2022-08-26 12:23:20.418 [OCSSD(5740)]CRS-1726: Process failed to run in real-time priority.

现象是rac出现突然的某个节点宕机,尝试启动该节点资源,或者启动进程均无法拉起

当时的rac版本为19.5

官方文献

2870136.1

根据文档描述19.3-19.15都有该问题,可以通过打补丁解决,bug号为33610957

原理和cssd进程的抽查机制有关,cpu默认是有一定的slice供应前台,当出现无法获得实时cpu时即发生失败。

变通办法

看外网博客Troubleshooting Oracle 19c RAC CSSD process cannot get real-timepriority | ANBOB

发现case1符合我们的情况,950000为默认参数

CASE 1

[root@oel7db1 ~]# sysctl -a 2>/dev/null |grep runtime
kernel.sched_rt_runtime_us = 950000
[root@oel7db1 ~]#

Add a line below into the bottom of the file /etc/sysctl.conf

kernel.sched_rt_runtime_us=-1

处理结果

修改参数kernel.sched_rt_runtime_us=-1并生效

重启集群进程,集群恢复。

学习原理,积累工具。孵化思路,下笔有道

文章来源:https://blog.csdn.net/q195136130/article/details/135221600
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。