1.受影响版本号
sp2:4.19.90-25.44
sp3 2303: 4.19.90-52.43
sp3 2403:4.19.90-89.17~89.18
2.问题复现方法:
在搭载mlx5网卡的服务器上,安装以上受影响的内核版本,进行网络压力传输,mlx5网卡驱动mlx5_core有如下报错:
mlx5_core 0000:01:00.0: cmd_work_handler:877:(pid
3. 问题分析结果:
该问题是因为上游社区解决CVE-2024-38556的补丁485d65e13571 ("net/mlx5: Add a timeout to acquire the command queue semaphore")所引入,该补丁引入了slotted完成量,但是在出错返回时没有对该变量complete使进程死等导致系统hung住。该问题官网驱动24.10-1.1.4.0-LTS版本也受影响,官网驱动连接为:http://network.nvidia.com/products/ethernet-drivers/linux/mlnx_en/。目前麒麟研发工程师已经对该缺陷紧急修复,并推送到上游社区,该修复的缺陷也被评为了CVE,链接为:http://nvd.nist.gov/vuln/detail/CVE-2025-21662
4. 补丁及下载地址:
从软件仓库更新
5. 修复和更新方法:
(用root权限执行以下命令):yum update kernel