AMDEPYCRomeCPU在正常运行1044天后停止工作

摘要 AMDEPYC7002Rome服务器处理器的修订指南显示,芯片内核在运行1,044天(大约三年)后可能会挂起。AMD的EPYCRomeCPU内核在运行近三年后进入休眠

AMDEPYC7002“Rome”服务器处理器的修订指南显示,芯片内核在运行1,044天(大约三年)后可能会挂起。

AMD的EPYCRomeCPU内核在运行近三年后进入休眠状态

AMDEPYCRomeCPU基于Zen2核心架构,是红队为数据中心市场推出的最具竞争力的芯片之一。然而,最近检测到一个问题,芯片将在运行近三年后进入休眠状态。以下是AMD对该问题的描述:

相关故事

穆罕默德·祖海尔·海德尔·扎伊迪

AMDAdrenalin23.5.2驱动程序现已推出:暗黑破坏神IV支持和稳定扩散中的2倍提升

在上次系统重置后大约1044天后,核心将无法退出CC6。故障时间可能因扩频和REFCLK频率而异。

根据AMD的说法,故障时间取决于扩频(改变基本时钟速度以减少电磁干扰)和REFCLK频率(帮助芯片跟踪时间的参考时钟)。然而,AMD指定的故障时间可能有点具有欺骗性,因为根据Reddit用户acid_migrain的说法,实际时间可能约为1042天零12小时。原因如下:

不管他们怎么说,问题实际上出现在1042天大约12小时。TSC在2800MHz时滴答作响,2800*10**6*1042.5天几乎等于0x380000000000000,其中有太多零不是巧合。

解决问题不需要很长时间。在1,044天的正常运行时间之前重新启动,重置CPU计时器,或关闭CC6睡眠状态。如文档中所述,AMD没有计划为此提供修复。这不是一个严重的问题;此类问题会在多个不同的CPU中出现。EPYC7002于2018年推出,由于正常运行时间已完成(1,044天),特定客户可能会遇到该漏洞,因此该漏洞现已曝光。

由于处理器的复杂架构,在处理器打包并准备发货后会发现多种类型的错误。这些问题种类繁多,有些影响较小,例如故障标志和缓存标签,而有些问题影响较大,例如那些可能使攻击向量处于打开状态的问题。芯片制造商评估缺陷的严重性、修复缺陷的难易程度以及在决定何时以及如何提供修复之前必须解决缺陷的紧迫性。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。