离显卡功耗实标还有多远?峰值功耗与电源关系终结篇

发布于 2023-03-05  1467 次阅读


原文地址

大家好,这里是 FCPOWERUP,我之前写过『不看可能会翻车,显卡瞬时功耗及电源重启之谜』,很抱歉我又写了一篇又长又臭的文章。一直以来我都在想写一篇更为完整、完善的版本~,把读者所不能理解的部分加以更为通俗的讲解和说明,把我做的大量测试数据补进去,~加一个漂亮一点的文章开头,能让没什么耐心看完或者没基础的读者能看到最后,收获知识,得到启发,而我获得很高的转发量。

pic_001.jpg

比如:

“大瓦数的电源是不是更费电?”

“95W 的 CPU 为什么能跑 210W?”

“瞬时功耗到底是不是营销噱头?”

“大魔王 FCP 家里是不是有核电站?”

“2020 年还不知道这个事情的都是井底之蛙。”

“牙膏厂失势,下一代 PC 电源标准将由核弹厂起草?”

“喜欢把我的科普文洗成视频的 UP 主们,这篇你们抄不了。”

“所有受到本故障困扰的板厂、电源厂、玩家都应该转发,不转不是中国人。”

pic_002.jpg

1、总结:电源功率推荐表

先上结论,该买多大的电源。表格基于实测数据,并且借鉴了华硕老板 Tony 的表格形式,在大佬的基础上追加了 RTX Titan、GTX1080Ti、Radeon VII、RX590 等几张还算热门的显卡匹配推荐。~我会在摸清核弹厂 30 系功耗之后更新下一个版本的推荐表~。~从我的信息渠道获取的信息,30 系列的峰值功耗非常高,按估算增加了 3080、3090 的电源的推荐(beta 版本)~。

推荐,非强制,觉得太高的可以降额购买,DIY 的精神就在于多折腾,人类是在试错的过程中不断进步的,一个不够就再买一个。

2020 年 11 月 7 日更新 1.4 版本,追加 3090、3080、3070 AIC Reference 的推荐。

2020 年 11 月 25 日更新 1.5 版本,追加 AMD 6800、6800XT 公版的推荐。

2020 年 12 月 13 日更新 1.6 版本,追加 AMD  6900XT,NV 3060Ti 推荐。

pic_003.png

无论如何,总有些用户基于各种各样的理由,抵触功耗上升的事实,~对我不利的都是不合理的~,默认芯片的脉冲动态功耗为静态的持续功耗,没有意义,核弹厂 30 系显卡的车轮还是滚滚而来,当鸵鸟是没有用的。在本文,我将阐述事实,简单说一下我花了近 2 年业余时间捣鼓的成果。

pic_004.jpg

网友都应该了解牙膏厂的 CPU 有高于 TDP 的 PL(PowerLimit)功耗墙,CPU 在某些工况下功耗远高于标称的 TDP 值,95W 的 CPU 可以跑 210W,那是因为 CPU 规模巨大,牙膏厂设计了多档的 PL 来限制功耗。PL2 的持续时间长,可以以秒计算,用户可以从软件读取 CPU 功耗,牙膏厂也很诚实,提供了技术文档,公开了更高的 PowerLimit 值和 Peak Current 峰值电流的值,如何换算也有简单介绍。

pic_005.jpg

显卡方面就不一样了,峰值功耗 PeakPower(或者说瞬时功耗 Spike)的持续时间非常短。显卡工作是以 1 帧为周期,在 60fps 下打开开垂直同步就是~ 17ms,峰值功耗存在于一帧周期里显卡工作的那一部分时间,短的只有几百μs,而最长的持续值理论上可以达到一帧的时间,不借助仪器就难以测量。并且核弹厂、农企两家竞争激烈,都对峰值功耗避而不谈,不敢面对这个问题,没有公开的技术文档可参考。(后面会详细介绍下面这张示波器截图。)

pic_006.jpg

芯片功耗的情况是如此复杂,芯片厂商、板厂、电源厂和用户之间的沟通又是如此之少,可畏隔行如隔山,能理解其中原因的人是非常少的,有解决问题能力的人也是非常少的。

目前玩家应该做的是多跟板厂和芯片厂沟通。与其在这猜电源能不能带得动,不如让他们公布峰值功耗 PeakPower 值,从而可以更好地为电源搭配提供理论支持。只有从这他们口中说出来的规格,才能使玩家信服。

FCPOWERUP 测完了主流显卡的功耗,中高瓦数的电源评测也都包含 FCP 显卡兼容性认证项目,日常都在写科普并且还抽奖,仍然被当成卖大瓦数电源的营销号。对,就是 “忽悠人买大电源” 那种。

好了,后面我又要从基础部分讲起。

2、基础科普

复习之前的文章内容,我们从组成 CPU、GPU 的基本单位 “晶体管(Transistor) ” 开始介绍。

2-1、电路基础

每个晶体管由源极 (Source)、漏极 (Drain) 和它们中间的栅极 (Gate) 组成,栅极起到控制电流通断的作用。我们常说的 xx nm 的制造工艺,其实就是指的栅极宽度。由掺入的材料不同,晶体管分为 NMOS 和 PMOS 两种类型。

pic_007.jpg

从逻辑电路层次看,组成 CPU 的 CMOS (Complementary Metal Oxide Semiconductor) 互补式金属氧化物半导体电路即是将 NMOS 晶体管和 PMOS 晶体管连接起来配对使用。下图为一个 CMOS 反相器示意图,CMOS 电路可以理解为是一个开关模型。

pic_008.png

CMOS 电路的功耗主要来自两部分,分别是动态功耗 P_dynamic 和静态功耗 P_static,总的功耗构成即为:

Power = ∑(P_dynamic + P_static) = ∑(CV²αf + V*I_dq)

其中,C 为负载电容的容值,V 为工作电压,α为当前频率下的翻转率,f 为工作频率,I_dq 为漏电流。

CV²αf 为晶体管的动态功耗 P_dynamic,来源于驱动门电路翻转产生的功耗,与电压、频率、负载电容、电路设计相关。

V*I_dq 为晶体管的静态功耗 P_static,来源于逻辑门电路没有翻转时由于绝缘不足无法完全关闭的静态能量损耗,只要电路工作就会漏电。

2-2、万恶之源

芯片制造业为了塞下更多的晶体管,力求用更先进的工艺制造更窄的栅长,用于绝缘的栅极二氧化硅绝缘层会变得越来越薄,在深亚微米工艺下,漏电功耗占到功耗的很大一部分,随着工艺发展到纳米级,漏电情况会加剧,静态功耗比例继续加大。

pic_009.png

同时,芯片制造的过程中有着 Backgate 掺杂的概念,掺杂高的材料需要的单元门翻转阈值电压高,但它的漏电功耗低,门延迟长,也就是速度慢。反过来,掺杂低的材料所需要的翻转阈值电压低,但漏电功耗高,门延迟低,速度高。芯片制造有着高性能以及高性能功耗比两种不同的工艺路线,高性能路线使用的材料是偏向于漏电功耗高这一类。

总结下来目前高端芯片费电的原因无非是以下两个:

一是规模巨大。

ATi R300 是第一颗晶体管数量超过 1 亿的 GPU,在这之后,GPU 的晶体管数量不断增加。根据 “摩尔定律” 和“安迪 - 比尔定律”,人类肯定会继续塞晶体管的。

核弹厂 2080Ti (TU102 Turing) 塞了 186 亿个晶体管,Vega 64 (Vega 10) 塞了 125 亿个晶体管,到了 2020 年老黄发布的 30 系列 Ampere 时已经拥有 280 亿个晶体管~,只能放在右上角~。牙膏厂、农企两家目前对 CPU 的晶体管数量避而不谈,无从参考。可以想象拥有数十亿晶体管电路的芯片,在工作时逻辑门电路一直有相当数量的晶体管被不断翻转,由于工作频率达到以 GHz 为单位,它消耗的能量就相当可观。

pic_010.jpg

按核弹厂农企两家提供的 TDP 功耗值和芯片面积可以算出 TU102 Turing 的功率密度是 34.5W/cm²,30 系列 GA102 Ampere 是 55.7Wcm²,Vega 10 是 61W/cm²,超过了电炉的 10W/cm²,Vega 20 达到了 90.6W/cm²,已经很接近核反应堆的 100W/cm²,~如果都按峰值功率算的话,那超过了核反应堆,直追火箭尾焰~。

pic_011.png

二是桌面级的 CPU/GPU 倾向于高性能路线,静态功耗所占的比值不低。虽然还能在性能功耗比的优化上做做文章,也就是下面我们需要谈的内容。

2-3、芯片电源管理机制

CPU/GPU 晶体管规模巨大、功耗巨大,为了控制功耗,芯片厂家都会想尽办法。这里以有技术文档可以参考的 Intel CPU 为例。

我们从 2-1 给出的公式来分析动态功耗:

P_dynamic = CV²αf

其中负载电容 C 是和制程工艺相关,出厂即固定,V 是工作电压,α是当前门电路的翻转率,f 是工作频率,由此得知,要降低处理器的动态功耗,只有降低工作电压、减少翻转的门电路数量或者降低工作频率。

门级电路的功耗优化 (Gate Level Power Optimization)、DVFS 机制 (Dynamic Voltage and Frequency Scaling) 在一定程度上降低了芯片的平均功耗,但同时又带来功耗大幅度频繁波动的现象

从牙膏厂官网提供的技术资料看,智能降频技术 EIST (Enhanced Intel SpeedStep Technology) 即是一种 DVFS 机制,够对 CPU 的工作电压、频率进行智能调节从而降低 CPU 的功耗。

EIST 技术中包含的不同频率、电压状态在 ACPI 定义的 CPU 的 C0 (CPU Power States) 下的各种 P-States (CPU Performance States) 下体现出来。

pic_012.png

有了降频同时也会有超频,Turbo Boost Technology 睿频技术是一种官方超频技术,对应 P-States P0 中的最大工作频率。Turbo Boost Technology 2.0 允许 CPU 在短暂的时间将功耗提高到超过 TDP 的 PL2 值。

有了电源管理就有相应的功耗状态,牙膏厂的 Package Power Control 封装功率管理就是对 CPU 的几种 PL (Power Limit) 状态进行介绍。

pic_013.jpg

目前的酷睿 8、9、10 系列的功率极限 (Power Limit) 一共有 4 档,功率从小到大依次是 PL1、PL2、PL3、PL4。

PL1 即平均功率,牙膏厂建议不超过或者设置为 TDP 功率,CPU 可以一直在这个功率上运行;

PL2 即超过 PL1 之后的功率极限,对应 Turbo Boost 2.0 状态下的功率,CPU 可以保持在 PL2 长达 100s;

PL3 是一个更高的功率极限;

PL4 就是一个不可逾越的硬帽,PL4 的大小等于 12V 的峰值电流 x 11.4V x VR 电路效率,PL4 最大的持续时间不超过 10ms。PL3 和 PL4 默认情况下是禁用的,但从实测看,只要解锁了 PL2 的主板,都能跑出 PL4 级别的功耗

2-4、芯片单元利用率问题

以上是基于电压、频率控制的 DVFS 机制,从公式里我们知道,决定功耗还有一个重要的因子α,即当前门电路的翻转率,我们从利用率的层面上分析会更好理解,CPU 和 GPU 在工作的时候,并不是所有时刻所有晶体管都在火力全开,有些程序可能是单线程,按照任务的需求,开启对应功能的单元,每个时刻总有一部分晶体管工作,另外一部分休息。

下图是 Core i9-9900K 的架构图,分为核心 Core、L3 缓存、系统代理 System Agent 和把以上几部分连接起来的环形总线 Ring Bus 等几个单元。

pic_014.png

CPU 的核心部分,又可以分为前端 Front End、缓存子系统 Memory Subsystem 和执行单元 Execution Engine,不同的游戏、拷机程序对 CPU 的不同单元利用率和需求都不一样,有的程序吃缓存,有的吃前端,有的吃 SIMD。CPU 内部不同单元的功率密度也不一样,功率密度最小的往往是前端,而功率密度最高的是加法器。跑不同的测试,从 CPU 12V 所能抓到的电流波形也有很大的差异。

比如我的 9900K 跑 AIDA64 Stress FPU 的时候,CPU 12V 输入功率是这样的,它把缓存都吃满了,算法负荷强度受限于缓存,红色的功耗曲线稳定在 200W 上下。

pic_015.png

跑游戏是这样的,伴随当前帧数有明显的周期脉冲,峰值约 200W,但平均值只有 60W 不到,在监控软件里看到也是只有 60W 不到。但在有些 3D 测试中,CPU 的峰值功耗会跑到 30A/360W 以上。这就是为什么我说不要人为替 CPU 觉得它没跑拷机软件的时候跑不出高功耗,跑游戏照样有脉冲高功耗。

pic_016.png

跑 Folding@Home 是这样,它的算法不受限于缓存或者前端的性能,把 SIMD 单元拉出最大负荷,可以跑出更高一档的 220W 峰值功耗,把我本来通过 FPU 拷机的设置都搞蓝屏了。

pic_017.png

表现出来就是一些反常识的情况,举个例子,拷机能稳过,跑 Folding@Home 就蓝屏。超频后拷机能稳过,跑游戏就蓝屏。不同单元的功率密度、对电压的要求都不同。

再举个例子,你听说过 AVX 吗?

CPU 部分就这么讲完了,电源在应付显卡峰值功耗的时候同样需要应付 CPU,虽然对峰值功耗贡献最大的还是显卡,但不要忽视近两年 CPU 所带来的功耗剧增的情况。牙膏厂近年来连续修改 ATX 电源标准,给 Z390 主板加上了更多的接口就是功耗剧增的证明。

3、显卡

显卡部分主要讲的是显卡的一些规范,负载特性,不过开头稍微提一些显卡功率标识的问题。

3-1、显卡混乱的电源功率推荐

之前已经讲过了核弹厂、农企两家的 SLI 电源认证和 CrossFire 认证都已经停滞多年。标称功率和推荐标识都是很混乱的,官网推荐一个瓦数,包装盒另外一个瓦数。到了 30 系显卡的时候,核弹厂都已经不敢在包装盒上写电源推荐瓦数,官网居然给搭配 10900K、10980XE 两款不同 CPU 的 3070 显卡都推荐了 650W 电源。要知道这两款 CPU 的功耗都不是同一档次,另外即便是一部分 650W 电源,带 9900K 和 2080Ti 的时候都可能陷入过载保护。

pic_018.jpg

农企官网推荐 Vega 64 使用 750W 电源,然而很多零售版本的包装盒写的是 850W。LC 银水的包装明确写了 1000W。为什么一张 TDP 345W 的显卡会要求使用 1000W 的电源?

pic_019.jpg

3-2、显卡的负载特性

显卡就像是一门 “高功率脉冲电磁炮”,现在的显示器动不动就几百 Hz 的刷新率,游戏帧数也是几十帧起跳,好在我不需要再次科普 “帧” 这个概念

要分析显卡的负载特性,真的需要进入毫秒级、甚至微秒级时域的微观状态下进行观察和测量,起码从显卡 VRM 供电的开关频率来算,需要一个模拟带宽足够高的探头来捕捉信号

毫秒级?微秒级?是的。

pic_020.jpg

探头带宽不够的情况波形会失真、丢失细节,无法捕捉到足够高的峰值,这是媒体中出现的情况,比如 Tom’s Hardware 的测试采样率只有 1ms,即 1kHz 带宽,igorslab、超能网的测试抓到的峰值也偏低。普通玩家使用的电流钳、AC 功率插座或者是软件也是一样的。能摸到天花板的人只是少数,会敲键盘的人不计其数。有兴趣的读者可以阅读 “奈奎斯特 - 香农采样定律”。

pic_021.jpg

作为一个电源领域的工程师,就要熟知电源所带负载的特性,那么如何~把大象塞进冰箱里呢~测量显卡的负载特性呢?

P=UI

首先知道该在什么位置测量显卡的功耗,其次制作测试用的探头夹具和转接工具,把这两部分接到示波器上面,读到 12V 的输入电流和电压,通过示波器的机内科学运算或者是手动计算就可以得到显卡的输入功率~,然后按截图按钮保存~。

显卡的供电主要由通过 PCIE 插槽和外接的 8Pin 接口,PCIE 插槽部分又称 Edge Connector,使用电源的 12V 和 3.3V,3.3V 占比不大,基本可忽略,外接的 8Pin 是走的 12V,这个就不发图了,都熟悉。这部分的内容可以从 PCIE 白皮书上面获得。

pic_022.jpg

经过大量的测试,我发现有这样的规律,当把游戏的帧数锁到固定的帧数之后,显卡的 12V 输入电流、电压以比较明显的周期脉冲的形式呈现。

下图的测试使用一张 2070 Super 显卡运行战地 5,把游戏锁到 60 帧,显卡渲染一帧画面所用的周期约 17ms(单位毫秒),即 1 秒 = 1000 毫秒,1000 毫秒除以 60 帧得到平均每 1 帧的周期长约 16.7ms。这是一张非常有规律的图,正常游戏状态没有这么规律,不方便读者理解。

其中屏幕最左侧可以看到 3 个通道的标签,分别是 1 通道 I12,测量的是显卡总的 12V 输入电流,2 通道 V12 是显卡 PCIE 8Pin 接口的输入电压,M 通道 POWER 为 1 通道 x2 通道运算的结果,为显卡的总功耗。

pic_022_1.jpg

显卡的工作单位就是以帧为周期,在一个渲染周期内,显卡有 2 种不同状态,分别是渲染(打鸡血)和休息(摸鱼),渲染时晶体管消耗大量的能量,功耗冲到峰值,上图是 430W 左右,有 2~3 倍 EDP(Electronics Design Power)那么高,这还不是这张卡最高的峰值,摸鱼时功耗降低到较为平缓的状态,上图的例子,降低到约 80W。

如果测量的是一段比较长的时间,比如一两百毫秒内,可以使用示波器的均方根 RMS 计算功能把读数平均,得到一个最大的平均值。这里读到的值在 210W 左右。这个数值也可以对应大部分采样率比较低的仪器、设备所能读到的所谓 “功耗”,也可以对应 GPU-Z 里面的 TDP 功耗值,一些仪器和软件的采样率只到秒,所以别再拿功率插座或者 GPUZ 的读数来说事。

显卡渲染和摸鱼的时间比重并不固定,有一些画面复杂的,可能看起来整个周期都是在工作,几乎没有摸鱼时间。如果帧数比较高,整个帧的时间也会随着缩短。

好了,以上是显卡上面毫秒级时间内发生的事情,对电源而言,显卡就像是一门外接的高功率脉冲电磁炮,电源输送能量,显卡发射画面。电源的开关频率周期要比显卡工作周期短,显卡陷入打鸡血状态时,周期比电源的工作周期长很多,所以也需要电源能在这个时候拼命输出,才能带得起来,显卡摸鱼的时候对电源来说压力会小一点,但无论显卡处于何种状态下,都需要电源时刻给它提供能量。

3-4、CPU 和显卡峰值功耗相位

之前有相当多的网友都会跟我说,我的 CPU 又没有超频,正常跑游戏的时候 CPU 和显卡肯定不会同时满载的,功率插座才显示 400W,550W 绝对够用。

那么我们就来看一下 CPU 和显卡的功耗叠加之后的相位是怎么样的。测试 LinX 搭配 Furmark 关 AA 抗锯齿和动态背景,开中低分辨率,1080P-2K 之间,Furmark 按住空格键。基本可以跑出所有平台的峰值功耗。

示波器截图的通道 1 显卡电流(黄色),通道 2 显卡 12V 输入电压(青色),通道 3 CPU 12V 插座输入电流(洋红),通道 4 CPU 插座输入电压(绿色),M 通道 CPU + 显卡运算后的总功耗(红色)。

显卡的峰值电流高达 76.5A,CPU 峰值电流高达 36.8A,两者虽然没有同相位,CPU 电流相位滞后了 200ms(90°),但丝毫不影响两者叠加后得到 1030W 的峰值功耗(红色曲线)。

pic_023.png

说人话就是,CPU 和显卡的峰值功耗的幅度和相位可不是由人的意识决定的,用户觉得自己没有超频没有跑拷机,显卡和 CPU 就不会同时有满载的情况,实际上目前 PC 的 CPU 和显卡进行协作的结果还就这样,峰值功耗大都有叠加情况。

而游戏主机方面的架构不同~,真是令人羡慕~,可以通过加入缓冲区 Buffer,调整 CLK 时钟的方式来错开显卡和 CPU 的功耗峰值,甚至是把任务进行切碎,压平峰值曲线。同样最后也可以使用功率比较小的电源,XBOX 和 PS5 使用的电源功率就比较小。主机有整体的设计,普通玩家这方面也是做不到的,至少目前的 DIY PC 做不到

3-5、官方的显卡峰值功耗规格

神奇的网友什么图都有,给我匿名投递了一张 2080Ti 的规格书截图,这张规格书是用于约束显卡的,显卡的成品不可超出以下的功耗值,不对零售端的玩家公开。

Edge Connector 也就 PCIE 插槽最大功耗限制在 17A/1ms、13A/5ms 两种不同时域下的状态,8Pin PCIE 插槽则是 30A/1ms、25A/5ms,甚至最大可以持续 50ms。累加起来可以达到 77A/924W/1ms,不过按测试数据看,2080Ti 在默认核心电压的情况下,暂时没有测到那么高的峰值,也就在 50A 多点。

pic_024.jpg

笔记本品牌机也应该有类似的规格书来约束 MXM 模块或者显卡,便于整机厂商更好地搭配电源,比如品牌机定制的显卡可以和 650W 的电源协作,笔记本甚至还并联着一个巨大的电池,负载能力超强。普通玩家这些是看不到的,再次复读。

3-6、一堆显卡峰值功耗实测

说了这么多,其他的显卡峰值功耗情况是怎么样的?我在测一些古董显卡的时候,有部分网友说只需要测主流显卡,不过我认为只有以史为鉴,才能预估未来。我借到了能在 Win10 下运行的最老旗舰显卡 8800Ultra 和著名的火炉 GTX480,可惜 8800Ultra 的核心已经虚焊无法点亮,不然可以让大家看看以前的火炉在今天是什么样的弟弟。

测试平台:

配置 型号
处理器 / CPU Intel i9-9900K @5GHz
主板 / MB ASUS ROG Maximus XI APEX
内存 / RAM Kingston DDR4-4000 8Gx2 @4266
固态硬盘 / SSD Samsung SM961 256G / Samsung 970EP 500G
显卡 / Graphics Card 见下表
见下下张图
散热器 / Cooler NZXT Kraken X72 + GentleTyphoon GT3000 x3
显示器 / Monitor DELL U2720QM / U2518D
示波器 / Oscilloscope Tektronix MDO3014
电流探头 / Current Probe TCP0150 20MHz 带宽 + TCP0030A 120MHz 带宽
操作系统 / OS Win10
测试软件 / Benchmark LinX 0.65
Furmark 1.20.8+
3DMARK
Heaven 4.0 等等

pic_025.jpg

选卡有一些目的和标准,时间有限的情况下当然要挑着来测。

测试的目的是摸清楚一些历史上的火炉功耗到底是什么水平,以前怎么没发生过这么频繁的重启问题。其次,核心规模比较大的显卡的功耗有什么特征,比如 R9 Nano 这种就算是核心规模大但却做成一张小卡。

能选择公版我都会选择公版,按公版的默认频率和功耗设置来跑,不能选择的,只能尽可能选用市面上畅销的版本。

显卡照片,什么型号,懂的都懂~(我终于也可以说这句话了)~。测试的显卡的一部分,不止这么多,一部分借来的卡是前后脚到的,没法拍合照。

pic_026.jpg

详细的显卡峰值功耗测试数据见下表

注意 1:580 4G 是一张矿卡,本身的 BIOS 和供电都是进行定制的,有限制,所以成绩可以无视,不代表目前市面上 580 8G 的功耗。

注意 2:不测平均功耗的最高值,那个值就是我们正常所说的 GPUZ 读取的最高功耗,用软件就可以读取,我的示波器的测量标签有限,测了一部分,但是这个参数无论是对选购电源还是对测试几乎都没什么太大意义,只要不超频都不会超过接口的协议上限,平均值只对散热器厂家设计散热器有用,然而显卡的散热器不需要我们担心。

注意 3:显卡的电流摆率我就不给出了,目前是我研发使用的数据。

这个表看看就行,电源功耗推荐表做出来之后它的意义就回到了研发层面。不代表每一张每次都能测到同样的数值,会在这个值上下有所波动。峰值持续时间没有都记录下来,理论上都跟帧数挂钩,最长等于一帧的生成时间。有一些游戏和 Benchmark 我不是每张卡都测完,所以也不列出完整的表格,否则这张表非常宽。

pic_027.png

3-7、显卡峰值功耗分析

基于以上的测试数据进行一些分析。

a、核弹厂历代旗舰功耗情况

这几张卡都是 TDP 标 250W 的单芯卡,借不到 580,在大多数人的印象中,480 显卡是一张火炉,而 780Ti 是一张能效比比较高的显卡,但实测下来 780Ti 也是火炉,峰值功耗反而比 480 增长了 20.5%,有点颠覆印象。480 的峰值功耗 / TDP 比值只有 1.66,意味着这站显卡的峰值功耗和平均功耗之比不高,没有太多的翻滚抽搐。

1080Ti 和 2080Ti 这两张显卡相比前一代都有 20% 以上的峰值功耗增长。虽然他们都标 250W TDP,就跟牙膏厂的 6700K 和 8700K 都标 95W 一样。

pic_028.png

b、峰值功耗和 TDP 的比率,常见的倍率是 2~3 之间,超过 3 的,比如 R9 Nano 这样的大核心小功耗显卡,因为需要频繁开关一部分不需要的晶体管来达成控制总功耗的需求。表现出来就是它的波形翻滚抽搐严重(下图),所以 R9 Nano 这张卡有频繁啸叫的情况。嗯,逆压电效应了解一下。另外一张超过 3 的 2080Ti 啸叫也不是一两例。

pic_029.png

c、核弹卡功耗普遍要低一点,不装 Afterburner 没得拉 PowerLimit,所以测试核弹卡基本都不拉 PowerLimit。核弹卡跑 Furmark 不按空格键的功耗要低得多,一开始我是怀疑驱动有问题的。2020 年 12 月 13 日更新:但到了 30 系这一代,核弹厂的功耗表现已经处于劣势,完全被农企超越。

pic_030.png

d、Raja 搞的农企卡功耗实在太高,尤其是 Vega 10 这一代,~至少在我测了核弹厂 30 系之前~,我认为 Vega 64 目前是功耗最高单芯片单卡。为什么会这样呢,应该跟它的供电设计也有关系,看看人家水果 Radeon Pro Vega II 板子上电容电感都堆成麻将,农企公版又是啥样。

pic_031.jpg

e、农企用了 7nm 的 Radeon VII,功耗其实可以控制得非常好,王启尚 NB,但是出厂核心电压加得有点多,导致功耗高了一些,手动降低核心电压,功耗表现会有降低。~但是我怀疑农企有没有认真做芯片电压调校和散热器测试,另外再花点精力拧螺丝,5700XT 的温度会有所改善。~

f、不同的游戏负载规律真的很不一样,说不定往后游戏的画面越复杂,分辨率越高,会把显卡榨压出更高的峰值功耗和持续时间。

g、吃鸡这个游戏优化真的是太烂了,不可思议的地方在于,它在启动界面的静态画面时显卡就有非常高的电流波动,然后大厅也是(我是在 2018 年 7 月份测试,据说后来可以锁 30fps)。吃鸡在大厅挂机是很不明智的做法。

h、Radeon 5700 拉高 PL 测试下来没什么区别。

i、旧的显卡只能通过 DVI 接口跑 FHD 分辨率,没普及高分屏之前一些显卡跑出来的峰值比今天低。

j、在守望先锋里面,如果一张显卡跑得动更高的 4K 分辨率,它的功耗会冲到更高。这个游戏没有人会跑 4K 分辨率吧?

3-8、双卡交火的电流波形是怎么样的?

我的群友极客实验室 Geeklab 也做过这方面的测试,在霹雳霹雳有很多测试视频。下面是他测的双卡交火峰值功耗波形,可以看到两张显卡的波峰是交错的,以显卡跑游戏的工作方式可以猜测,交错渲染的时候,两张显卡的峰值功耗都是错开的。

pic_032.jpg

由于我手上没有更多的电流探头和多余的显卡可以进行这方面的测试,交错渲染和棋盘渲染等不同渲染方式对功耗带来的影响只能等以后有机会再更新了。

4、散热器为什么无视峰值功耗

顺带推测一下散热器为什么可以吸收掉峰值功耗。

一个是储热能力强,一个是传输带宽小。

散热器本身即是储能材料,按 1000W 持续 50ms 的峰值功耗计算,所产生的热量为 Q=Pt=1000W*0.05s=50J(焦耳)

设散热器是 200g 的铜,50J 热量用于加热 200g 铜,得到的温升为 50J/390J/(kg·℃)/0.2kg≈0.64℃,小菜一碟,而且散热器同时还会把热量散发出去。

关系到热量传导的速度有一个 “热时间常数” 参数,表示元件跃迁到某个规定温度的百分比所需时间,也称为“热响应时间”,单位常用的都是到秒 S。可推测热量这种通过分子间碰撞运动来传递的能量的传递受很多因素(热阻)的影响,带宽比较小,比起电子在导体中迁移传递能量的带宽小得多。限于篇幅这里不展开计算。

5、电源

又又又到了我的领域,又网友说我只写 CPU 和显卡峰值功耗问题,不挑电源的毛病,这部分同样需要时间来积累数据。我就打算简单点讲,不引用太多专业术语,讲得通俗一些。

5-1、开关电源基本知识

在一般用户的认知里,可能都认为 PC 电源是一个变压器,线圈的输入输出匝数比等于输入输出电压比。其实不是,现代的电源是工作在高频开关状态下的多级电路,以晶体管开关来搬运能量的装置。就像一座大坝,通过开启和关闭闸门,控制水流量。它不产生能量,是能量的搬运工。目前主流方案的开关频率在 50kHz 到 100kHz 之间,意味着工作周期在 20μs 到 10μs 之间,会有一些开关周期完全被设备的峰值功率所包裹。

当负载电流增加时,由于线路阻抗、元件阻抗等影响,12V 会掉压,就跟超频一样,跑高负载 CPU 核心会掉压,这个时候主开关电路收到反馈信号,对开关频率或者占空比进行调整,把电压拉回额定的工作状态。这是稳压的基本原理。

5-2、PC 电源结构

随手找一颗结构清晰比较好讲解的进行介绍。

电源从 AC 输入之后首先是 EMI 瞬变滤波和整流电路,它将电源和电网之间的一些干扰双向过滤,后方的整流桥将 220V 交流电整流变成脉动直流,紧接着 APFC 主动功率因数校正电路对功率因数进行校正同时有升压和储能的作用,到达主开关电路,这颗电源使用的是全桥 LLC 谐振拓扑,这部分电路会将能量以高频脉冲的方式经过电 - 磁 - 电的方式传递到低压侧,12V 同步整流电路再将高频脉冲低压进行整流,整流后变为直流 12V,通过滤波电路再输出,一部分通过 DC-DC 电路降压,生成直流 5V 和 3.3V 两路低压。5Vsb 电路负责给电源的主控供电,在电源关机时它也持续在工作。

pic_033.jpg

在我国,电源的插座输入市电是 220V 交流电,输出是 12V、5V、3.3V 等几组直流电。AC 插座输入的电压电流曲线是下图的样子。市电波形非常有规律,这个波形经过了整流桥之后就可以整流变为脉动直流(整流桥确实有扛 5~600V 交流电的能力)。

pic_034.jpg

外接使用功率插座读取 AC 交流的曲线是需要做一定的采样和运算才能得出当前功耗值,而且采样率不高的情况下,读数就是平均值了,中间还隔着一个巨大的电容和变压器等等一堆储能元件,功率插座是读不到显卡那边的输入电压电流波形的。

5-3、额定功率和功率虚标

电源能够在一定的环境条件下连续地输出功率,且各项技术指标都符合规范,这一功率即为电源的额定功率。说人话就是输出稳定,不热失控,不炸机。

ATX12V 标准没有要求超载。如果一个电源能够持续地超载输出,而各项指标毫无问题,那么它算得上是反向虚标功率。市场是逐利的,超载输出是需要以堆元器件规格或者是牺牲产品寿命、可靠性来换取,一般不会有这种产物。

5-4、OCP/OPP 过载保护机制

OCP(Over Current Protection) 过电流保护机制是牙膏厂强制要求的设计,目的是在电源输出电流过大时切断输出维持系统安全,并且接口、线缆和其他组件不应当熔化或者损坏

pic_035.png

而当前单路 12V 的电源的 12V OCP 过流保护其实已经等于整机的 OPP(Over Power Protection),原因很简单,单路都不够用,更不用谈分成更小的支路了。

按不同厂家的设计,目前电源的整机 OPP 可能会在额定功率的 115%~160% 之间,这就算是网友所谓的超载能力,不同电源能承受的超载时间也是不同的,不会有长时间的超载,通常以几百微秒μs 或者几 ms 毫秒计

对电源来说,超载时巨大的电流与短路的区别只有幅度上的数值差异,比如高端显卡能跑 60、70A,CPU 能跑个 20A,总的接近 90A 了,而元器件采样有一些误差,12V 的短路电流的判断设置肯定是提前会可靠一些,100A 左右就差不多了,还有一部分利用 UVP 来判定保护,综上所述,遵循 ATX12V 标准设计的电源在过载或者是短路时都是要切断输出维持系统安全。

5-5、动态响应特性

看过极电魔方 fcpowerup.com 电源评测的读者应该知道我站有一个动态测试项目,用于考验电源在输出大幅度变化时的工作稳定性和输出质量,对应的即是带大功率 CPU 和高端显卡的使用条件。在『是时候表演真正的技术了,我是怎么测电源的』的 “4-9. 动态测试 Dynamic Test” 章节我已经做了详细的介绍。

在目前 CPU 和显卡的功耗波动实在太大了,所以这个项目尤其重要,电源没有进入保护状态的情况下,需要了解电源的输出质量到底如何,电压有没有震荡,有没有超出板卡工作的允许值,在扛了大幅度的负载波动之后,电压的恢复时间又如何。

按照 ATX12V 标准要求,我站或者是正规电源厂家的动态测试中的电流摆率是 1A/μs,测试摆幅根据电源的输出功率来确定,功率越是大的电源,一般能承受的摆幅(动态功耗)也越大。牙膏厂对于带 CPU 的 12V2 要求是 85% 的摆幅,对带 PCIE 的 12V3/V4 的要求是 80%。电源厂家如果按 ATX12V 的要求来设计电源,那么能保证输出质量所带的最大电流 / 功率摆幅是 80% 左右。

Intel 没有要求电源必须要带得动超过整个电源额定功率的动态负载。换句话说,让一个 300W 的电源,带一张 TDP 250W、峰值 500W 的显卡是超载的。然而这就是目前正在发生的事情。

pic_036.png

由于电源的动态响应性能都是有上限的,如果带了超出电源动态负载能力之外的设备之后,电源可能进入上面提到的过载保护状态,也可能由于 DC 输出电压触发 OVP 过电压、UVP 欠压而保护,没有妥善保护机制的电源也可能烧毁。总之就是无法确保输出质量,也无法确保保护关机时掉电时序、时间能合规。

5-6、接口承载能力

上面谈到接口烧毁,顺带也要提一下接口插件的承载能力。

在动态负载变化极大的情况下,CPU 和显卡散热器由于使用了铜吸热底座和大规模的散热鳍片,并且还有强迫风冷,是可以轻松承受瞬变负载的,散热器储热能力强也只会稍微升高几摄氏度,电源、线材和插件就不同了。

线材方面,按最常用的单芯 PVC 绝缘电线在 30℃环境下,要升温至 PVC 材料的最大适用温度(熔化),16AWG、18AWG、20AWG 和 22AWG 线径线材所能通过的电流分别为 24A、18A、13A 和 10A。PE、XLPE、Teflon 材料的适用温度有所不同,所以能承载的电流也有所差异,这里不展开讲。

而端子方面,板卡使用的 Molex Mini-Fit 5556 单 Pin 能承载的约为 9A,热集聚效应下 3 组 12V(对应 6+2Pin PCIE)削弱到每组可以承载 8A 左右,也就是 3×8=24A/288W,PCIE 协议更保守,写的 7A/Pin,那就是一个 8Pin 最大可以跑 252W,而且还需要降额使用来避免端子由于机械性能失效导致的烧毁。CPU 的 4 组 12V(对应 8Pin),可以承载约 4×8=32A/384W。

pic_037.png

至于最新的 N 卡 12Pin micro-Fit 接口,我认为是老黄嫌弃牙膏厂推不动 ATX12VO,已经无法在 PCIE 插槽走更大的电流,2080 系列在插槽上的使用已经超标了,再这样下去是有烧 PCIE 插槽和 24Pin 的可能。老黄要自己换一个承载能力足够强的插座,现在这个插座以每 Pin 9A 计算,上去都能跑 54A/648W,降额跑个 500W 都没问题,给下一代留下空间,然后逐渐放弃走 PCIE 插槽。~牙膏厂现在的市值只有核弹厂的一半,牙膏厂目前没有显卡,这方面没有话语权,约束不了核弹厂,牙膏厂你们自己玩。~

5-7、电源实践部分

首先拿上了新闻的海韵 FOCUS+550 为例来介绍这一部分。这颗电源是当时评测的那颗,转让给朋友之后也有玩文明 6 重启的现象,所以我取回进行分析。

pic_038.jpg

5-7-1、偷工减料?

我之前写的电源评测都有详细的元器件拆解和物料分析,这一点还是可以确认的,元器件用料没有问题,检查后确认焊接没有不良,元器件在运输中没有脱落,进行满载和过载测试都可以通过。

5-7-2、OTP 过热保护?

空调房,开盖加 2000RPM 的风扇全速散热,12VSR 电路加散热片,电源背面再加一个 2000RPM 风扇。

pic_039.jpg

上热成像仪,最高温度主变压器,也不过 39℃,12V 同步整流 MOS 散热片温度 30℃不到,距离变压器的耐温值或者 MOS 管常见的耐温值 125℃还有很大一截余量。

pic_040.jpg

5-7-3、主电容 UVP 欠压保护?

作为电源的主要储能元件,PFC 电容承担了为后续电路供能的责任,PFC 电路将能量从电网搬运到主电容,主开关电路再将能量输出,显卡的负载极高的情况下,我怀疑会不会是主电容被显卡榨干然后欠压保护。主电容容量和功耗需求计算部分省略。

使用高压探头连接示波器和 PFC 电容,这一步操作比较危险,有 400V 左右高压,禁止模仿。

pic_041.jpg

按 FCP 第二阶段动态负载进行测试,后面还加大了带载比例,下面是主电容波形,主电容为黄色曲线,电压值从 386V~402V,有些波动而且稍微高了一些,但没欠压问题,也就是说,主电容不至于被显卡榨干。12V 电压也是正常的。我在早期怀疑过主电容欠压问题,因为这么大的峰值功耗对 PFC 级也有极大的压力。

pic_042.png

5-7-4、重启瞬间发生了什么?

在跑游戏的时候如果过载保护重启了,电源本身发生了什么事情?不求甚解的玩家这个时候会从什么角度来分析呢?

排除了过热和超频导致的不稳定,我用示波器抓一下电源重启瞬间电源 24Pin 的 12V、5V、PS-ON 信号、Power-Good(PG)信号时序才能了解到底是怎么一回事。

下图通道 1 黄色通道为 5V、通道 2 青色通道为 PS-ON 信号、通道 3 洋红通道为 + 12V、通道 4 绿色通道为 Power-Good(PG)信号。

完整的重启过程是这样的,电源过载保护,12V、5V 输出关断,电源 PG 信号掉到 0V(电源告诉主板电源已经熄火了要关机),随后 PS-ON 信号复位到 5V 高电平,进入关机状态。电源关机后大约 4s 主板拉低了 PS-ON 信号唤醒电源重新开机。

pic_043.png

放大的示波器截图是这样,关机时刻的时序

pic_044.png

主板拉低 PS-ON 重新开机时的时序

pic_045.png

按 ATX12V 标准,电源在过载时应该进入关机锁定的状态(Latch into shutdown state),至于为什么主板又唤醒了电源,我请教过华硕主板的 RD,华硕 RD 表示重新开机的原因是 SIO 或者 PCH 来控制,所以整个重启过程的动作还是牙膏厂说了算。所以本来电源确实是按 ATX 标准的动作来执行关机,然后被主板再次唤醒,这一步会影响很多 RD 对电源故障状态的判断。

电源和主板之间只有 PS-ON 和 PG 两组电压进行通讯,PC ATX 电源没有引入 PM Bus 所以如显示电源状态,如何分配功率等等高级的功能都没有。这部分推广起来比 ATX12V Only 可困难多了,以牙膏厂目前的状态,以及各个厂家各扫门前雪的无协作状态,要迭代到比较智能且有交互的电源标准非常困难,至少我是看不到的。

这颗电源最后被我改了触发特性,会变得相对没那么灵敏,不过仍然不会让它来带高功率显卡。

5-8-1、一大波电源的显卡兼容性测试

除了上面那颗海韵 FOCUS+550,其他电源在这种边界情况到底怎么样?这是我进行 FCP Gaming Ready(FCPG )电源 - 显卡兼容性测试项目的原因,为了解决长期以来受到显卡和 CPU 的峰值功耗困扰而进行的一个探索性测试项目。电源的显卡兼容性测试我一直在做,而且持续了两年,500-850W 的电源评测里一直都有这个项目,只不过一些网友选择视而不见。

pic_046.jpg

简单讲,这一个项目就是要让电源过载,搭建大功率的 PC 平台结合电子负载进行高速动态过载测试,对电源的过载性能和兼容性进行评价。

FCPG 2020(2019-2020 年)的认证使用的测试平台配置跟上面测显卡峰值功耗一致,通过对电源拉载以上平台,使用不同负载程度的拷机软件进行测试,并使用示波器对电源的输出质量进行观察。如果有不稳定的情况,比如触发重启、关机等保护,则降低到下一个档进行测试。若出现了 12V 掉压、过冲,导致掉驱动、黑屏、花屏而没有提前进行保护动作,则该项测试不及格 FAIL。通过测试的电源可以获得相应级别的认证评价。

举个例子,某一款电源的测试结果如下,通过的项目会打√,而不能通过的项目则打 X,不能通过的项目则影响它的得分评价:

显卡 测试程序 / 操作 通过测试
Radeon RX Vega 64LC LinX0.65 + Furmark 1.20.8 X
Radeon RX Vega 64LC LinX0.65 + Heaven 4.0 X
Radeon RX Vega 64LC 3DMark TimeSpy Stress
ASUS ROG Strix 2080Ti O11G LinX0.65 + Furmark 1.20.8
ASUS ROG Strix 2080Ti O11G 3DMark TimeSpy Stress

FCPG 2020(2019-2020 年)的兼容性级别如下,随着硬件的不断更迭,我也会更新配置和对应的级别。

显卡兼容性级别 显卡峰值功耗 代表显卡
A+ 800W+ Vega 64 / Vega 64 LC
A 750~800W RTX2080Ti / Vega 56
B 600~650W 1080Ti /  Radeon VII
C 550~600W 2080 /  R9 Nano / HD7970
D 450~550W 2070 Super / 5700XT /  980Ti / 780Ti / 590 / 470
E 300~450W 2060 / 5700 / 580 4G /  970 / GTX480
F 300W- 1660Ti / HD7850

以下是一款电源的测试示波器截图,通道 1 为显卡输入电流(黄色)、通道 2 为显卡 PCIE 8Pin 12V 输入电压(青色)、通道 3 为 CPU 12V 插座输入电压(洋红),通道 4 为 CPU 输入电流(绿色),通道 M 为 GPU+CPU 运算得到的总功率(红色)。

借助示波器和高带宽的探头,可以观察到电源过载时的峰值功耗和峰值功耗的脉冲宽度,此时峰值功耗达到了 1124W,脉冲宽度约 500μS。

pic_047.png

与电源的 OPP 过载保护测试波形对比,再进行二次验证和分析。

pic_048.png

到本阶段所测试的电源兼容性情况如下表

表格记录了不同型号电源的 OPP 过载保护幅度即超载能力(含超载时间)以及过载的保护动作和 12V 电压情况。

电源品牌型号 FCPG 级别 OPP 超载能力 过载动作 / 备注
恩杰 NZXT E850 A+ ~140% 游戏正常
华硕 ROG Strix 750W Gold A 1044.53W (139.27%) 关机保护
超频三 PCCooler 七防芯 GI-P850 A 1152.12W (135.5%)@560μs 关机保护
威刚 ADATA XPG CORE REACTOR 650W A+ 905.5W (139.3%)@47ms 游戏正常,但 12V 有欠压风险, 低至 9.78V
爱国者 Aigo ES650 B 923.3W (142%)@7ms 游戏正常,12V 电压有过冲风险,高至 12.9V
酷冷至尊 CoolerMaster V650 C 793.3W (122%)@4ms 12V UVP 欠压保护,关机保护
全汉 FSP Hydro GE 650 FAIL 747.4W (115%)@18ms 无保护不重置, 花屏, 12V 电压失控: 10.68~13.44V
恩杰 NZXT C650 B 916.2W (141%)@3.02 关机保护
海韵 Seasonic FOCUS GX-650 B 905.6W(139.3%)@3ms 关机保护
振华 SuperFlower Leadex Gold 650 A 994.2W (153%)@12ms 电源异响
富钧 Xigmatek Harrier HA650 D 988.4W (152.1%)@8ms 关机保护, 12V 电压有欠压风险
海盗船 RM650x 2018 A 875W (134.7%)@3.14ms 关机保护
海韵 Seasonic FOCUS SGX-650 A 909.4W (139.9%)@4.78ms 关机保护
海盗船 Corsair SF750 A+ 1011.09W (134.8%)@1.26ms 游戏正常, 12V 电压有过冲风险,高至 12.6V
海韵 Seasonic FOCUS GX-850 A+ 1285.66W (151.25%)@~2.5ms 游戏正常
振华 SuperFlower Leadex III Gold 650 ARGB A+ 924.65W (142.2%)@17ms 游戏正常
酷冷至尊 CoolerMaster MWE Gold V2 650W A 913.15W (140.48%)@2.54ms 关机保护
海韵 Seasonic CONNECT 1.0 A 1,009.33W (134.6%)@~2.5ms 关机保护
酷冷至尊 CoolerMaster V850 SFX A+ 1225.22W (144.14%)@8.5ms 游戏正常, 12V 电压有过冲风险,高至 12.7V
恩杰 NZXT C850 A+ 1275.62W (150.07%)@2ms 游戏正常
九州风神 DeepCool DQ850M-V2L A 1096.79W (129.79%)@2.63ms 游戏正常, OPP 偏低

总结一下,电源过载保护时间如果比峰值功耗的时间长,则可以撑过峰值功耗,但电源本身的元器件发热会增加,影响元器件寿命,其次增加炸机风险,保护触发时间过长,遇到真正想要进行保护的时刻,保护功能就会显得迟钝,往往会造成更为严重的后果,电源的输出电压调节也容易失控。

在过载的情况下,电源的 12V 电压往往不能保证处于 Intel 标准要求的 ±5% 以内,在异常的输出电压条件下工作,板卡的稳定性和元器件的安全都会受到影响。在 12V 欠压(欠冲 Undershoot)的情况下,容易出现掉驱动、黑屏和花屏的情况,严重的情况下,板卡的 VRM 电路会陷入高负载的情况,增加烧毁概率,而 12V 过压(过冲 Overshoot)则容易增加击穿 MOS 的概率。MOS 管的损坏无非是过流引起结温过高烧毁、过压击穿和静电击穿。

电源的过载保护有着明显的反时限特征,即过载电流越大,熔断时间越短,类似于保险丝或者漏电开关的保护机制。比如恩杰 C650 过载能力 143% 的时候可以跑 2ms,降低到 135% 的时候可以跑 7.8ms,降低到 125% 的时候可以跑超过 1000ms,也就意味着可以一直跑。

需要注意的是,我测试的电源都是比较高端的型号,不代表市面上的电源都有这么高的超载幅度,但低端的电源,有一些可能过载响应时间比较短、迟钝或者没有保护,没有保护就会炸机,谨记。

比如下面这颗航嘉的在上一次的 650W 横评就烧了,5V 上桥击穿,12V 直通 5V。

pic_049.jpg

比如一些保护功能有问题的电源,在需要真正保护的时候遇上了短路,保护不到位,可以烧毁显卡。

pic_050.jpg

5-8-2、分析电源在超载时的情况

威刚 ADATA XPG CORE REACTOR 650W,过载 140% 虽然可以跑 13.8ms,但在 7ms 的时候,电压就开始往下掉,12V 输出低于 10V 的时间累积有 2ms,到 9.78V 的时候,电源的 PG 也没有掉下来,没有关机。虽然它的过载保护触发时间很长,但是中间不可避免会出现掉压的问题。

pic_051.png

Hydro GE 650 在过载状态则是表现出 12V 上下冲超出 ±5% 的范围,上下范围达到 13.44V 和 10.68V。不过这里需要强调是超载状态下,超出预先设计工况下的参数完全可以理解,我之前也测到过更低值,12V 掉到 9.52V,只是建议用户不要过载使用。我用的结果就是显卡花屏,之前在微博也都发了花屏的视频。

pic_052.png

海韵 FOCUS GX-650 在过载时刻的波形是这样的,过载~ 140%,2.55ms 之后 12V 开始关断,PG 滞后 1.5ms 之后掉到低电平,关机。12V 电压在关断到 PG 掉落期间,有 0.4ms 是低于 10V,PG 掉落时刻 12V 电压还有 9.38V,同样有轻微的风险,只不过处于 10V~9.38V 之间的电压对显卡 VRM 而言还算可用。但过载的情况下关断 12V 输出,也已经无法确保掉电时序能符合 Intel 标准的要求。

pic_053.png

振华 SuperFlower Leadex Gold 650,150% 极限超载 11.36ms,约 3ms 之后 12V 开始掉压,最低到 10.86V,电压回调能力相当好,就是电源本身在跑动态时已经咔咔作响。

pic_054.png

我个人是建议有超载需求的购买振华 Leadex Gold 电源,九宫格接口可以支持高端的板卡,这些都是优势,虽然它的 DC-DC 电路一样保护设定非常高,有一些风险。那么号称反向虚标 100W 的振华客服是怎么说的?

pic_055.jpg

海盗船 SF750,过载时 12V 有明显的电压回调动作,极力在拉回 12V 电压,一个回调周期大约 200μs。

pic_056.png

按保护灵敏、保护迟钝、超载能力强(高 OPP)、超载能力差(低 OPP)等 4 种不同表现,可以用纳什均衡进行分析:

1、高 OPP、高灵敏。代表型号是海韵 FOCUS。关机。
2、低 OPP、高灵敏。代表型号是酷冷 V650。关机。
3、高 OPP、低灵敏。代表型号是振华 Leadex G。正常游戏,保护会迟钝一些。
4、低 OPP、低灵敏。代表型号是 Hydro GE。花屏,黑屏,欠压风险上面提过了。

已经是过载了,所以不同的参数设定在这里没有好坏之分,只有适不适应目前配置之分。ATX12V 标准里没有对应的规格要求,这方面内容是无从评判好还是坏的。

如果问我海韵的电源保护是不是灵敏,按目前的配件功耗来回答,是的。但是往前我测过 X 系列,它的保护触发设计其实跟 FOCUS + 是一样灵敏的,当时没有遇到这样大面积的问题。海盗船有些型号也是 2~3ms 的触发。甚至酷冷至尊和九州风神也有差不多灵敏的。他们确实是倾向于保护的设计。

而超载的情况则会让电源和板卡陷入一些故障点,而且也无法都保证输出质量,就连掉电保持时间的时序也都无法严格遵守了。电源厂的产品经理和研发要在中间进行取舍,有一些品牌倾向于保护,那么就会失去兼容性,重启。有一些品牌倾向于兼容性,那么在产品的保护功能和寿命上就要作出牺牲,尤其是长期高负载运行对于电容的老化有加速作用。

相信电源厂的研发 RD 会往保护功能加点数,而市场部的人员和用户更愿意牺牲电源的寿命往兼容性上加点数,即便是有烧毁板卡的可能性。作为消费者我也是这样加点数的,反正电源烧毁的情况下,大部分品牌都不会拒保,而且还是这样长的质保期。

目前的电源都有 5 年 10 年的质保,而板卡的质保也就 2 年 3 年,相比板卡,电源的质保时间越长,它往后几年就会遇到更困难的挑战,对于电源的设计来说,保护参数的设定也更加困难。

羊毛出在羊身上,电源的保护设计要改动,很多都是需要提高成本的。比如海盗船近年连续更新 RM 系列,据说 RM2019 就在这方面有所改进,但成本和可靠性方面又要进行重新的平衡,海盗船 RM2019 就换了台系电容。而振华也在产品页写出了 2 段式过载保护,也是从设计上来规避显卡峰值功耗问题,同样振华现在也不标榜全日系电容,成本上可能也进行重新分配,加大一部分元器件的余量,选择器件的时候优先考虑的是规格而不是产地、品牌。

5-9、如何算电源功率需求

很简单的数学题。

累计 CPU 和显卡的峰值功耗,硬盘数量不是很多的情况下基本可以忽略不计,CPU + 显卡占据整机大部分功耗,再决定电源的额定功率要不要包住 CPU 和显卡的峰值功耗。

如果选择电源的额定功率包住峰值功耗,那么很多高端配置的电源就需要千瓦起步。~我个人是不建议这样的,因为很多人反对铺张浪费~。

如果选择让电源超载,超载的副作用我上面已经说得很清楚了,板卡和硬盘都有一段输入电压适应能力,欠压和过压大部分时候也能正常工作,如果觉得能接受,也不是什么大问题了。重启无非是再打开一次游戏,配件坏了也有保修。

选择了超载,还可以拼人品,拼一下是要让电源过载到 110% 还是 150%,不同电源的过载能力也是不一样的。这个时候就不要想什么余量了。

下面是很久以前制作的一张峰值功耗匹配图表,CPU 只计算到 PL2(其实是懒,不想再调整了,实际上 CPU 可以跑到 PL4),CPU + 显卡的功耗是黄色条目,可以和电源的超载功率对比一下是否匹配。

pic_057.jpg

低端的显卡没那么高的峰值功耗,对电源构成的压力不是很大,而高端一些的显卡,面对中低瓦数的电源只要保护宽松一些也是可以确保运行,不重启。

如果打算电源服役 5 年 7 年,还需要再留余量,比如往前推 5 年,2015 年的顶级配置是 i7 6700K+GTX980Ti,峰值功耗最高应该不会超过 700W,所以以前那些保护设计偏向于灵敏的电源在当时一点事情没有,用一颗 550W 电源超载 130% 都能包裹。电源也会在使用中不断老化,届时电源的输出功率和性能指标也会随着缩水。

按目前的趋势,那些质保十年的电源到了服役后期要如何才能扛得住最新的配置?是一个严重的问题。

6、电源市场情况

6-1、功率销量趋势

市场的情况是本文的重要章节,避免读者陷入 “我如何我朋友又如何” 的幸存者偏差。

我在去年就发过一个版本,来源图片右上角,懂的都懂~,引用一些机密文件真是很大风险呐~。今年的报告数据统计范围是从 2018 年第一季到 2020 年第二季度。

pic_058.jpg

可以看到近一半的用户的愿望都是用 550W 带旗舰卡。这也就可以解释为什么翻车的大都是 500~650W 范围内的电源,大多数用户不舍得花更多钱,希望 550W 能战未来,毕竟 TDP 相加都不会超过 500W,预算上限或者心理的高端就到这了,低功率的电源,OPP 点也低,容易被触发导致翻车。

pic_059.png

但是大趋势是 500W 以下瓦数型号的销量在不断下滑,600W 以上瓦数的型号销量在增长,尤其是 600-700W 这个瓦数段,在 2020 年第二季度已经达到 20% 的销量比例。

我 2012 年还在媒体的时候就做过 450W 的电源横评,当时市场需求最大的是 450W 型号,后来主流的瓦数逐渐演变到今天的 650W。今年 850W 电源已有过多次促销。我在本文预测,平民价位的 1000W 也差不多安排上了。

6-2750W 真带得动 3090?需要 12Pin?

峰值功耗上面说得够多了,我们以平均最大功耗,玩家都能看得到的插座匹配来分析问题。

3080 和 3090 Founder’s Edition 公版官方推荐电源为 750W,这张 2 卡 TDP 分别是 320W、350W,用 2 个 8Pin 接口连接(12Pin 转接的方式)。按照协议,一个 PCIE 8Pin 上限 150W,PCIE 插槽扣掉 3.3V 的 10W,剩余的 12V 上限 65W,2 个 8Pin 加上插槽总共 365W 左右的协议上限。

这两个转接的 8Pin 要承载接近 300W 功率,已经游走在协议的边缘,压力比较大,虽然离物理上限还有一截距离,而且 Astron 用的端子是 9A 的,普通的 PCIE 端子是 6~8A,顶级合金端子才能跑到 9.5A,瓶颈就在这了。如果跟 2080Ti 一样,PCIE 插槽分担多一点电流,还容易烧掉插槽和 24Pin。

pic_060.jpg

所以,要么是用 9A 的 micro-Fit 端子做成原生 12Pin 模组线,~我已经做好了~,要么是做成非公版 3x8Pin mini-Fit,要么是从 BIOS 里面限制 TDP。

非公版的 3 个 8Pin 就宽裕多了,而且目前看来 AIC 主要都会卖这一版本。但是 750W 的电源,带高端的 CPU 除了要接 2 组 CPU 模组线之外,还要接 3 条模组线给显卡才能确保可靠性,以前说过很多次了,2 个接头用 1 组模组线都是用 1 组的端子在扛,实际上只满足插满心理。我的朋友小花帮我整理了市面上主流品牌的 750W-850W,一共 71 款。

750W 的 35 款中能完美支持的只有 6 款,其他大部分都不能以最优的方式连接。

850W 的 36 款中都有 25 款能完美支持,可以同时支持高端 CPU 和 3 个 8Pin 的 30 系高端显卡。没有 5 个插座和 5 组模组线的都要牺牲一些可靠性。

还有人想继续用 650W 的电源带?读者们可以看一下哪些电源具备 5 个插座,我觉得 650W 的情况不会比 750W 好很多,几乎全军覆没。表格数据量有点多,可以慢慢看。千瓦的没有计入,大部分应该没问题。

pic_061.png

7、常识性的认知错误

现在回过头来看,正常人不会拿 550W 电源带 Vega 56/64,但仍然普遍存在一些认知错误。以下是我的评论里经常会出现的一些常识性的认知错误。

7-1、思维固化,理想模型害人不浅

大多数人认为功耗是平稳的,只相信功率计、软件的读数。功率的样子就是直上直下的,如下面的示波器截图,X 轴为时间,Y 轴为电流。多数人的脑海里认为显卡的功耗、CPU 的功耗都应该是这样。

这是一个纯电阻通电后的电流曲线,由于电阻两端电压恒定,也算是比较理想功耗曲线。每个人应该都学过初中物理课,甚至年青一代应该在更早的阶段就懂得电灯泡电路模型,理想模型害人不浅。

pic_062.png

而实际上 APFC 电源的 AC 交流插座输入端的电压和电流波形是这样的,呈现正弦波。两者的乘积即功耗总是这样周期性往返,功率插座如何从正弦波的波形采样、运算并且显示当前的功耗,值得思考。

pic_062_1.jpg

经过上面的这么多讲解。读者应该能理解并不是不拷机就没有峰值功耗。芯片运行的时候,它的负载特性不由人的意志决定。

7-2、认为电源要留有余量

我认为的留下余量是 DC 输出端的余量,而不是从功率计上看到的余量。

实际上现在的电源大部分都在超负荷运行,留下余量的话那电源要买得巨大,比如峰值功耗叠加起来再留百分之几十,那都快赶上两千瓦了,没必要,本文看完之后你应该使用新的方法。

7-3、电源是个变压器能无限超载

认为电源能无限超载。同样出自中学物理,认为电源就一个变压器,线圈匝数比 = 输出电压比。

实际上现代的电源工作在高频开关模式,被称之为开关电源,有着多级电路,通过晶体管的开关,简单形象通俗地说,就一个能量搬运开关,是将能量从 220V 电网搬运到主电容,再切碎成各种直流电压释放分配给各个配件。

7-4、电源瓦数越大越耗电

电脑是否耗电取决于 CPU、显卡等配件的规模和使用的方式,电源的转换效率为次要因素,与电源的输出功率无关,电源只是一个能量搬运工,不产生能量,工作的时候消耗小部分能量。千瓦级的金牌电源,在轻载部分比一些小瓦数铜牌电源的典型负载阶段还要省电。不需要刻意追求 50% 典型负载的高效率,那没意义,不是用户要追求的东西,是研发人员要追求的参数,任何电源跑轻载肯定比跑高负载更省电。

pic_063.png

具体可阅读我之前写的文章『什么是 80 PLUS,金牌换钛金电源能回本吗?

7-5、电源厂设计好了一切

我去过很多电源厂,很多电源厂家的测试平台非常老旧,可能他们的老板开着大奔,但是他们的测试平台只有 940、970 显卡。测试部门想买 2080Ti,1 万多的预算,肯定会被领导驳回——“没办法每年这样升级,你们是测电源还是玩游戏?”

RD 工程师不是神,没有上帝视角,只能按 Intel 的标准和安规来设计,并且尽可能压低成本,否则世界上就不存在各种设计失误或者不良案例了。产品经理也是,想着堆料搞高规格往往会被炒鱿鱼。跟他们接触之后你会发现他们不过也是普通人。不像物理学家那样爱钻牛角尖,一个东西能稳定工作,那么就 OK 了。

但是优秀的开关电源研发人员,必须了解负载特性,才能做好符合当前配置需求的电源。 我不是在鄙视某些品牌的研发,请勿对号入座。

7-6、你听说过电容吗?

曾经有评论跟我说,你知道电容吗?电容都能扛。

电容不是雷神之锤,储能是有上限的,还是以上面 1000W/50ms 的峰值功耗参数来计算,要撑住这么大的能量,需要在输出端堆多少电容:

W=1/2CU²,W=50J,计算得电容容量 C=694444uF,以目前较大的 3300μF/16V 规格输出电容计算,需要堆 210 颗才有这个容量。成本巨大,还影响 Rise time 开机时序、放电时间等参数,会引起开关机不良,修补一个问题同时带来更多问题,并且产生专利纠纷。如果电源厂能加量不加价,那么是解决问题的最好办法,把 850W 当 650W 卖,解决一切问题。

以后说 “他肯定不知道电容的”,请先自己计算一下。也有网友评论~一群连电源设计都不懂的麻瓜说电源可以干这个干那个。~

7-7、显卡凭什么替 CPU 决定用多大电源?

没错,为什么整机的电源功率建议要写在显卡盒子上,而不是 CPU 盒子上或者是主板盒子上或者是机箱上甚至是电源上面。电源行业的游戏规则是 Intel 制定的,为什么显卡要替 CPU 决定这事?

8、我这 2 年都经历了些什么?

8-1、我是如何被卷入事件的

通常我的电源在发完评测之后,都会折价转让给身边的朋友,我提供友情维修服务。上面有说过,海韵 FOCUS+550 转让给朋友之后,朋友搭配的农企平台 + Vega 56,反馈玩文明 6 的时候偶尔会重启,问我电源是不是有问题,我信誓旦旦说 95W 的 CPU+210W 的显卡加起来 300W 出头,绝对够用。就像下图的网友一样,信誓旦旦。所以电源最终被退货,我自己探索原因。

到底是海韵电源垃圾呢,还是什么问题,只有研究清楚了才能去怼厂家。

我在研究发现故障的原因之后,认识到问题的严重性,在第一篇文章里也表示装机猿误导网友,作为数码区最大的 UP,有必要承担一些责任,最终装机猿也从酷冷的朋友那边了解到真实的情况。

pic_064.jpg

按理说,经我手的电源,我都会跑到满载,甚至过载 120%,再往上拉高跑到过载保护,详情可以看我的评测电源标准。我认为,能在我这个久经考验的电源评测体系存活下来的电源本身是没任何问题的,至少按照 Intel 的标准来跑,反复跑测试,负载仪长时间满载烧机,毫无问题。

8-2、事件的大背景

那会还是 2018 年夏天。牙膏厂最高端的桌面级 CPU 还是 8700K,Zen + 发布没多久,核弹厂最高端的显卡还是 1080Ti,农企发布 Vega 56/64 系列过了大半年。梳理一下时间线可以发现,事情的起始时间点刚好是 2018 年,而地球上三大 CPU、GPU 厂家在 2017 年发布了重磅产品,半导体工艺停滞,CPU 进入核心数量大战时期。

有时候就是这样的,一些问题探索到最后发现是人类科技撞到天花板所产生的连锁反应罢了。

这一年的十月假期,我写了一篇关于 Z390 主板的电源选购指南,介绍 TDP、PowerLimit 的概念和 Z390 新增的额外 4Pin 的 CPU 供电接口意味着什么。

8-3、开始有电源厂躺枪

2018 年冬天,第一个躺枪的电源厂出现了。黑五前夕,德国媒体 Techpowerup 从海韵官网搬运了一篇存在已久的 QA 问答,指出海韵的电源有严重的故障,FOCUS + 系列与华硕板卡有兼容性情况,另外与 Vega 显卡搭配会出现关机情况。大部分读者都不知道 Techpowerup 的电源评测栏目是外包给希腊人 Airs,也是我的朋友,其他电源内容都是 Techpowerup 编辑部的新闻通稿,突然出现一篇电源故障新闻就有点奇怪。

pic_064_1.jpg

国外的月亮就是比较圆,国内某家媒体搬运了这篇新闻,文笔挺吸引眼球的。电源爆炸是媒体和用户喜闻乐见的,一个电源正常运行不会有人关心,当它爆了就会上新闻。可惜啊,国内欠缺具备分析故障的能力的媒体和玩家。

海盗船 SF 炸了的时候,我知道是绝缘片不良,RMX 炸了的时候,我知道是 NTC 热敏电阻选型失误,事实是怎么样就怎么样。换成不求甚解的媒体,可以把这些事件添油加醋描绘成一些迎合读者的读物,但对于问题真正的原因没有人感兴趣。

随后海韵官方微博进行了回应,表示其研发部门在测试双卡 Vega 56 CrossFire 时,抓到高达 102A / 10ms 的峰值功耗。意味着电源要输出 1200W 的功率才带得动显卡,折半也有近 600W 的功耗。用户使用 550W 的电源来搭载 Vega 56/64 会容易过载保护,为了安全,电源的设计倾向于保护,相对容易出现重启关机,2018 年后的电源已经修改了过载保护灵敏度。

pic_065.jpg

那是第一次有厂家公开发表此类的事情。海韵的公告提醒了我,我曾经在其他朋友那边听到过类似说法,从这个时候开始,我打算对这个故障的具体情况进行了探索,考证一下是否有海韵官方所描述的情况,如果确实有这种情况,电源里又发生了什么情况导致的重启。切入保护也有很多种原因,是过热?元器件缩水?UVP?OVP?OCP?如果是海韵的设计导致的,那是否违反了 ATX 标准?如果是,可以通过法律途径进行投诉。

话说回来,在电源厂家里面,海韵的技术相当激进,虽然他们在保护特性里面的设置偏向于保护(保守),评测表现出来的性能位居前列,用户往往有非常高的预期,X、P 系列由于元器件不良导致的开机问题,给用户带来巨大落差,这些年在用户中积累了极高的仇恨值,凡是出故障,挨批再正常不过,媒体或者黑粉煽风点火,就会看到一种全板块集体讨伐海韵的奇妙景象,这都是积累了太多不良问题而产生的反噬。

我更喜欢挖掘和分析故障,凡是故障都可以分析出原因的,抱怨是简单的但不能解决问题,所以你们会看到这篇文章。

出现这种情况的厂家有不少,只是海韵第一个躺枪了,其他厂家的案例我这里有一大把,也发过几个视频了,这里不提出来只是保护他们,在显卡功耗的摧残下不想让他们受到二次伤害。

8-4、故障的分析和线索的收集

在上述的事情发生之后,我研究和准备了 2 个月的时间,期间了解到一部分电源厂已经发现问题并且着手改进电源。在海盗船产品总监 JonGerow 创立的 JonnyGuru 论坛上面有类似的案例,同样是用户在讨伐海韵。JonGerow 表示那是因为过载,有一些电流尖峰导致了电源保护,不同的电源实测有不同的保护特性,海韵的产品可能偏灵敏,而其他有一些电源相对迟钝。可以推测,海盗船在 2018 年底可能早已经解决了这一问题,或者说,取得研究成果,顺带把合作厂家侨威、长城的保护机制也都调整了。

而海韵可能是在 2017 年底这个节点完成了产品改进,所以有上面提到的 QA 问答和公告里的 2018 年出货改良的说法。其他厂家可能更早遇到并且解决了问题,比如 EVGA 的产品经理就跟我提到过多段式保护的事,EVGA 是有着大量显卡产品,他们知道显卡有峰值功耗并不奇怪。作为 EVGA 的代工厂,振华,也应该很早就了解到这一问题并且解决。我 2015 年在振华工厂就看过不少正在跑 3D 游戏测试的平台。

在搭建了平台之后,我测了一张 2080Ti、一张 Vega 56,后者的峰值功耗接近 64A/767W 并且写到了『不看可能会翻车,显卡瞬时功耗及电源重启之谜』那篇文章中,在那篇文章的最后我提出了 “千瓦战未来” 的说法,其实也表示了我对未来显卡功耗的担忧,情况终于是要面对了。那么,550W 的小电源过载就上新闻也有点夸张,那意味着电源要过载 140% 才能达到显卡的峰值功耗,这还不包括 CPU、主板和 SSD 的功耗。

如果问我亲眼看到了高达 50、60A/600、700W 的峰值,那么我会怎么处理?首先我肯定是认可了海韵官方的说法,因为我自己搭建了测试平台,看到了示波器上的显卡负载波形,同时也看到了功率计上的读数。不过这个时候,对波形的规律和电源的保护机制还毫无头绪。

pic_066.png

发完了第一篇文章之后,我了解到国外的 KPC Team 也在做同样的事情,他们写了 EVGA 2080Ti Kingpin 的极限超频教程,测了峰值功耗并且也推荐了使用的电源功率。https://xdevs.com/guide/2080ti_kpe/

我手上的这颗 FOCUS+550 序列号是 2017 年 9 月份的,Vega 10 这代显卡还要 2017 年 8 月份才发布,所以设计电源的时候,RD 肯定是估算不到显卡会有这么高的功耗。那么以前的一些旧电源,他们的设计又是怎么样的?为什么以前重启的案例比较少听说。

所以测完显卡的功耗之后,我还需要做的事情是:

1、测试其他显卡有多高的峰值。

2、测试其他电源能不能承受这个峰值。

3、电源如果不能承受,为什么?

普通玩家这个时候会如何处理?上网发帖投诉?挂到烈士墙?枚举法试错?经验主义?能解决问题但不知道真实原因,有时候趟雷趟了很多也不会得到本文这样的结论的。

在近两年的时间,我进行了大量的测试 ~I can do this all day~。测了几十张显卡的功耗情况,几十款电源的过载保护情况和显卡兼容性情况,在研发端改良了一些电源的保护触发设计,也在网上参与争吵浪费了不少时间。我决定还是把终结篇写一写,避免浪费时间去吵架,甩链接最省事。

pic_067.jpg

完成这篇文章之后,我决定要把这个文件夹封存起来。整理数据太累了。吵架实在浪费时间。我要去研究新的课题了。

9、One more thing

我一定是被知识诅咒才要写这种东西。真是吃力不讨好。一方面用户埋怨我,一方面得罪大量厂家。

衷心感谢在这段时间里对我寄予帮助的各位大佬朋友,不限于理论知识上的点拨和显卡上的赞助。

如果你觉得本文对你有所帮助,请转发给你身边的朋友。

微博抽奖传送门,抽 1 个 1T 的 SSD,闪迪原厂或者 WD SN550 :https://weibo.com/1092211747/JjmJblwmx

pic_068.jpg


或许明日太阳西下倦鸟已归时