热门资讯> 正文
2025-12-31 11:15
本文来自格隆汇专栏:半导体行业观察
前言
近年来,AI与高性能计算的爆发式增长,正推动计算需求呈指数级攀升。从ChatGPT的横空出世到Sora带来的视觉震撼,大规模AI模型不仅在参数规模上指数级膨胀,其对计算能力的需求更是呈现出令人惊叹的增长曲线。
然而,在这片繁荣的背后,一个日益严峻的挑战正浮出水面——“存储墙”。
从千亿参数的大语言模型到边缘端的智能终端,各类应用对存储器的性能、功耗、面积(PPA)提出了前所未有的严苛要求。存储“带宽墙”成为制约AI计算吞吐量与延迟的核心瓶颈,传统存储器技术已难以满足系统能效优化需求,巨大的性能缺口正制约着AI芯片发挥其全部潜力。
作为全球半导体制造的领导者,台积电深刻洞察到这一根本性矛盾。在2025年的IEDM(国际电子器件会议)教程中,台积电清晰指出:未来AI与高性能计算芯片的竞争,将不仅仅是晶体管密度与频率的竞赛,更是内存子系统性能、能效与集成创新的综合较量。
本文将基于台积电的技术蓝图,以SRAM、MRAM、CIM为核心,结合3D封装与计算-存储融合的全栈技术体系,深入剖析面向AI计算的高速嵌入式存储器的技术演进、当前挑战与未来融合趋势。
AI模型的进化史,堪称一场对算力与存储的极限压榨。
从早期的AlexNet到如今的GPT-4、Llama2、PaLM,模型参数从百万级跃升至万亿级,模型规模的扩张直接带动训练与推理阶段的计算量(FLOPs)突破天际。数据显示,过去 70 年间,机器学习模型的参数规模提升,训练计算量增长超过 1018倍,推理计算量同步呈现爆发式增长。

然而,根据经典的Roofline Model(屋顶线模型),任何计算系统的最终性能,都由其峰值算力和内存带宽共同决定。
因此,这种爆发式增长的计算需求,不仅对处理器性能提出挑战,更将存储器推向了技术变革的前沿——存储器的带宽、延迟、能耗与密度,已成为决定AI/HPC系统整体性能的核心要素。
计算性能的增长速度与存储器带宽的提升速度严重失衡,形成了制约系统性能的“带宽墙”。据数据统计显示,过去20年间,硬件峰值浮点运算性能(HW FLOPS)增长了60000倍,平均每2年增长3.0倍;而DRAM带宽仅增长100倍,平均每2年增长1.6倍;互连带宽增长30倍,平均每2年仅增长1.4倍。

这种失衡的增长速度,导致AI推理等场景中,存储器带宽成为限制计算吞吐量的主要瓶颈,大量计算资源因等待数据而闲置。以英伟达的H100 GPU为例,其BF16精度下的峰值计算性能达989 TFLOPs,但峰值带宽仅3.35 TB/s,当运算强度不足时,系统性能将陷入存储受限状态,庞大的计算潜力无法充分释放。
面对AI与HPC的严苛需求,存储器技术需同时满足三大核心指标:大容量、高带宽、低数据传输能耗。大容量保障模型参数与训练数据的存储需求,高带宽解决数据吞吐瓶颈,低能耗则是实现绿色计算的关键——高功耗不仅会增加硬件成本(如更大容量的电池、更复杂的冷却系统),还会限制边缘设备等场景的部署可能性。
在此背景下,传统计算为中心的架构正加速向存储为中心转型,高密度、低能耗的嵌入式存储器成为技术突破的关键方向。台积电认为,未来存储器架构的演进路径将围绕“存储-计算协同”展开:从传统的片上缓存,到片上缓存+大容量封装内存储器,再到高带宽低能耗封装内存储器,最终实现存算一体与近存计算,通过存储与计算的深度融合突破性能与能效瓶颈。

为平衡速度、带宽、容量与功耗的多重需求,现代计算系统普遍采用分层存储架构。从寄存器到存储设备,不同层级的存储器呈现出明确的性能-成本权衡:寄存器与SRAM缓存凭借低延迟(寄存器1ns、SRAM缓存10ns)、高带宽优势,承担高频数据访问任务;HBM与DRAM主存平衡容量与性能;SSD等存储设备则以大容量、低密度满足海量数据存储需求。

台积电认为,AI与HPC时代的存储技术演进,绝非单一技术的单点突破,而是材料、工艺、架构、封装的全链条协同优化。
面对行业挑战,台积电基于上述层次结构,持续优化各层级嵌入式存储器技术:SRAM作为缓存层核心,通过工艺与设计创新提升密度与能效;MRAM以非易失性、高密度特性,填补嵌入式非易失性存储器(eNVM)的技术缺口;DCiM则打破存储与计算的物理边界,从架构层面优化能效比。同时,3D封装与芯粒集成技术的发展,进一步缩短了存储与计算单元的物理距离,为突破“带宽墙”提供了系统级解决方案。
静态随机存取存储器(SRAM)作为高速嵌入式存储器的主力方案,凭借低延迟、高带宽、低功耗、高可靠性的核心优势,成为寄存器、缓存等关键层级的首选技术。其兼容先进CMOS逻辑工艺,从FinFET到Nanosheet架构,SRAM持续通过工艺迭代优化性能。
在应用场景中,SRAM广泛部署于数据中心CPU、AI加速器、客户端CPU、游戏GPU、移动SoC等各类高性能芯片。从工艺节点来看,SRAM已覆盖N28至N2全节点,随着先进工艺(N3/N2)的普及,其在高性能计算芯片中的用量持续增长,成为提升芯片性能的核心支撑。
其中,SRAM的面积缩放是优化芯片性能的关键,但随着工艺节点向7nm、5nm、3nm乃至2nm演进,SRAM单元的面积缩放速度逐渐放缓,面临诸多技术挑战。台积电通过设计-工艺协同优化(DTCO)策略,结合多种创新技术,实现了SRAM的持续缩放。
从技术演进历程来看,SRAM的面积缩放依赖于关键节点的工艺与设计突破:90nm节点引入应变硅技术;45nm节点采用高k金属栅(HKMG)工艺;28nm节点推出FinFET架构、飞跨位线(FLY BL)与双字线技术;7nm节点应用EUV光刻与金属耦合技术;2nm节点则通过Nanosheet架构实现进一步缩放。

这种密度提升,使得芯片在有限面积内可集成更大容量的缓存,直接推动计算性能提升——每周期指令数(IPC)随L3缓存容量增加而显著增长,32倍缓存容量下,CPU性能提升效果尤为明显。能看到,SRAM缓存的能效和响应速度远超DRAM主存和SSD存储。
不过,随着工艺节点向7nm、5nm、3nm乃至2nm演进,SRAM面临着日益严峻的发展挑战:一是面积缩放速度放缓,SRAM单元的尺寸缩小幅度逐渐收窄,在有限芯片面积内集成更大容量缓存的难度持续增加;二是最小工作电压(VMIN)优化困境,低VMIN下读写稳定性面临挑战,直接影响芯片能效;三是互连损耗加剧,Cu金属线线宽小于20nm时,电阻率快速上升,导致字线与位线的电阻和电容显著增加,制约SRAM的速度提升。
为应对解决传统芯片上SRAM缓存的面积限制,除了上面提到的工艺层面的持续演进和技术创新之外。在设计层面,台积电推出3D堆叠V-Cache技术,通过3D堆叠架构优化末级缓存(LLC)的容量、延迟与带宽。

AMD Ryzen™ 7 5800X3D 处理器采用该技术,集成8个计算核心、512KB L1缓存、4MB L2缓存与最高96MB共享L3缓存,通过32字节/周期的双向总线,实现了缓存性能的跨越式提升,游戏性能显著提升,充分验证了3D堆叠SRAM对计算性能的赋能作用。
此外,台积电还开发了写辅助电路、读辅助电路、双轨SRAM等技术,将N3工艺SRAM的VMIN降低超过300mV;通过交错三金属层字线、飞跨位线等技术,降低互连损耗,提升SRAM的速度与密度。
未来,SRAM的发展将聚焦两大方向:一是持续推进工艺缩放,在N2及更先进节点上,通过Nanosheet架构与DTCO策略的深度融合,进一步提升密度与能效;二是与3D封装技术结合,通过垂直堆叠实现缓存容量的跨越式增长,匹配AI加速器的超高带宽需求;三是与存算一体架构协同,成为DCiM的核心存储单元,在计算过程中提供高速数据访问支撑。
如果说优化SRAM是在传统架构上精雕细琢,那么存内计算(Computing-in-Memory, CIM)则是一场更具颠覆性的架构革命,其核心思想直指“存储墙”的病根:减少不必要的数据搬运。
在典型的AI加速器中,超过90%的能耗可能用于在存储单元和计算单元之间搬运数据,而非实际的计算操作。因此,数据移动和搬运成为制约加速器能效比的核心因素。

CIM架构则打破了“存储-计算”分离的冯·诺依曼架构,将简单的计算功能直接嵌入到内存阵列中,将计算单元与存储单元紧密集成,数据在原地或近旁被处理,极大地节省了能耗和延迟,成为解决这一问题的关键路径。

与传统DLA(深度学习加速器)中存储与计算分离、依赖数据搬运的架构不同,CIM架构实现了计算在内存中,数据复用率显著提升,能效比大幅优化。
对于模拟存内计算(ACiM)和数字存内计算(DCiM)两条路径,台积电认为,DCiM相比ACiM更具发展潜力。
与ACiM相比,DCiM凭借无精度损失、灵活性强、工艺兼容等,在技术缩放、精度控制、场景适配等方面具备明显优势:ACiM面临模拟信号变化、动态范围受限等挑战,而DCiM能够兼容先进工艺,随节点演进持续提升性能,且支持多精度计算,成为AI计算的核心架构方向,特别适用于边缘推理场景,为解决数据中心和终端设备的能效瓶颈提供了可扩展的解决方案。

DCiM 的核心优势体现在三方面:
灵活性高: 可以针对不同的AI工作负载配置计算位宽,在精度和能效间取得最佳平衡;
计算密度高:得益于先进的逻辑工艺,DCiM的能效(TOPS/W)和计算密度(TOPS/mm²)随着制程进步而显著提升。台积电数据显示,从22nm到3nm,DCiM宏的性能指标实现了数量级的飞跃;
精度灵活与能效比高:支持INT8/12/16及FP16精度,精度损失<2.0%,INT8精度下的能效比相比传统架构提升约4倍。

MRAM:非易失性嵌入式存储器的新突破
另一方面,随着汽车电子、边缘AI等新兴场景的崛起,市场对存储器的需求超越了速度和能效,非易失性、高可靠性和极高耐久性成为关键。
传统的嵌入式闪存(eFlash)在28nm以下工艺微缩困难,难以满足先进工艺节点的密度与性能需求。而磁阻随机存取存储器(MRAM)则展现出强大的技术生命力,凭借低待机功耗、高密度、非易失性、速度快、耐久性和工艺友好等核心优势,成为eNVM的理想替代方案。

台积电认为,MRAM的核心价值在于兼顾性能与非易失性,能够同时满足高速读写与数据长期保存的双重需求,这使其在软件定义汽车、边缘智能终端等场景中具备不可替代的优势。

例如在汽车电子领域,MCU广泛应用于车载系统,下一代软件定义汽车架构对MCU的性能、可靠性与安全性提出了更高要求。MRAM的速度与robustness支撑OTA更新功能,能够延长车辆生命周期并提升功能扩展性。台积电N16 FinFET嵌入式MRAM技术已满足汽车应用的严苛要求:100万次循环耐久性、支持焊料回流、150℃下20年数据保持能力,成为车载MCU的核心存储方案。
在边缘AI领域,MRAM支持TinyML、MobileNet等紧凑AI架构,仅需2-4MB容量即可存储模型权重,同时支持安全OTA更新。相比云端AI与移动AI,边缘AI/MCU对存储容量需求较低,但对能效与可靠性要求更高,MRAM恰好匹配这一需求特性。

但MRAM也存在明显短板,比如单位容量成本高于DRAM与NAND;高温度环境下的数据保持能力需通过技术优化保障;强磁场环境下的抗干扰能力需特殊设计,强永磁体(N52)环境下需保持9mm的安全距离等。
为解决MRAM的短板,台积电通过多重技术优化提升其可靠性:一是数据擦洗(Data Scrubbing)技术,定期重读数据、检测错误并将修正后的数据写回存储单元,结合ECC纠错,125℃下可将位错误率(BER)控制在预算范围内;二是抗磁性干扰设计,通过优化MTJ结构与布局,确保车载等复杂环境中的稳定工作;三是应用差异化优化,针对NVM与RAM两种应用场景,通过调整参数权衡数据保持能力、密度与速度,满足不同场景的需求。

数据擦除以提升数据保持可靠性

MRAM抗磁性干扰能力
据悉,台积电已将N16工艺的嵌入式MRAM(eMRAM)技术成功推向市场,特别是在汽车领域大放异彩,并正在向更先进节点迈进。
计算-存储融合:系统级优化的“终极路径”
台积电认为,AI与HPC时代的存储技术突破,最终需要走向系统级的计算-存储融合。单一存储技术的优化已难以满足“更高带宽密度、更低单位比特能耗、更短延迟、更高互连密度”的系统需求,必须通过3D封装、芯粒集成等技术,将存储与计算单元紧密连接,实现存储靠近计算的架构重构。

在此趋势下,2.5D/3D先进封装将提供关键赋能,通过将计算芯粒(Chiplet)与高带宽内存(如HBM)通过硅中介层(Interposer)或硅桥(Silicon Bridge)封装在一起,可以创造出一个带宽极高、距离极近的超级系统。这种2.5D/3D集成技术,使得内存带宽能够匹配先进AI加速器的巨大吞吐需求。

台积电在先进封装领域已形成广泛布局,例如:
CoWoS: 台积电的先进封装平台,将逻辑芯片和HBM集成在硅中介层上,实现了远超PCB级别的互连密度和带宽。
SoIC: 更进一步的3D堆叠技术,允许芯片像盖楼一样垂直堆叠,实现芯片间最短、最密集的互连,将数据移动的能耗和延迟降至最低。
这种高密度互连带来了诸多优势:缩短数据移动路径,降低数据移动能耗与延迟;提升带宽密度,解决“带宽墙”瓶颈,3D堆叠的比特能效相比封装外铜互连提升60倍;模块化设计支持灵活配置,适配不同应用场景的需求,AI内存带宽需求已达20.0TB/s,3D封装可高效支撑等。

综合分析,未来的AI芯片,可能不再有明显区分的内存和计算边界。通过3D堆叠,计算单元可以被直接放置在高速缓存或存内计算单元之上,形成紧耦合的异构集成体。同时,集成的电压调节器、光子互连等创新技术,将从供电和通信层面为整个系统解绑。
这种系统级的思维,意味着芯片设计者、存储器专家、封装工程师必须更早、更紧密地协作。从架构设计之初,就统筹考虑计算模式、数据流、存储层级和物理实现,通过内存-计算协同优化,突破存储墙与能效瓶颈,最终实现能效和性能的阶跃式提升。
AI计算的未来,是一场围绕数据进行的效率革命,正推动存储技术进入全维度创新的新时代。
面对“带宽墙”与“能效瓶颈”的双重挑战,台积电的技术蓝图清晰地描绘了这场革命的路径:以SRAM为缓存层核心,保障高速数据访问;以MRAM的多元特性开拓新场景,填补非易失性存储的技术空白;以DCiM的架构创新为利器,实现存算一体,突破能效瓶颈;最终以3D封装与芯粒集成实现系统级融合,重构存储与计算的连接方式,构建出真正能满足AI巨大算力渴求的下一代硬件平台。
对产业而言,这意味着竞争格局的深化。领先的半导体企业不仅需要掌握最尖端的制程工艺,更需要在存储技术、先进封装和系统架构上构建全方位的创新能力,技术的协同与融合将成为破局的关键。
在这场破局“存储墙”的征程中,谁能率先实现从晶体管到系统的全栈优化,谁就将引领AI算力的下一个黄金时代。而台积电的战略布局,正为行业描绘出清晰的演进路径。