突破“存储墙”，三路并进

2025-12-31 11:15

本文来自格隆汇专栏：半导体行业观察

前言

近年来，AI与高性能计算的爆发式增长，正推动计算需求呈指数级攀升。从ChatGPT的横空出世到Sora带来的视觉震撼，大规模AI模型不仅在参数规模上指数级膨胀，其对计算能力的需求更是呈现出令人惊叹的增长曲线。

然而，在这片繁荣的背后，一个日益严峻的挑战正浮出水面——“存储墙”。

从千亿参数的大语言模型到边缘端的智能终端，各类应用对存储器的性能、功耗、面积（PPA）提出了前所未有的严苛要求。存储“带宽墙”成为制约AI计算吞吐量与延迟的核心瓶颈，传统存储器技术已难以满足系统能效优化需求，巨大的性能缺口正制约着AI芯片发挥其全部潜力。

作为全球半导体制造的领导者，台积电深刻洞察到这一根本性矛盾。在2025年的IEDM（国际电子器件会议）教程中，台积电清晰指出：未来AI与高性能计算芯片的竞争，将不仅仅是晶体管密度与频率的竞赛，更是内存子系统性能、能效与集成创新的综合较量。

本文将基于台积电的技术蓝图，以SRAM、MRAM、CIM为核心，结合3D封装与计算-存储融合的全栈技术体系，深入剖析面向AI计算的高速嵌入式存储器的技术演进、当前挑战与未来融合趋势。

AI算力狂奔下，存储“带宽墙”成核心痛点

AI模型的进化史，堪称一场对算力与存储的极限压榨。

从早期的AlexNet到如今的GPT-4、Llama2、PaLM，模型参数从百万级跃升至万亿级，模型规模的扩张直接带动训练与推理阶段的计算量（FLOPs）突破天际。数据显示，过去 70 年间，机器学习模型的参数规模提升，训练计算量增长超过 1018倍，推理计算量同步呈现爆发式增长。

然而，根据经典的Roofline Model（屋顶线模型），任何计算系统的最终性能，都由其峰值算力和内存带宽共同决定。

因此，这种爆发式增长的计算需求，不仅对处理器性能提出挑战，更将存储器推向了技术变革的前沿——存储器的带宽、延迟、能耗与密度，已成为决定AI/HPC系统整体性能的核心要素。

计算性能的增长速度与存储器带宽的提升速度严重失衡，形成了制约系统性能的“带宽墙”。据数据统计显示，过去20年间，硬件峰值浮点运算性能（HW FLOPS）增长了60000倍，平均每2年增长3.0倍；而DRAM带宽仅增长100倍，平均每2年增长1.6倍；互连带宽增长30倍，平均每2年仅增长1.4倍。

这种失衡的增长速度，导致AI推理等场景中，存储器带宽成为限制计算吞吐量的主要瓶颈，大量计算资源因等待数据而闲置。以英伟达的H100 GPU为例，其BF16精度下的峰值计算性能达989 TFLOPs，但峰值带宽仅3.35 TB/s，当运算强度不足时，系统性能将陷入存储受限状态，庞大的计算潜力无法充分释放。

面对AI与HPC的严苛需求，存储器技术需同时满足三大核心指标：大容量、高带宽、低数据传输能耗。大容量保障模型参数与训练数据的存储需求，高带宽解决数据吞吐瓶颈，低能耗则是实现绿色计算的关键——高功耗不仅会增加硬件成本（如更大容量的电池、更复杂的冷却系统），还会限制边缘设备等场景的部署可能性。

在此背景下，传统计算为中心的架构正加速向存储为中心转型，高密度、低能耗的嵌入式存储器成为技术突破的关键方向。台积电认为，未来存储器架构的演进路径将围绕“存储-计算协同”展开：从传统的片上缓存，到片上缓存+大容量封装内存储器，再到高带宽低能耗封装内存储器，最终实现存算一体与近存计算，通过存储与计算的深度融合突破性能与能效瓶颈。

为平衡速度、带宽、容量与功耗的多重需求，现代计算系统普遍采用分层存储架构。从寄存器到存储设备，不同层级的存储器呈现出明确的性能-成本权衡：寄存器与SRAM缓存凭借低延迟（寄存器1ns、SRAM缓存10ns）、高带宽优势，承担高频数据访问任务；HBM与DRAM主存平衡容量与性能；SSD等存储设备则以大容量、低密度满足海量数据存储需求。

台积电认为，AI与HPC时代的存储技术演进，绝非单一技术的单点突破，而是材料、工艺、架构、封装的全链条协同优化。

面对行业挑战，台积电基于上述层次结构，持续优化各层级嵌入式存储器技术：SRAM作为缓存层核心，通过工艺与设计创新提升密度与能效；MRAM以非易失性、高密度特性，填补嵌入式非易失性存储器（eNVM）的技术缺口；DCiM则打破存储与计算的物理边界，从架构层面优化能效比。同时，3D封装与芯粒集成技术的发展，进一步缩短了存储与计算单元的物理距离，为突破“带宽墙”提供了系统级解决方案。

SRAM：计算场景的“性能基石”

静态随机存取存储器（SRAM）作为高速嵌入式存储器的主力方案，凭借低延迟、高带宽、低功耗、高可靠性的核心优势，成为寄存器、缓存等关键层级的首选技术。其兼容先进CMOS逻辑工艺，从FinFET到Nanosheet架构，SRAM持续通过工艺迭代优化性能。

在应用场景中，SRAM广泛部署于数据中心CPU、AI加速器、客户端CPU、游戏GPU、移动SoC等各类高性能芯片。从工艺节点来看，SRAM已覆盖N28至N2全节点，随着先进工艺（N3/N2）的普及，其在高性能计算芯片中的用量持续增长，成为提升芯片性能的核心支撑。

其中，SRAM的面积缩放是优化芯片性能的关键，但随着工艺节点向7nm、5nm、3nm乃至2nm演进，SRAM单元的面积缩放速度逐渐放缓，面临诸多技术挑战。台积电通过设计-工艺协同优化（DTCO）策略，结合多种创新技术，实现了SRAM的持续缩放。

从技术演进历程来看，SRAM的面积缩放依赖于关键节点的工艺与设计突破：90nm节点引入应变硅技术；45nm节点采用高k金属栅（HKMG）工艺；28nm节点推出FinFET架构、飞跨位线（FLY BL）与双字线技术；7nm节点应用EUV光刻与金属耦合技术；2nm节点则通过Nanosheet架构实现进一步缩放。

这种密度提升，使得芯片在有限面积内可集成更大容量的缓存，直接推动计算性能提升——每周期指令数（IPC）随L3缓存容量增加而显著增长，32倍缓存容量下，CPU性能提升效果尤为明显。能看到，SRAM缓存的能效和响应速度远超DRAM主存和SSD存储。

不过，随着工艺节点向7nm、5nm、3nm乃至2nm演进，SRAM面临着日益严峻的发展挑战：一是面积缩放速度放缓，SRAM单元的尺寸缩小幅度逐渐收窄，在有限芯片面积内集成更大容量缓存的难度持续增加；二是最小工作电压（VMIN）优化困境，低VMIN下读写稳定性面临挑战，直接影响芯片能效；三是互连损耗加剧，Cu金属线线宽小于20nm时，电阻率快速上升，导致字线与位线的电阻和电容显著增加，制约SRAM的速度提升。

为应对解决传统芯片上SRAM缓存的面积限制，除了上面提到的工艺层面的持续演进和技术创新之外。在设计层面，台积电推出3D堆叠V-Cache技术，通过3D堆叠架构优化末级缓存（LLC）的容量、延迟与带宽。

AMD Ryzen™ 7 5800X3D 处理器采用该技术，集成8个计算核心、512KB L1缓存、4MB L2缓存与最高96MB共享L3缓存，通过32字节/周期的双向总线，实现了缓存性能的跨越式提升，游戏性能显著提升，充分验证了3D堆叠SRAM对计算性能的赋能作用。

此外，台积电还开发了写辅助电路、读辅助电路、双轨SRAM等技术，将N3工艺SRAM的VMIN降低超过300mV；通过交错三金属层字线、飞跨位线等技术，降低互连损耗，提升SRAM的速度与密度。

未来，SRAM的发展将聚焦两大方向：一是持续推进工艺缩放，在N2及更先进节点上，通过Nanosheet架构与DTCO策略的深度融合，进一步提升密度与能效；二是与3D封装技术结合，通过垂直堆叠实现缓存容量的跨越式增长，匹配AI加速器的超高带宽需求；三是与存算一体架构协同，成为DCiM的核心存储单元，在计算过程中提供高速数据访问支撑。

存内计算，DCiM成主角

如果说优化SRAM是在传统架构上精雕细琢，那么存内计算（Computing-in-Memory, CIM）则是一场更具颠覆性的架构革命，其核心思想直指“存储墙”的病根：减少不必要的数据搬运。

在典型的AI加速器中，超过90%的能耗可能用于在存储单元和计算单元之间搬运数据，而非实际的计算操作。因此，数据移动和搬运成为制约加速器能效比的核心因素。

CIM架构则打破了“存储-计算”分离的冯·诺依曼架构，将简单的计算功能直接嵌入到内存阵列中，将计算单元与存储单元紧密集成，数据在原地或近旁被处理，极大地节省了能耗和延迟，成为解决这一问题的关键路径。

与传统DLA（深度学习加速器）中存储与计算分离、依赖数据搬运的架构不同，CIM架构实现了计算在内存中，数据复用率显著提升，能效比大幅优化。

对于模拟存内计算（ACiM）和数字存内计算（DCiM）两条路径，台积电认为，DCiM相比ACiM更具发展潜力。

与ACiM相比，DCiM凭借无精度损失、灵活性强、工艺兼容等，在技术缩放、精度控制、场景适配等方面具备明显优势：ACiM面临模拟信号变化、动态范围受限等挑战，而DCiM能够兼容先进工艺，随节点演进持续提升性能，且支持多精度计算，成为AI计算的核心架构方向，特别适用于边缘推理场景，为解决数据中心和终端设备的能效瓶颈提供了可扩展的解决方案。

DCiM 的核心优势体现在三方面：

灵活性高：可以针对不同的AI工作负载配置计算位宽，在精度和能效间取得最佳平衡；
计算密度高：得益于先进的逻辑工艺，DCiM的能效（TOPS/W）和计算密度（TOPS/mm²）随着制程进步而显著提升。台积电数据显示，从22nm到3nm，DCiM宏的性能指标实现了数量级的飞跃；
精度灵活与能效比高：支持INT8/12/16及FP16精度，精度损失<2.0%，INT8精度下的能效比相比传统架构提升约4倍。

MRAM：非易失性嵌入式存储器的新突破

另一方面，随着汽车电子、边缘AI等新兴场景的崛起，市场对存储器的需求超越了速度和能效，非易失性、高可靠性和极高耐久性成为关键。

传统的嵌入式闪存（eFlash）在28nm以下工艺微缩困难，难以满足先进工艺节点的密度与性能需求。而磁阻随机存取存储器（MRAM）则展现出强大的技术生命力，凭借低待机功耗、高密度、非易失性、速度快、耐久性和工艺友好等核心优势，成为eNVM的理想替代方案。

台积电认为，MRAM的核心价值在于兼顾性能与非易失性，能够同时满足高速读写与数据长期保存的双重需求，这使其在软件定义汽车、边缘智能终端等场景中具备不可替代的优势。

例如在汽车电子领域，MCU广泛应用于车载系统，下一代软件定义汽车架构对MCU的性能、可靠性与安全性提出了更高要求。MRAM的速度与robustness支撑OTA更新功能，能够延长车辆生命周期并提升功能扩展性。台积电N16 FinFET嵌入式MRAM技术已满足汽车应用的严苛要求：100万次循环耐久性、支持焊料回流、150℃下20年数据保持能力，成为车载MCU的核心存储方案。

在边缘AI领域，MRAM支持TinyML、MobileNet等紧凑AI架构，仅需2-4MB容量即可存储模型权重，同时支持安全OTA更新。相比云端AI与移动AI，边缘AI/MCU对存储容量需求较低，但对能效与可靠性要求更高，MRAM恰好匹配这一需求特性。

但MRAM也存在明显短板，比如单位容量成本高于DRAM与NAND；高温度环境下的数据保持能力需通过技术优化保障；强磁场环境下的抗干扰能力需特殊设计，强永磁体（N52）环境下需保持9mm的安全距离等。

为解决MRAM的短板，台积电通过多重技术优化提升其可靠性：一是数据擦洗（Data Scrubbing）技术，定期重读数据、检测错误并将修正后的数据写回存储单元，结合ECC纠错，125℃下可将位错误率（BER）控制在预算范围内；二是抗磁性干扰设计，通过优化MTJ结构与布局，确保车载等复杂环境中的稳定工作；三是应用差异化优化，针对NVM与RAM两种应用场景，通过调整参数权衡数据保持能力、密度与速度，满足不同场景的需求。

数据擦除以提升数据保持可靠性

MRAM抗磁性干扰能力

据悉，台积电已将N16工艺的嵌入式MRAM（eMRAM）技术成功推向市场，特别是在汽车领域大放异彩，并正在向更先进节点迈进。

计算-存储融合：系统级优化的“终极路径”

台积电认为，AI与HPC时代的存储技术突破，最终需要走向系统级的计算-存储融合。单一存储技术的优化已难以满足“更高带宽密度、更低单位比特能耗、更短延迟、更高互连密度”的系统需求，必须通过3D封装、芯粒集成等技术，将存储与计算单元紧密连接，实现存储靠近计算的架构重构。

在此趋势下，2.5D/3D先进封装将提供关键赋能，通过将计算芯粒（Chiplet）与高带宽内存（如HBM）通过硅中介层（Interposer）或硅桥（Silicon Bridge）封装在一起，可以创造出一个带宽极高、距离极近的超级系统。这种2.5D/3D集成技术，使得内存带宽能够匹配先进AI加速器的巨大吞吐需求。

台积电在先进封装领域已形成广泛布局，例如：

CoWoS：台积电的先进封装平台，将逻辑芯片和HBM集成在硅中介层上，实现了远超PCB级别的互连密度和带宽。
SoIC：更进一步的3D堆叠技术，允许芯片像盖楼一样垂直堆叠，实现芯片间最短、最密集的互连，将数据移动的能耗和延迟降至最低。

这种高密度互连带来了诸多优势：缩短数据移动路径，降低数据移动能耗与延迟；提升带宽密度，解决“带宽墙”瓶颈，3D堆叠的比特能效相比封装外铜互连提升60倍；模块化设计支持灵活配置，适配不同应用场景的需求，AI内存带宽需求已达20.0TB/s，3D封装可高效支撑等。

综合分析，未来的AI芯片，可能不再有明显区分的内存和计算边界。通过3D堆叠，计算单元可以被直接放置在高速缓存或存内计算单元之上，形成紧耦合的异构集成体。同时，集成的电压调节器、光子互连等创新技术，将从供电和通信层面为整个系统解绑。

这种系统级的思维，意味着芯片设计者、存储器专家、封装工程师必须更早、更紧密地协作。从架构设计之初，就统筹考虑计算模式、数据流、存储层级和物理实现，通过内存-计算协同优化，突破存储墙与能效瓶颈，最终实现能效和性能的阶跃式提升。

存储技术的未来图景

AI计算的未来，是一场围绕数据进行的效率革命，正推动存储技术进入全维度创新的新时代。

面对“带宽墙”与“能效瓶颈”的双重挑战，台积电的技术蓝图清晰地描绘了这场革命的路径：以SRAM为缓存层核心，保障高速数据访问；以MRAM的多元特性开拓新场景，填补非易失性存储的技术空白；以DCiM的架构创新为利器，实现存算一体，突破能效瓶颈；最终以3D封装与芯粒集成实现系统级融合，重构存储与计算的连接方式，构建出真正能满足AI巨大算力渴求的下一代硬件平台。

对产业而言，这意味着竞争格局的深化。领先的半导体企业不仅需要掌握最尖端的制程工艺，更需要在存储技术、先进封装和系统架构上构建全方位的创新能力，技术的协同与融合将成为破局的关键。

在这场破局“存储墙”的征程中，谁能率先实现从晶体管到系统的全栈优化，谁就将引领AI算力的下一个黄金时代。而台积电的战略布局，正为行业描绘出清晰的演进路径。

突破“存储墙”，三路并进

AI算力狂奔下，存储“带宽墙”成核心痛点

SRAM：计算场景的“性能基石”

存内计算，DCiM成主角

存储技术的未来图景

推荐文章

港股周报 | 中国大模型“春节档”打响！智谱周涨超138%；巨亏超230亿！美团周内重挫超10%

一周财经日历 | 港美股迎“春节+总统日”双假期！万亿零售巨头沃尔玛将发财报

一周IPO | 赚钱效应持续火热！年内24只上市新股“0”破发；“图模融合第一股”海致科技首日飙涨逾242%

从软件到房地产，美国多板块陷入AI恐慌抛售潮

Meta计划为智能眼镜添加人脸识别技术

危机四伏，市场却似乎毫不在意

美股机会日报 | 降息预期升温！美国1月CPI年率创去年5月来新低；净利、指引双超预期！应用材料盘前涨超10%

财报前瞻 | 英伟达Q4财报放榜在即！高盛、瑞银预计将大超预期，两大关键催化将带来意外惊喜？