据GIR (Global Info Research)调研,按收入计,2025年全球AI加速器PCIe卡收入大约5084百万美元,预计2032年达到13278百万美元,2026至2032期间,年复合增长率CAGR为14.6%。
1. AI加速器PCIe卡定义
AI加速器PCIe卡作为一种关键接口,用于集成先进的AI处理能力,充当连接主机系统与AI加速硬件的桥梁,实现数据传输的流畅。它利用AI算法优化计算任务,显著提升处理速度和效率。该卡设计用于支持复杂的AI模型,提供必要的计算能力以精确快速地执行深度学习、机器学习和神经网络操作。通过将密集的AI计算从CPU卸载,它确保主机系统在包括数据分析、实时决策和高级模拟在内的各种应用中保持高性能。
图 1:AI加速器PCIe卡产品图片

2. AI加速器PCIe卡的发展因素
2.1. 高速互连进化:AI加速器 PCIe 卡性能跃迁的核心驱动力
AI/ML 工作负载对带宽与时延的极端需求,决定了 PCIe 卡必须围绕“更快、更远、更稳”持续演进,其发展因素集中体现在协议速率迭代、链路形态扩展与关键辅助芯片协同三方面:首先,PCIe 协议代际加速显著缩短,链路速率从 PCIe 5.0 的 32 GT/s 快速跃迁至 6.0 的 64 GT/s,并向 7.0 的 128 GT/s 演进,为 AI 加速器 PCIe 卡在既定通道数(x16)下提供成倍提升的理论带宽,直接缓解 GPU/加速卡与 CPU、内存及其他加速器之间的数据“饥饿”;其次,为适配超大规模算力集群与异构计算架构,PCIe 卡的应用场景从机箱内高速互连延伸至跨主板、跨机架,通过有源电缆(AEC)和有源光缆(AOC)等方案突破传统铜走线的物理限制,使加速器能够以 PCIe 语义参与更灵活的系统拓扑;再次,在速率翻倍与距离拉长的叠加效应下,信号完整性成为制约 PCIe 卡稳定性的关键瓶颈,Retimer 等信号重定时与均衡芯片因此成为 AI 服务器的“标配”,其在 PCIe 卡到主板、背板及外部链路之间对高速信号进行重塑与补偿,保障误码率与时延可控,甚至在单台多 GPU AI 服务器中形成规模化部署。三者相互叠加,使 AI 加速器 PCIe 卡不再只是“接口形态”的演进,而是在协议、物理链路与系统级协同优化共同驱动下,成为支撑 AI 算力持续扩张的关键基础组件。
2.2. 高速互连持续进化:AI 加速器 PCIe 卡性能演进的关键驱动
AI加速器PCIe卡的性能持续爆发式增长,根本上依赖PCIe互连协议的快速迭代与生态完善。作为连接加速卡与CPU/内存/存储的唯一高速“数据高速公路”,PCIe标准的速率跃升直接决定了AI/ML工作负载海量数据吞吐与极低延迟的实现能力:从PCIe 4.0(16 GT/s)到PCIe 5.0(32 GT/s)再到PCIe 6.0(64 GT/s)仅用短短几年时间,带宽实现翻倍甚至四倍提升,而PCIe 7.0(128 GT/s)规范已进入制定阶段,为下一代百亿参数大模型推理与训练提供了充足的通道容量;与此同时,为了突破单机箱算力瓶颈、构建跨服务器/跨机架的超大规模AI集群,PCIe链路扩展技术取得重大突破,通过PCIe有源铜缆(AEC)、有源光缆(AOC)以及光学重定时器(Optical Retimer),PCIe信号可靠传输距离已从传统不足1米延长至数米甚至数十米,支持机架级、甚至数据中心级直接互连;高速长距传输带来的信号完整性挑战,则直接催生了PCIe Retimer(重定时器)芯片市场的爆发式增长——Retimer通过对高速差分信号进行接收、时钟数据恢复(CDR)、均衡、重驱动等处理,有效补偿信道损耗与抖动,确保PCIe 5.0/6.0在长距离下的BER
2.3. 从“算力主导”到“运力为王”:AI推理时代PCIe加速卡的结构性跃迁
在AI推理时代,受小批量请求、模型碎片化以及MoE(混合专家)架构广泛应用等特性影响,单卡算力的线性提升已难以直接转化为系统级性能增益,多张AI加速器之间的数据交换频率与实时性要求显著提高,使得通信延迟和带宽逐步取代计算能力本身,成为制约整体效率的核心瓶颈,系统性能焦点由“算力”明确转向“运力”(即数据搬运与互联能力);在这一背景下,AI基础设施架构正从以机柜间互联为核心的Scale-Out,转向以机柜内高密度互联为核心的Scale-Up,通过缩短物理距离来获得更高带宽、更低时延和更可控的确定性性能,而作为Scale-Up架构中GPU与GPU、GPU与CPU之间高速互联关键枢纽的PCIe卡(尤其是集成PCIe Switch的AI加速器PCIe卡),其战略价值被显著放大:一方面,新一代PCIe(如PCIe 5.0/6.0)持续提升单通道带宽,使AI加速器PCIe卡在标准化、通用性、生态成熟度与成本效率之间取得平衡,成为推理侧部署的重要载体;另一方面,随着单机多卡规模扩大,PCIe卡不再只是“算力载体”,而是深度参与系统级拓扑构建与数据调度,其在低延迟转发、非阻塞互联、虚拟化支持以及多卡协同效率方面的能力,直接决定了MoE等模型的实际吞吐表现与能效比,也由此推动PCIe Switch芯片及相关PCIe加速器卡需求快速放量,据东吴证券测算,该细分市场在2027年有望达到千亿元规模,反映出AI加速器PCIe卡正从“配角型硬件”升级为支撑推理时代系统效率的“核心基础设施”。
3. AI加速器PCIe卡的未来发展趋势
3.1. 面向大规模模型的高带宽低延迟互联演进
AI加速器PCIe卡的发展,将深度围绕AI模型演进的根本需求展开。随着AI模型规模爆炸性增长,尤其是大规模基础模型和推理/训练任务对算力的极端要求,下一代PCIe标准如PCIe 7.0被正式发布,其核心目标就是通过显著提升带宽和效率来满足AI数据密集型应用的数据传输需求,这一点已由PCI-SIG在官方规范中明确指出,PCIe 7.0规范旨在支持AI/机器学习等对带宽要求极高的场景,提供更高传输速率并保持向后兼容性。这种带宽和延迟性能的提升是支撑万亿参数级模型训练与推理的基础,使得GPU和AI加速卡能够更加高效地与CPU、存储等系统组件协同工作。与此同时,AI架构创新如混合专家模型(MoE)对细粒度和延迟敏感的通信提出新的挑战,要求互联不仅在总带宽上增强,而且要在协议和拓扑上支持更加动态和不规则的数据交换模式,这将倒逼未来PCIe及相关互联技术在协议效率和QoS机制上不断优化。另一个驱动因素是AI推理和训练对低精度计算的广泛采用,比如INT8、INT4等,这意味着在同一时间内需要传输的有效“计算数据”密度更高,从而对PCIe传输效率提出更高要求,推动AI加速器在内部架构和数据路径设计上更加贴合低精度计算特征。此外,生态合作与标准推进也在塑造未来趋势,例如芯片厂商之间正在推动更紧密的CPU与加速器互联整合,以提升整体AI基础设施的性能和可扩展性。这样一条由AI模型驱动的演进路径,将使未来的AI加速器PCIe卡在高带宽、低延迟、智能调度和动态通信支持等方面持续进化,从而真正服务于复杂、海量的AI运算需求。
3.2. AI计算范式转变驱动PCIe加速卡向高效推理与异构协同进化
随着AI技术的成熟与应用需求的变化,AI计算负载的重心正在从“主要关注训练峰值算力”向“以推理为主、端云协同为核心”的方向转变,这一趋势正在重塑AI加速器PCIe卡的设计与功能定位。推理阶段已被业界领军企业视为未来AI运算的主战场,不仅因为推理计算量在整体AI生态中迅速增加,而且实时性、能效比和降低运营成本成为推理系统设计的核心目标。英伟达与Akamai合作推出面向全球部署的推理云,正是因为在实际应用中需要将推理推向更逼近用户的边缘节点以降低延迟并提升体验,这一战略表述了推理用途相比传统训练的重要性,并强调了在不同部署环境下实现高效推理的必要性。这直接推动未来PCIe加速卡在设计上更强调每瓦性能优化,集成专用硬件单元用于高效处理特定推理任务,以及更好支持端到端推理流水线中如视频处理和安全计算等环节。与此同时,AI计算从云端扩展到边缘和终端的分布式趋势,要求服务器内部及系统间形成更高效的异构协同生态。CPU、GPU、ASIC、NPU等不同类型的加速单元协同工作,在实际部署时必须依赖高效的系统级互联来调度与通信,PCIe凭借其通用性和成熟的生态优势,继续担当异构算力连接的核心“骨干”,连通多种计算元件并确保数据在系统内部高效流转,满足协同调度和低延迟通信的需求。未来PCIe加速卡的发展将不仅仅局限于单卡性能,而是更加注重在异构平台中实现统一调度、能效优化以及在云边端多层级部署中支持更灵活、更高效的推理工作负载,确保在AI计算范式转变中能够持续满足日益增长的实时推理与分布式协同需求。
3.3. AI系统级创新驱动下的未来PCIe加速卡演进:从计算单元到资源枢纽
随着AI计算从单一算力追求向系统级协同优化转变,AI加速器中基于PCIe的加速卡角色正在发生根本性升级,成为突破AI系统瓶颈的关键枢纽。一方面,传统显存容量难以满足大规模模型对海量内存的需求,业界通过开放的高速互联标准Compute Express Link(CXL)来实现跨节点的内存池化和共享,这种技术允许CPU和加速器访问统一的内存地址空间,从而克服单机内存墙的限制,并通过更高带宽和缓存一致性大幅提升内存扩展效率,CXL 4.0规范就是这一趋势的最新体现,它在原有基础上大幅提高带宽和可扩展性以支持大规模AI系统内存共享部署,并推动多机架内存池成为现实。这种内存资源的动态调度能力,使未来支持CXL的加速卡不仅提供算力,还能承担内存扩展器的角色,让整个AI系统具备更灵活、可组合的计算与存储资源架构。与此同时,为应对AI集群愈发集中的功耗与热设计难题,数据中心正越来越多采用先进的液冷设计以提升能效和散热密度,行业巨头的液冷加速卡和液冷系统已成为主流方案,这些解决方案通过直接液体散热等技术显著提升热管理能力,成为支撑高密度AI部署的基础设施方案。最后,在互联生态层面,开放标准和封闭生态之间的竞争正在影响未来发展方向,开放的互联生态如CXL与与之并行推进的开放互连方案UALink等标准,使得更多AI加速芯片供应商能够公平接入和协同构建统一系统资源池,从而降低对单一供应商私有互联的依赖并拓展市场选择空间,这种互联生态的博弈将在未来几年内持续影响系统级创新的路径与市场格局。
4. 行业龙头企业介绍
4.1. Hitek Systems
Hitek Systems是一家专注于现场可编程门阵列(FPGA)硬件、IP 核和定制系统开发的技术公司,其主营业务包括为通信、数据中心、网络和嵌入式市场提供高性能 FPGA 解决方案、IP 内核、开发平台以及工程设计服务。公司围绕 Intel Agilex 系列 FPGA 及相关高速互联技术开展产品与服务的研发,强调在网络协议处理、高速以太网、计算存储一体化和可定制硬件加速方面的深厚技术积累,并在硬件板卡开发过程中提供从概念设计到硬件/软件集成测试的全流程支持。Hitek Systems 还开发了多种 FPGA 系统平台和嵌入式模块产品,并提供配套的软件支持框架以缩短客户的设计周期,产品覆盖了高带宽通信、数据加速和系统集成等应用领域。
Hitek Systems 以其 HiPrAcc™ 系列 FPGA 加速卡为核心产品线,这些加速卡基于 Intel Agilex FPGA 架构设计,提供标准 PCIe 互联能力以支持多种计算和网络加速任务。按照物理规格划分,公司在半高半长(Half Height, Half Length)规格上有 HiPrAcc™ NC100 和 NC220 / C220 等卡,这类卡面向数据中心和边缘计算场景提供紧凑形态的网络与计算加速能力。与此同时,Hitek Systems 的产品线中也有全高全长(Full Height, Full Length)规格的卡,如 NCS280-I、NCS200 和 CS200D 等,它们通过更大的板型和更丰富的接口支持网络、计算及存储加速等复合工作负载,其中 CS200D 是双 FPGA 计算存储模块,适用于高性能计算环境。上述 PCIe 加速卡均兼容 PCI-SIG 定义的 PCIe 接口规范,通过标准化主机互联结合开放的 FPGA 软件栈,使其能够集成到现有服务器和加速平台中,以支持机器学习推理、网络处理及高带宽数据流工作负载。
4.1.1. HiprAcc™ NCS280-I的关键特征
HiprAcc™ NCS280-I是一款面向数据中心高性能计算与AI加速的AI加速器PCIe卡,基于Intel Agilex 7 I-Series FPGA(支持AGI023/AGI019器件),采用F-Tile架构,通过PCIe Gen5 x16(512Gbps)及CXL(Compute Express Link)接口实现高速主机连接,兼容低剖面半长全高单槽位设计(尺寸6.6"×4.376"),功耗最高75W(边沿供电)或100W(辅以6-pin PCIe电源)。该卡配备最高48GB DDR4内存(2×72-bit通道,支持8GB/16GB配置)、支持多达4个Gen4 M.2 NVMe SSD扩展,并集成Agilex ARM HPS(四核Cortex-A53)+32GB eMMC及GigE调试接口;通过双QSFP28端口提供高达2×200Gbps/100Gbps或8×50G/25G/10G网络能力,F-Tile支持最高400Gbps(8×56Gbps PAM-4)以太网。卡支持oneAPI高层次抽象开发流程,适用于机器学习推理/训练、网络加速、存储卸载、5G基础设施(DU/CU)及数据中心规模化AI工作负载,提供强大可编程性、高带宽I/O及灵活时钟同步(PTP/1588),是高性能AI与网络融合加速的国产化替代方案。
图 2:Hitek Systems的HiprAcc™ NCS280-I产品图片

来源:Hitek Systems产品手册
4.2. NVIDIA
NVIDIA 的业务以“加速计算”为主线,围绕 GPU 为核心的软硬件平台向数据中心与云计算、游戏与创作、专业可视化与数字孪生、汽车与机器人等场景提供计算产品与平台软件:在数据中心侧,NVIDIA 将 GPU 计算、CPU、DPU 与端到端网络互联整合为面向 AI 训练与推理的计算与网络平台,并通过 CUDA 与相关开发者软件栈把硬件能力封装为可被主流框架与应用直接调用的加速能力,从而支持生成式 AI、数据分析与高性能计算等工作负载在企业与云端规模化部署;在图形与可视化侧,NVIDIA 面向游戏与内容创作、专业图形与仿真等需求提供 GPU 与软件生态,强调统一架构与软件平台在不同市场之间的复用与协同,以同一套核心计算架构与开发工具覆盖从云到边缘的部署形态。
NVIDIA 的 AI 加速器 PCIe 卡业务是其数据中心业务的重要组成部分,核心目标是以标准 PCIe 形态将 GPU 加速能力规模化部署到通用服务器中,服务云计算厂商、企业数据中心与边缘计算环境。该业务围绕数据中心 GPU 产品线展开,通过 PCIe 接口实现与主流 CPU 平台和服务器架构的兼容,使 AI 训练、推理、数据分析与高性能计算能够在现有 IT 基础设施中快速落地;在产品定位上,NVIDIA 以不同功耗等级与板型的 PCIe GPU 覆盖从轻量级推理到高负载推理和训练的应用需求,并强调通过统一的 CUDA 软件平台、驱动体系与 AI 框架支持,实现硬件加速能力在云服务、企业私有数据中心以及行业应用中的一致性体验。NVIDIA 在 PCIe 形态的 AI 加速器中既提供面向高密度部署和推理场景的半高半长 PCIe 卡,也提供面向更高算力需求的数据中心级 PCIe 卡产品,并将这些 PCIe 加速器与其数据中心网络、系统和软件栈协同,作为完整加速计算平台对外提供,从而构成其数据中心 AI 业务的重要交付形态
4.2.1. L4 Tensor Core GPU的关键特征
L4 Tensor Core GPU是一款专为数据中心高效AI推理、视频处理与图形加速设计的AI加速器PCIe卡,基于Ada Lovelace架构,采用4nm工艺制造。通过PCIe Gen4 x16高速接口(带宽64GB/s,兼容Gen3)便捷插入标准服务器,最大热设计功耗(TDP)仅72W,支持被动散热,形态为单插槽半高半长低剖面(HHHL-SS,尺寸约169mm×69mm),极致节能且适合高密度边缘与云部署。该卡配备24GB GDDR6内存(带ECC支持),内存位宽192-bit,带宽达300GB/s;集成第四代Tensor Core,支持FP32(30.3 TFLOPS)、TF32(120 TFLOPS)、FP16/BF16(242 TFLOPS)、FP8(485 TFLOPS)、INT8(485 TOPS)等多种精度计算(*为稀疏加速下峰值),INT8/FP8推理性能较上一代大幅提升;内置2个NVENC编码器、4个NVDEC解码器及4个JPEG解码器,支持AV1格式,可实现超高并发视频流处理(如8卡服务器超1000路720p30 AV1编码)。适用于大规模生成式AI推理、推荐系统、视觉AI、自然语言处理、实时视频转码/分析、虚拟桌面(vGPU/vWS/vPC)、Omniverse实时渲染及云游戏等场景,与CPU方案相比AI视频性能提升高达120倍、生成式AI提升2.7倍、图形渲染提升4倍以上,提供领先能效比与通用加速能力的国产化替代级AI基础设施解决方案。
图 3:L4 Tensor Core GPU产品图片

来源:NVIDIA产品手册
4.3. 北京中科寒武纪科技
寒武纪是一家专注于人工智能计算芯片和加速硬件的中国科技公司,以自主架构的AI处理器为核心,形成覆盖云、边缘及终端的完整AI计算产品线。公司核心业务围绕AI处理器芯片设计、智能加速卡与系统硬件开发及配套的软件生态展开,通过自主研发的处理器架构与综合软件平台,服务数据中心、云计算、智能设备以及产业智能化转型场景,支持从AI推理到训练的多种计算需求。中科寒武纪的产品布局包括用于高性能AI计算的数据中心加速卡、边缘与终端专用芯片,以及与之配套的软件栈(如NeuWare、MagicMind),并以端云协同的技术战略助力客户实现智能算力部署和应用落地。
在AI加速器PCIe卡方面,寒武纪提供多种基于其自主AI芯片的PCIe加速卡产品,这些卡按照物理规格和应用定位分为不同类型。寒武纪“思元370”系列下的加速卡包括半高半长的MLU370-S4/S8智能加速卡,这类卡体积紧凑、适合高密度部署,主要面向云端推理工作负载;全高全长的MLU370-X4智能加速卡提供更大算力和内存容量,对于需要更高推理与训练性能的数据中心场景更为适用;更大尺寸的MLU370-X8智能加速卡采用双芯设计并支持多卡互联,针对更高端AI训练任务。寒武纪还提供基于较早“思元270”系列的MLU270-S4(半高半长)与MLU270-F4(全高全长)加速卡,这些卡通过标准PCIe接口部署在服务器中,用于通用AI推理与计算加速。上述加速卡类型均通过PCIe标准接口与主机系统互联,结合寒武纪的基础软件平台,支撑包括视觉、语音、自然语言处理等多样AI工作负载的执行。
4.3.1. MLU270-S4的关键特征
寒武纪的MLU270-S4(思元270-S4)是一款专为高能效比AI推理设计的数据中心级AI加速器PCIe卡,采用寒武纪第二代MLUv02架构芯片“思元270”,基于16nm工艺制造。通过×16 PCIe Gen.3接口快速部署于服务器,最大功耗仅70W,支持被动散热,形态为半高半长单槽位(尺寸167.5mm×68.9mm,重量约310g),非常适合高密度、低功耗的数据中心环境。该卡配备16GB DDR4 ECC内存,内存位宽256-bit,带宽达102 GB/s;支持INT16、INT8、INT4、FP32、FP16等多种低精度与混合精度计算,其中INT8理论峰值算力128 TOPS、INT4达256 TOPS、INT16达64 TOPS,处理非稀疏AI模型的理论峰值性能较上一代思元100提升4倍。可广泛应用于视觉、语音、自然语言处理及传统机器学习等多样化AI推理场景,帮助构建超高能效的AI推理平台。
图 4:寒武纪的MLU270-S4产品图片

来源:寒武纪产品手册
4.4. 昆仑芯(北京)科技
xxxx
4.4.1. R200系列的关键特征
R200系列是一款面向数据中心高性能AI推理的AI加速器PCIe卡,采用昆仑芯第二代自研XPU-R架构芯片,基于7nm先进工艺制造。通过PCIe Gen4 x16高速接口(兼容3.0/2.0/1.0)便捷插入标准服务器,典型功耗150W,支持被动散热设计,适用于高密度部署。该系列配备16GB或32GB GDDR6高速显存,内存带宽高达512 GB/s;支持INT8、INT16、FP16、FP32等多种精度计算,其中INT8峰值算力256 TOPS、FP16达128 TFLOPS,兼具强大通用性和高能效比。内置硬件视频编码/解码单元,支持最高108路1080P@30FPS解码能力,全面适配自然语言处理、计算机视觉、语音识别、传统机器学习及视频分析等多场景AI推理任务,尤其适合大模型推理、互联网、智慧金融等高吞吐、低延迟应用,可提供接近或优于主流GPU的性能与更优性价比的国产AI加速解决方案。
图 5:昆仑芯的R200系列产品图片

来源:昆仑芯产品手册
文章摘取环洋市场咨询(Global info Research)出版的《2026年全球市场AI加速器PCIe卡总体规模、主要生产商、主要地区、产品和应用细分研究报告》,通过专业的市场调研方法深度分析AI加速器PCIe卡市场,并在报告中深入剖析AI加速器PCIe卡市场竞争者对美国关税政策及各国应对措施、包括区域经济表现和供应链的影响。











































