人工智能芯片与硬件术语

人工智能芯片(AI Chip)

人工智能芯片是专为加速AI任务(如深度学习训练和推理)设计的专用集成电路，相比通用CPU，其并行计算能力更强、能效比更高，适配AI算法的海量矩阵运算需求。按技术架构分为GPU(通用并行计算)、FPGA(可编程)、ASIC(专用定制)、NPU(神经网络专用)等，按用途分为训练芯片(如 NVIDIA A100，处理大规模数据训练)和推理芯片(如华为昇腾310，部署在终端设备执行推理)。AI芯片是AI技术落地的硬件基础，支撑云端大模型训练和终端AI应用(如手机拍照AI优化)。

GPU(Graphics Processing Unit，图形处理器)

GPU 最初用于图形渲染，因具备大量并行计算核心(如NVIDIA GPU 含数千 CUDA 核心)，适合处理AI训练中的矩阵乘法等并行任务，成为深度学习训练的主流硬件。与CPU(少量核心，擅长复杂逻辑)相比,GPU通过多核心并行处理大规模简单计算，大幅缩短模型训练时间(如训练ResNet需GPU集群，CPU 则需数月)。NVIDIA 在AIGPU市场占据主导地位，其Tensor Core 支持混合精度计算，进一步提升AI算力，是ChatGPT等大模型训练的核心硬件。

FPGA (Field-Programmable Gate Array，现场可编程门阵列)

FPGA是可现场编程的半定制芯片，用户可通过硬件描述语言(HDL)配置内部逻辑单元和互连，适配不同算法。其优势是灵活性高(可重编程适配新模型)、延迟低(硬件级并行)，适合AI 推理场景(如自动驾驶边缘计算、数据中心实时推理)，但算力和能效比低于ASIC。Xilinx(赛灵思)、Altera(已被Intel收购)是主要厂商，FPGA在5G基站AI加速、工业控制AI模块等领域应用，平衡定制化与灵活性需求。

ASIC (Application-Specific Integrated Circuit,专用集成电路)

ASIC是为特定AI任务定制设计的芯片，通过优化电路结构实现高性能、低功耗，但设计周期长(数月至数年)、前期成本高。典型代表包括谷歌 TPU(专为TensorFlow框架优化的推理芯片)、寒武纪思元芯片(面向云端和边缘AI推理)。ASIC 适合大规模固定任务(如数据中心AI推理、手机端AI 功能)，在能效比(如每瓦算力)上优于GPU和FPGA，是终端AI 设备(如智能摄像头、手机)的核心芯片，推动AI 算力下沉。

NPU(Neural Processing Unit，神经网络处理器)

NPU 是专为神经网络计算设计的专用芯片，针对卷积、激活函数等操作优化硬件结构，能效比远超通用芯片。其架构通常包含乘加单元阵列(处理矩阵运算)、激活函数单元、池化单元等，直接硬件加速神经网络层计算。华为昇腾系列、地平线征程系列(自动驾驶 NPU)、苹果Neural Engine(手机 NPU，用于 Face ID、拍照优化)均属NPU，广泛应用于终端AI设备，使手机、摄像头等小型设备能本地运行AI模型(如离线语音识别)。

人工智能核心术语-人工智能芯片与硬件术语