人工智能芯片与硬件术语

人工智能芯片(AI Chip)

人工智能芯片是专为加速AI任务(如深度学习训练和推理)设计的专用集成电路,相比通用CPU,其并行计算能力更强、能效比更高,适配AI算法的海量矩阵运算需求。按技术架构分为GPU(通用并行计算)、FPGA(可编程)、ASIC(专用定制)、NPU(神经网络专用)等,按用途分为训练芯片(如 NVIDIA A100,处理大规模数据训练)和推理芯片(如华为昇腾310,部署在终端设备执行推理)。AI芯片是AI技术落地的硬件基础,支撑云端大模型训练和终端AI应用(如手机拍照AI优化)。

GPU(Graphics Processing Unit,图形处理器)

GPU 最初用于图形渲染,因具备大量并行计算核心(如NVIDIA GPU 含数千 CUDA 核心),适合处理AI训练中的矩阵乘法等并行任务,成为深度学习训练的主流硬件。与CPU(少量核心,擅长复杂逻辑)相比,GPU通过多核心并行处理大规模简单计算,大幅缩短模型训练时间(如训练ResNet需GPU集群,CPU 则需数月)。NVIDIA 在AIGPU市场占据主导地位,其Tensor Core 支持混合精度计算,进一步提升AI算力,是ChatGPT等大模型训练的核心硬件。

FPGA (Field-Programmable Gate Array,现场可编程门阵列)

FPGA是可现场编程的半定制芯片,用户可通过硬件描述语言(HDL)配置内部逻辑单元和互连,适配不同算法。其优势是灵活性高(可重编程适配新模型)、延迟低(硬件级并行),适合AI 推理场景(如自动驾驶边缘计算、数据中心实时推理),但算力和能效比低于ASIC。Xilinx(赛灵思)、Altera(已被Intel收购)是主要厂商,FPGA在5G基站AI加速、工业控制AI模块等领域应用,平衡定制化与灵活性需求。

ASIC (Application-Specific Integrated Circuit,专用集成电路)

ASIC是为特定AI任务定制设计的芯片,通过优化电路结构实现高性能、低功耗,但设计周期长(数月至数年)、前期成本高。典型代表包括谷歌 TPU(专为TensorFlow框架优化的推理芯片)、寒武纪思元芯片(面向云端和边缘AI推理)。ASIC 适合大规模固定任务(如数据中心AI推理、手机端AI 功能),在能效比(如每瓦算力)上优于GPU和FPGA,是终端AI 设备(如智能摄像头、手机)的核心芯片,推动AI 算力下沉。

NPU(Neural Processing Unit,神经网络处理器)

NPU 是专为神经网络计算设计的专用芯片,针对卷积、激活函数等操作优化硬件结构,能效比远超通用芯片。其架构通常包含乘加单元阵列(处理矩阵运算)、激活函数单元、池化单元等,直接硬件加速神经网络层计算。华为昇腾系列、地平线征程系列(自动驾驶 NPU)、苹果Neural Engine(手机 NPU,用于 Face ID、拍照优化)均属NPU,广泛应用于终端AI设备,使手机、摄像头等小型设备能本地运行AI模型(如离线语音识别)。