深度学习核心模型与算法

卷积神经网络（Convolutional Neural Network,CNN）

卷积神经网络是专为处理网格结构数据(如图像、视频)设计的深度学习模型，核心是通过卷积层、池化层实现局部特征提取与降维。卷积层利用滑动窗口(卷积核)对输入进行局部感知，通过权值共享减少参数数量;池化层通过最大值或平均值运算降低特征图尺寸，增强模型平移不变性。CNN在图像分类(如ResNet)、目标检测(如YOLO)、语义分割(如 U-Net)等领域主导技术发展。

循环神经网络（Recurrent Neural Network,RNN）

循环神经网络是专为处理序列数据(如文本、语音、时间序列)设计的模型，通过神经元间的反馈连接实现对历史信息的记忆。其核心是隐藏层状态在时间步上的传递，使模型能捕捉序列中的时序依赖关系。但传统RNN存在梯度消失/爆炸问题，难以处理长序列，衍生出LSTM、GRU等改进模型，在机器翻译、语音识别、情感分析等领域应用广泛。

长短期记忆网络（Long Short-Term Memory,LSTM）

LSTM 是 RNN的改进模型，通过引入输入门、遗忘门、输出门三种“门控机制”解决长序列依赖问题。遗忘门控制历史信息的保留与丢弃，输入门筛选新信息的纳入，输出门决定当前状态的输出，从而有效缓解梯度消失，能学习长达数百甚至数千时间步的序列依赖。LSTM在机器翻译、文本生成、时间序列预测等领域性能显著优于传统 RNN。

变换器模型（Transformer）

Transformer是2017年提出的基于自注意力机制(Self-Attention)的神经网络模型,彻底摆脱RNN的时序依赖，采用并行计算处理序列数据。其核心是自注意力机制，通过计算序列中每个元素与其他元素的关联权重，实现全局依赖建模，配合多头注意力、位置编码等机制，在长序列处理上效率远超 RNN。Transformer 是BERT、GPT 等预训练语言模型的基础，推动了自然语言处理领域的技术革命，并逐步向计算机视觉(如ViT)渗透。

自注意力机制（Self-Attention Mechanism）

自注意力机制是Transformer的核心组件，用于计算序列中每个元素与其他元素的关联程度(注意力权重)，使模型能聚焦关键信息。其计算过程包括:将输入映射为查询(Query)、键(Key)、值 (Value)矩阵，通过Query 与 Key 的相似度计算权重，再通过权重对 Value 加权求和得到输出。自注意力机制解决了RNN无法并行计算和捕捉长距离依赖的问题，是现代自然语言处理模型的标配。

生成对抗网络（Generative Adversarial Networks，GAN）

生成对抗网络由生成器(Generator)和判别器(Discriminator)两个网络组成，通过对抗训练实现数据生成。生成器的目标是生成逼真的假数据(如图像、文本)，判别器的目标是区分真假数据;两者通过minimax 游戏动态优化，最终生成器可输出与真实数据难以区分的样本。GAN 在图像生成(如StyleGAN)、图像修复、风格迁移、超分辨率重建等领域应用广泛，衍生出 DCGAN、CycleGAN等变体模型。

自编码器（Autoencoder,AE）

自编码器是一种无监督学习模型，由编码器(Encoder)和解码器(Decoder)组成，用于数据压缩与特征学习。编码器将输入数据映射为低维潜在表示(编码)，解码器将潜在表示重构为与输入相似的输出，通过最小化重构误差训练模型。自编码器可用于降维、去噪(如Denoising AE)、生成数据(如变分自编码器 VAE)，是无监督学习的重要工具。

变分自编码器（Variational Autoencoder,VAE）

变分自编码器是自编码器的变体，在编码过程中引入概率分布假设，将潜在表示约束为高斯分布，使生成过程具备可解释性和连续性。与传统自编码器相比，VAE不仅能重构输入，还能通过采样潜在分布生成新样本，在图像生成、文本生成等领域平衡了生成质量与模型稳定性，是生成模型的重要分支。

注意力机制（Attention Mechanism）

注意力机制模拟人类视觉的聚焦特性，使模型在处理输入数据时聚焦关键部分，忽略无关信息。其核心是计算“注意力权重”，表示不同输入元素对输出的影响程度，加权求和后得到上下文向量。在自然语言处理中，注意力机制解决了RNN长距离依赖问题(如Transformer);在计算机视觉中，通过空间注意力或通道注意力增强关键特征(如SENet)，已成为深度学习模型的标准组件。

批量归一化（Batch Normalization,BN）

批量归一化是加速神经网络训练的技术，通过对每批训练数据的特征进行标准化(均值为0，方差为1)，减少内部协变量偏移(Internal Covariate Shift)，使模型更易收敛。BN通常插入卷积层或全连接层之后，通过学习可缩放和平移参数保留数据表达能力，能显著提高训练速度、缓解过拟合，是现代深度学习模型(如RosNet)的核心组件。

随机丢弃(Dropout)

Dropout 是防止神经网络过拟合的技术，在训练过程中随机将部分神经元的输出设为0(按预设概率，如0.5)，使模型无法过度依赖特定神经元，增强泛化能力。测试时不启用Dropout，通过对所有神经元输出乘以保留概率(如0.5)保持输出期望不变。Dropout 简单有效，广泛应用于全连接层和卷积层，是深度学习模型正则化的经典方法。

残差网络(Residual Network, ResNet)

残差网络是解决深层神经网络训练难题的里程碑模型，通过引入“残差块”(Residual Block)缓解梯度消失问题。残差块采用跳跃连接(Skip Connection)，将输入直接传递到输出，使模型可学习“残差”(输出与输入的差异)而非完整映射。这一设计使神经网络可训练到数百甚至数千层(如ResNet-50、ResNet-152)，在ImageNet等图像分类任务中刷新精度纪录，成为计算机视觉的基础架构。

迁移学习(Transfer Learning)

迁移学习指将从一个任务(源任务)学到的知识迁移到另一个相关任务(目标任务)，以减少目标任务的训练数据需求、提高模型性能。其典型流程是:在大规模数据集(如ImageNet)上预训练模型，再根据目标任务微调部分层参数。迁移学习在数据稀缺场景(如医疗影像)中效果显著，是深度学习落地的关键技术，广泛应用于计算机视觉、自然语言处理等领域。

微调（Fine-Tuning）

微调是迁移学习的核心步骤，指在预训练模型基础上，使用目标任务数据继续训练部分或全部参数，使模型适配新任务。对于数据量少的任务，通常冻结预训练模型的底层(保留通用特征).仅微调顶层(学习任务特定特征);对于数据量充足的任务，可解冻更多层甚至全部层。微调平衡了知识迁移与任务适配，是深度学习模型快速落地的常用策略。

人工智能核心术语-深度学习核心模型与算法