深度学习核心模型与算法

卷积神经网络(Convolutional Neural Network,CNN)

卷积神经网络是专为处理网格结构数据(如图像、视频)设计的深度学习模型,核心是通过卷积层、池化层实现局部特征提取与降维。卷积层利用滑动窗口(卷积核)对输入进行局部感知,通过权值共享减少参数数量;池化层通过最大值或平均值运算降低特征图尺寸,增强模型平移不变性。CNN在图像分类(如ResNet)、目标检测(如YOLO)、语义分割(如 U-Net)等领域主导技术发展。

循环神经网络(Recurrent Neural Network,RNN)

循环神经网络是专为处理序列数据(如文本、语音、时间序列)设计的模型,通过神经元间的反馈连接实现对历史信息的记忆。其核心是隐藏层状态在时间步上的传递,使模型能捕捉序列中的时序依赖关系。但传统RNN存在梯度消失/爆炸问题,难以处理长序列,衍生出LSTM、GRU等改进模型,在机器翻译、语音识别、情感分析等领域应用广泛。

长短期记忆网络(Long Short-Term Memory,LSTM)

LSTM 是 RNN的改进模型,通过引入输入门、遗忘门、输出门三种“门控机制”解决长序列依赖问题。遗忘门控制历史信息的保留与丢弃,输入门筛选新信息的纳入,输出门决定当前状态的输出,从而有效缓解梯度消失,能学习长达数百甚至数千时间步的序列依赖。LSTM在机器翻译、文本生成、时间序列预测等领域性能显著优于传统 RNN。

变换器模型(Transformer)

Transformer是2017年提出的基于自注意力机制(Self-Attention)的神经网络模型,彻底摆脱RNN的时序依赖,采用并行计算处理序列数据。其核心是自注意力机制,通过计算序列中每个元素与其他元素的关联权重,实现全局依赖建模,配合多头注意力、位置编码等机制,在长序列处理上效率远超 RNN。Transformer 是BERT、GPT 等预训练语言模型的基础,推动了自然语言处理领域的技术革命,并逐步向计算机视觉(如ViT)渗透。

自注意力机制(Self-Attention Mechanism)

自注意力机制是Transformer的核心组件,用于计算序列中每个元素与其他元素的关联程度(注意力权重),使模型能聚焦关键信息。其计算过程包括:将输入映射为查询(Query)、键(Key)、值 (Value)矩阵,通过Query 与 Key 的相似度计算权重,再通过权重对 Value 加权求和得到输出。自注意力机制解决了RNN无法并行计算和捕捉长距离依赖的问题,是现代自然语言处理模型的标配。

生成对抗网络(Generative Adversarial Networks,GAN)

生成对抗网络由生成器(Generator)和判别器(Discriminator)两个网络组成,通过对抗训练实现数据生成。生成器的目标是生成逼真的假数据(如图像、文本),判别器的目标是区分真假数据;两者通过minimax 游戏动态优化,最终生成器可输出与真实数据难以区分的样本。GAN 在图像生成(如StyleGAN)、图像修复、风格迁移、超分辨率重建等领域应用广泛,衍生出 DCGAN、CycleGAN等变体模型。

自编码器(Autoencoder,AE)

自编码器是一种无监督学习模型,由编码器(Encoder)和解码器(Decoder)组成,用于数据压缩与特征学习。编码器将输入数据映射为低维潜在表示(编码),解码器将潜在表示重构为与输入相似的输出,通过最小化重构误差训练模型。自编码器可用于降维、去噪(如Denoising AE)、生成数据(如变分自编码器 VAE),是无监督学习的重要工具。

变分自编码器(Variational Autoencoder,VAE)

变分自编码器是自编码器的变体,在编码过程中引入概率分布假设,将潜在表示约束为高斯分布,使生成过程具备可解释性和连续性。与传统自编码器相比,VAE不仅能重构输入,还能通过采样潜在分布生成新样本,在图像生成、文本生成等领域平衡了生成质量与模型稳定性,是生成模型的重要分支。

注意力机制(Attention Mechanism)

注意力机制模拟人类视觉的聚焦特性,使模型在处理输入数据时聚焦关键部分,忽略无关信息。其核心是计算“注意力权重”,表示不同输入元素对输出的影响程度,加权求和后得到上下文向量。在自然语言处理中,注意力机制解决了RNN长距离依赖问题(如Transformer);在计算机视觉中,通过空间注意力或通道注意力增强关键特征(如SENet),已成为深度学习模型的标准组件。

批量归一化(Batch Normalization,BN)

批量归一化是加速神经网络训练的技术,通过对每批训练数据的特征进行标准化(均值为0,方差为1),减少内部协变量偏移(Internal Covariate Shift),使模型更易收敛。BN通常插入卷积层或全连接层之后,通过学习可缩放和平移参数保留数据表达能力,能显著提高训练速度、缓解过拟合,是现代深度学习模型(如RosNet)的核心组件。

随机丢弃(Dropout)

Dropout 是防止神经网络过拟合的技术,在训练过程中随机将部分神经元的输出设为0(按预设概率,如0.5),使模型无法过度依赖特定神经元,增强泛化能力。测试时不启用Dropout,通过对所有神经元输出乘以保留概率(如0.5)保持输出期望不变。Dropout 简单有效,广泛应用于全连接层和卷积层,是深度学习模型正则化的经典方法。

残差网络(Residual Network, ResNet)

残差网络是解决深层神经网络训练难题的里程碑模型,通过引入“残差块”(Residual Block)缓解梯度消失问题。残差块采用跳跃连接(Skip Connection),将输入直接传递到输出,使模型可学习“残差”(输出与输入的差异)而非完整映射。这一设计使神经网络可训练到数百甚至数千层(如ResNet-50、ResNet-152),在ImageNet等图像分类任务中刷新精度纪录,成为计算机视觉的基础架构。

迁移学习(Transfer Learning)

迁移学习指将从一个任务(源任务)学到的知识迁移到另一个相关任务(目标任务),以减少目标任务的训练数据需求、提高模型性能。其典型流程是:在大规模数据集(如ImageNet)上预训练模型,再根据目标任务微调部分层参数。迁移学习在数据稀缺场景(如医疗影像)中效果显著,是深度学习落地的关键技术,广泛应用于计算机视觉、自然语言处理等领域。

微调(Fine-Tuning)

微调是迁移学习的核心步骤,指在预训练模型基础上,使用目标任务数据继续训练部分或全部参数,使模型适配新任务。对于数据量少的任务,通常冻结预训练模型的底层(保留通用特征).仅微调顶层(学习任务特定特征);对于数据量充足的任务,可解冻更多层甚至全部层。微调平衡了知识迁移与任务适配,是深度学习模型快速落地的常用策略。