计算机视觉核心术语

计算机视觉(Computer Vision,CV)

计算机视觉是使计算机“看懂”图像和视频的AI子领域，研究如何从视觉数据中提取语义信息(如物体、场景、行为)。其核心任务包括图像分类、目标、检测、图像分割、行为分析等，融合了图像处理、模式识别、深度学习等技术。CNN、Transformer等模型推动CV性能突破，在安防监控、自动驾驶、医疗影像、机器人视觉等领域实现广泛应用，是AI感知世界的核心能力。

图像分类(ImageClassification)

图像分类是判断图像所属类别的任务(如“猫”“狗”“汽车”)，是计算机视觉的基础问题。其流程包括图像预处理(如resize、归一化)、特征提取(如 CNN的卷积层)、分类器(如全连接层)预测。基于深度学习的模型(如 VGG、ResNet、Vision Transformer)在ImageNet等数据集上准确率超越人类，支撑了照片自动分类(如手机相册)、产品质检(如工业零件缺陷识别)等应用。

目标检测(Object Detection)

目标检测是在图像或视频中定位并识别多个目标的任务，输出每个目标的边界框(位置)和类别(如“人”“车”)。与图像分类相比，目标检测需处理目标数量不定、位置可变的问题，主流算法分为两阶段(如FasterR-CNN，先生成候选框再分类)和单阶段(如YOLO、SSD，直接预测边界框和类别)。单阶段算法速度更快，适用于实时场景(如自动驾驶障碍物检测);两阶段算法精度更高，适用于安防监控(如人群计数)等场景。

图像分割(Image Segmentation)

图像分割是将图像像素划分为不同语义区域的任务，每个区域对应一个物体或部分(如“猫的头部”“猫的身体”)，比目标检测更精细。按粒度可分为语义分割(仅区分类别，不区分个体)、实例分割(区分同类不同个体)、全景分割(结合语义与实例分割)。U-Net(医疗影像)、Mask R-CNN(实例分割)等模型是主流方案，在自动驾驶(如车道线分割)、医疗影像(如肿瘤分割)、机器人抓取(如物体轮廓识别)等领域关键。

目标跟踪(Object Tracking)

目标跟踪是在连续视频帧中追踪特定目标(如某个人、某辆车)的运动轨迹，核心是解决目标遮挡、变形、光照变化等问题。按是否需要初始框分为单目标跟踪(如追踪特定行人)和多目标跟踪(如同时追踪画面中所有车辆)。基于深度学习的跟踪器(如SiamRPN、TrackFormer)结合外观特征和运动模型，提升了复杂场景下的鲁棒性，在安防监控(如可疑人员追踪)、视频分析(如体育赛事球员轨迹)等场景应用广泛。

图像识别(Image Recognition)

图像识别是更宽泛的术语，涵盖图像分类、目标检测、图像分割等任务，指计算机对图像内容的整体理解与识别。其核心是建立视觉特征与语义标签的映射，从早期的手工特征(如SIFT、HOG)发展到深度学习的自动特征提取，识别能力从简单物体扩展到复杂场景(如“海滩”“会议室”)、细粒度类别(如“不同品种的狗”)，在人脸识别、OCR、图像检索等领域落地。

人脸识别(Face Recognition)

人脸识别是基于人脸特征进行身份验证的技术，流程包括人脸检测 (定位人脸位置)、特征提取(如CNN提取面部关键点)、特征比对(与数据库人脸特征匹配)。其优势是非接触、高精度，在考勤打卡(如公司门禁)、身份核验(如手机解锁、机场安检)、安防追踪(如嫌疑人识别)等场景应用广泛。深度学习模型(如FaceNet)使人脸识别在光照、姿态变化下仍保持高准确率，但需平衡技术应用与隐私保护。

光学字符识别(Optical Character Recognition,OCR)

OCR 是将图像中的文字(印刷体、手写体)转换为可编辑文本的技术，流程包括文本定位(检测图像中的文字区域)、字符分割(分离单个字符)、字符识别(分类字符)。深度学习OCR(如CRNN、Vision Transformer)突破了传统方法对字体、背景的限制，支持多语言、复杂背景(如拍照的文档)、手写体识别，在票据处理(如发票扫描)、文档数字化(如古籍录入)、车牌识别(如违章拍摄)等场景提升效率。

语义分割(SemanticSegmentation)

语义分割是将图像中每个像素分配到语义类别(如“道路”“行人”“天空”)的任务，不区分同类别的不同个体(如所有行人都标为“行人”类)。其核心是实现像素级别的精准分类，U-Net、DeepLab等模型通过encoder-decoder结构和空洞卷积(扩大感受野)提升分割精度，在自动驾驶(如环境感知，区分可行驶区域)、遥感影像(如土地利用分类)、医疗影像(如器官分割)等领域不可或缺。

实例分割(Instance Segmentation)

实例分割是同时完成目标检测和语义分割的任务，既定位目标(如“两个行人”)，又分割每个目标的像素(如区分两个行人的不同像素区域)。Mask R-CNN是实例分割的里程碑模型，在Faster R-CNN基础上增加掩码分支(输出每个目标的像素掩码)，实现目标的精确轮廓提取。实例分割在机器人抓取(如区分堆叠物体)、视频分析(如追踪每个运动员的动作)等场景比目标检测更精细。

图像生成(Image Generation)

图像生成是创建全新图像的技术，核心是生成逼真、多样的视觉内容。基于 GAN的模型(如StyleGAN生成人脸、CycleGAN实现风格迁移)、扩散模型(如StableDiffusion、DALL-E) 是主流方案，扩散模型通过逐步去噪生成高质量图像，支持文本引导生成(如“一只坐在月球上的猫”)、图像编辑(如“将冬天的场景改为夏天”)。图像生成在艺术创作、游戏设计、产品原型设计等领域释放创意，降低视觉内容制作门槛。

图像超分辨率重建(Image Super-Resolution,SR)

超分辨率重建是将低分辨率图像(模糊、细节丢失)恢复为高分辨率图像的技术，核心是补充丢失的细节信息。传统方法基于插值，深度学习方法(如ESRGAN、EDSR)通过CNN学习低清到高清的映射，重建效果显著提升，在监控视频增强(如模糊车牌变清晰)、医学影像(如提升CT/MRI分辨率辅助诊断)、老照片修复等场景应用，提升视觉数据的可用性。

医学影响分析(Medical Image Analysis)

医学影像分析是CV在医疗领域的应用，对X光片、CT、MRI、超声等影像进行处理，辅助疾病诊断(如肿瘤检测)、治疗规划(如手术路径设计)、疗效评估。核心任务包括病灶检测(如肺结节识别)、器官分割(如脑结构分割)、影像量化(如肿瘤大小测量)，深度学习模型(如U-Net)在精度上接近甚至超越专业医生，尤其在基层医院缓解医生资源不足问题，同时需通过临床验证确保可靠性。

视频分析(Video Analysis)

视频分析是从连续视频帧中提取动态信息的技术,任务包括行为识别(如“跑步”“摔倒” 异常检测(如“打架”“火灾”)、视频摘要(提取关键帧)。与图像分析相比，需考虑时间维度的运动信息，常用CNN+RNN 或3D CNN模型捕捉时空特征。在安防监控(如自动报警异常行为)、智能交通(如违章行为识别:闯红灯、逆行)、体育分析(如运动员动作评估)等领域提升视频数据的利用效率。

视觉Transformer(Vision Transformer,ViT)

视觉Transformer是将Transformer模型应用于计算机视觉的架构，将图像分割为固定大小的图像块(Patch)，类比 NLP 中的词嵌入，输入Transformer编码器进行分类、检测等任务。ViT在图像分类任务上超越传统CNN，且易于扩展到更大模型，推动CV 进入“Transformer时代”，衍生出目标检测(如DETR)、图像分割(如SegViT)等变体，成为计算机视觉的新基础架构。

人工智能核心术语-计算机视觉核心术语