当前位置：文档视界 › 视频语义分析若干问题研究

视频语义分析若干问题研究

第一章绪论 (1)

1.1研究背景与意义 (1)

1.2主要任务 (2)

1.3国内外研究现状 (3)

1.3.1研究现状概述 (3)

1.3.2主要问题与研究现状 (6)

1.4论文组织结构 (11)

1.5本章小结 (12)

第二章基于视频镜头分割和关键帧提取的视频表达研究 (13)

2.1引言 (13)

2.2相关研究 (14)

2.2.1距离度量与相似度 (15)

2.2.2卷积神经网络 (17)

2.3基于CNN特征相似度的镜头分割算法 (18)

2.3.1问题描述 (18)

2.3.2特征提取 (19)

2.3.3突变镜头检测 (20)

2.3.4渐变镜头检测 (20)

2.4基于完全图的视频关键帧提取算法 (23)

2.4.1问题描述 (23)

2.4.2算法设计 (23)

2.5实验结果与分析 (24)

2.5.1实验环境 (24)

2.5.2数据来源与标注 (25)

2.5.3评价指标 (25)

2.5.4结果与分析 (26)

2.6本章小结 (31)

第三章基于光流和双边空间的视频分割 (33)

3.1引言 (33)

3.2相关研究 (34)

3.2.1有监督分割 (34)

3.2.2半监督分割 (34)

3.2.3无监督分割 (35)

3.2.4光流 (35)

3.2.5双边滤波 (36)

3.2.6图割 (37)

3.3研究问题与过程 (38)

3.3.1问题描述 (38)

3.3.2相邻帧运动对象估计 (38)

3.3.3双边空间中的视频分割 (39)

3.3.4实验结果与分析 (42)

3.3.4.1实验设备 (42)

3.3.4.2参数设置 (42)

3.3.4.3处理时间 (43)

3.3.4.4评价指标与实验结果 (43)

3.4本章小结 (47)

第四章基于熵改进的HOG和SVM的夜间行人检测 (49)

4.1相关研究 (49)

4.1.1特征提取 (49)

4.1.2行人检测分类器 (54)

4.2研究问题与过程 (57)

4.2.1提取ROIs (58)

4.2.2理论分析 (59)

4.2.3分类框架 (60)

4.2.4头部检测 (61)

4.3实验结果与分析 (62)

4.3.1实验设备 (62)

4.3.2实验步骤 (62)

4.3.3实验结果与分析 (64)

4.3.3.1分类与识别比较 (64)

4.3.3.2行人识别性能比较 (65)

4.4本章小结 (66)

第五章基于运动向量和Two-Stream CNN的行为识别 (68)

5.1相关研究 (68)

5.2研究框架与内容 (69)

5.2.1稀疏采样策略 (69)

5.2.2增强运动向量 (70)

5.2.3可区分表示模块 (72)

5.2.4模型训练技巧 (74)

5.2.4.1预训练模型 (74)

5.2.4.2数据增强 (74)

5.2.4.3小学习率与高dropout率 (75)

5.3实验结果与分析 (75)

5.3.1数据集 (75)

5.3.1.1UCF101 (75)

5.3.1.2THUMOS14 (75)

5.3.2识别率与速度评估 (76)

5.3.3训练和测试错误率 (76)

5.3.4卷积过滤器可视化 (77)

5.3.5召回率 (78)

5.4本章小结 (78)

第六章基于多特征融合的视频语义自然语言描述 (81)

6.1相关研究 (81)

6.2研究问题与过程 (86)

6.2.1问题描述 (86)

6.2.2特征提取 (87)

6.2.3特征融合 (87)

6.2.4视频自然语言描述模型 (88)

6.2.5实验与分析 (89)

6.2.5.1实验环境 (89)

6.2.5.2数据集 (90)

6.2.5.3评价指标 (90)

6.2.5.4实验步骤 (91)

6.2.5.5实验结果与分析 (92)

6.3通用视频自然语言描述框架 (98)

6.3.1背景 (98)

6.3.2框架描述 (98)

6.3.3实验结果 (99)

6.4本章小结 (100)

第七章结论与展望 (101)

7.1全文结论 (101)

7.2研究展望 (102)

致谢 (104)

参考文献 (105)

攻读博士学位期间取得的成果 (122)

图目录

图1-1语义理解示例 (1)

图1-22001-2015年相关论文发表情况 (4)

图1-3各国主要研究机构 (5)

图1-4视频语义分析的层次结构 (6)

图2-1视频层次结构图 (13)

图2-2视频结构化处理方法 (14)

图2-3卷积神经网络结构 (17)

图2-4突变镜头相邻帧相似度示意图 (19)

图2-5渐变镜头相邻帧相似度示意图 (19)

图2-6基于滑动窗口的渐变镜头检测 (21)

图2-7本章方法与Sun等人的方法的帧相似度对比 (28)

图2-8镜头边界检测算法对比：（a）体育视频上各算法的PR曲线（b）电影视频上各算法的PR曲线（c）卡通视频上各算法的PR曲线 (29)

图2-9视频中提取的部分关键帧：（a）体育视频提取的部分关键帧（b）电影视频提取的部分关键帧（c）卡通视频提取的部分关键帧 (32)

图3-1双边网格 (36)

图3-2最大流算法 (37)

图3-3部分相邻帧运动对象像素点估计 (39)

图3-4插值算法示意图 (41)

图3-5DA VIS数据集上部分分割结果 (47)

图3-6SegTrack数据集上部分分割结果 (47)

图4-1基于统计分类的行人检测与识别方法框架 (49)

图4-2方向梯度直方图(Histogram of Oriented Gradient,HOG)特征提取流程..51图4-3Haar的4种特征模板 (52)

图4-4Haar的4种扩展特征模板 (53)

图4-5线性不可分情况 (55)

图4-6提升维度后可分 (56)

图4-7AdaBoost框架图 (57)

图4-8ROIs提取 (58)

图4-9FC-SVM行人检测框架 (61)

图4-10行人图像的头部校准方法：（a）头部模板1（b）头部模板2（c）灰度等级分布差求解 (62)

图4-11行人图像 (63)

图4-12非行人图像 (63)

图4-13特征性能比较 (65)

图5-1行为识别框架 (70)

图5-2可区分表示模块 (72)

图5-3UCF101数据集上本章方法与基准（VGG-16）的空间网络训练误差..77图5-4UCF101数据集上本章方法与基准（VGG-16）的空间网络测试误差..78图5-5样本conv1层过滤器可视化 (78)

图5-6UCF101数据集上每一分类召回率 (79)

图6-1RNN网络结构图 (83)

图6-2RNN网络结构图展开式 (83)

图6-3RNN序列预测示例 (84)

图6-4LSTM细胞单元 (85)

图6-5LSTM自然语言描述模型结构示意图 (86)

图6-6视频1部分帧 (94)

图6-7视频2部分帧 (94)

图6-8视频3部分帧 (95)

图6-9视频4部分帧 (96)

图6-10视频5部分帧 (96)

图6-11视频6部分帧 (97)

图6-12视频7部分帧 (97)

图6-13视频8部分帧 (97)

图6-14通用视频自然语言描述框架 (98)

图6-15实验视频1的部分结果：（a）A young man is doing a woman is talking.（b）A man is walking in a room.（c）A man is using a bag (99)

图6-16实验视频2的部分结果：（a）A man is pushing a car.（b）A man is driving a car.（c）A man is speaking (99)

图6-17实验视频3的部分结果：（a）A dog is walking.（b）A man is doing a rope.（c）A girl is walking down a sidewalk (99)

表目录

表2-1视频镜头数量统计 (25)

表2-2性能比较 (30)

表2-3帧处理速度 (30)

表3-1视频分割参数设置 (43)

表3-2平均分割一帧所需时间 (43)

表3-3密集标注的视频分段(Densely Annotated Video Segmentation,DA VIS)数据集IoU分数（第一部分） (45)

表3-4DA VIS数据集IoU分数（第二部分） (46)

表3-5SegTrack数据集IoU分数 (46)

表4-1具有代表性的行人特征列表 (50)

表4-2分类模型性能比较 (66)

表5-1UCF101验证集上的性能 (75)

表5-2THUMOS14验证集上的性能 (76)

表5-3各组成部分处理速度 (76)

表5-4UCF101上性能比较 (77)

表6-1LSTM自然语言描述模型部分参数 (91)

表6-2自然语言描述方法评估结果 (93)

缩略词表

缩略词英文全称中文全称

X2HSS X2histogram based shot segmentation基于X2直方图

的镜头分割

BA Bundle Adjustment束调整

BLEU Bilingual Evaluation Understudy

BoVW Bag of Visual Words视觉词袋语义模

型

BP Back Propagation反向传播CENTRIST CENsus TRansform hISTogram统计变换直方图CFSSS CNN Feature Similarity based Shot Segmentation基于CNN特征

相似度的镜头分

割

CIDEr Consensus-based Image Description Evaluation

CNKI China National Knowledge Infrastructure中国知网

CNN Convolutional Neural Network卷积神经网络CoHOG Co-occurrence Histograms of Oriented Gradients共生梯度方向直

方图

CRF Condition Random Field条件随机场CSS Color Self Similar颜色自相似特征DA VIS Densely Annotated Video Segmentation密集标注的视频

分段

DR Detected Result检测结果

DT Dense Trajectory密集轨迹

EI Engineering Index工程索引

FAR False Alarm Rate误报率

FC-SVM Fast Classi?cation SVM快速分类SVM FCN Fully Convolutional Networks全卷积网络

FN False Negative假阴性

FP Forward Propagation前向传播FPPW False Positive Per Window窗口误判率

缩略词英文全称中文全称

FPS Frames Per Second帧率

GA V Gray Average Values灰度平均值GLCM Gray-level Co-occurrence Matrix灰度共生矩阵GPU Graphics Processing Unit图像处理器GRMF Gauss-Markov Random Field高斯-马尔科夫

随机场

GT GroundTruth理想数据HIKSVM Histogram Intersection Kernel SVM直方图交叉核支

持向量机

HMM Hidden Markov Model隐马尔科夫模型HOC Histogram of Color颜色直方图HOG Histogram of Oriented Gradient方向梯度直方图HSS Histogram based Shot Segmentation基于直方图的镜

头分割

HSV Hue,Saturation,Value视觉均衡颜色空

间

ILSVRC ImageNet Large Scale Visual Recognition Compe-tition ImageNet大规模视觉识别的挑战

IoU Intersection over Union交叠率

KNN k-Nearest Neighbor k-近邻算法LBP Local Binary Pattern局部二值模式LR Logistic Regression逻辑回归LSMDC Large Scale Movie Description Challenge大规模电影描述

挑战赛

LSTM Long-Short Term Memory长短期记忆模型MED Multimedia Event Detection多媒体事件检测MEI Motion Energy Images运动能量图MEMM Maximum Entropy Markov Models最大熵马尔科夫

模型

MHI Motion History Images运动历史图MRF Markov Random Field马尔科夫随机场

缩略词表

缩略词英文全称中文全称

MSVD Microsoft Video Description Dataset微软视频描述数

据集NADE Neural Autoregressive Distribution Estimator神经自回归分布

估计器NN Nearest Neighbor最近邻

OTSN Optimized Temporal Segment Network优化后的TSN

PLSA Probabilistic Latent Semantic Analysis概率潜在语义分

析

PSS Pixel based Shot Segmentation基于像素的镜头

分割RBF Radial Basis Function径向基函数

RBM Restricted Boltzmann Machines限制玻尔兹曼机RNN Recurrent Neural Network递归神经网络

ROI Region of Interest感兴趣区域

ROUGE Recall-Oriented Understudy for Gisting Evalua-

tion

SCI Science Citation Index科学引文索引

SVM Support Vector Machine支持向量机

TN True Negative真阴性

TP True Positive真阳性

TSN Temporal Segment Network时间分段网络

万方数据