文档视界 最新最全的文档下载
当前位置:文档视界 › 基因表达数据的谱聚类方法研究

基因表达数据的谱聚类方法研究

目录

学位论文原创性声明和学位论文版权使用授权书 .................................................. I 摘要 ..................................................................................................................... II Abstract ................................................................................................................... I II 插图索引............................................................................................................... VII 附表索引.............................................................................................................. VIII 第1章绪论 (1)

1.1研究背景和意义 (1)

1.2基因表达谱数据概述 (2)

1.2.1 基因表达谱数据的获取 (2)

1.2.2 基因表达谱数据的特点 (3)

1.2.3 基因表达谱数据的预处理 (4)

1.3国内外研究现状 (4)

1.3.1 基因表达数据的聚类研究现状 (5)

1.3.2 谱聚类的研究现状 (5)

1.4研究难点 (6)

1.5主要研究目标和内容 (7)

1.6论文结构安排 (8)

第2章相关理论基础 (9)

2.1引言 (9)

2.2特征提取方法 (9)

2.2.1 主成份分析 (9)

2.2.2 局部线性嵌入 (10)

2.3聚类算法介绍 (10)

2.3.1 基于划分的聚类算法 (11)

2.3.2 层次聚类算法 (11)

2.3.3 模糊聚类算法 (11)

2.3.4 基于网格和密度的聚类算法 (12)

2.3.5 谱聚类算法 (12)

2.3.5.1非规范拉普拉斯矩阵 (13)

2.3.5.2规范拉普拉斯矩阵 (13)

2.4相似性度量方法 (14)

2.5聚类算法的评价标准 (15)

2.6小结 (17)

第3章基于线性表达的谱聚类 (18)

3.1引言 (18)

3.2基于K近邻约束的稀疏表达系数的谱聚类 (18)

3.2.1 稀疏表达系数 (18)

3.2.2 K近邻约束的稀疏表达系数向量 (19)

3.2.3 构造相似度矩阵 (20)

3.2.4 算法描述 (20)

3.3基于局部约束的协同表达系数的谱聚类 (21)

3.3.1 协同表达系数 (21)

3.3.2 局部约束的协同表达系数向量 (22)

3.3.3 算法描述 (22)

3.4实验结果与分析 (23)

3.4.1 数据集描述与实验设置 (23)

3.4.2 相似度矩阵的对比分析 (25)

3.4.3 表达系数的对比分析 (26)

3.4.4 聚类结果的对比分析 (27)

3.5小结 (30)

第4章基于非负矩阵分解的谱聚类 (31)

4.1引言 (31)

4.2非负矩阵分解算法 (31)

4.2.1 非负矩阵分解的数学描述 (31)

4.2.2 非负矩阵分解的实现 (32)

4.3基于非负矩阵分解的谱聚类算法 (33)

4.4实验结果与分析 (34)

4.4.1 数据集描述与实验设置 (34)

4.4.2 相似度矩阵的对比分析 (36)

4.4.3 聚类结果的对比分析 (37)

4.5小结 (41)

结论 (42)

参考文献 (44)

附录A 攻读学位期间所发表的学术论文 (51)

附录B 攻读学位期间所参与的科研活动 (52)

致谢 (53)

插图索引

图1.1 2012年中国癌症病例死亡统计分布 (2)

图1.2 cDNA微阵列数据获取示意图 (3)

图3.1 参数对KNNSRSC的聚类准确率的影响 (24)

图3.2 参数对LCRSC的聚类准确率的影响 (24)

图3.3 Leukemia1数据集上KNNSRSC和SRSC的相似度矩阵对比 (25)

图3.4 SRBCT数据集上KNNSRSC和SRSC的相似度矩阵对比 (25)

图3.5 SRBCT数据集上LCRSC和SRSC的相似度矩阵对比 (25)

图3.6 SRBCT数据集中同一类的两个样本的表达系数 (26)

图3.7 SRBCT数据集中不同类的两个样本的表达系数 (27)

图3.8 六种方法在6个数据集上的平均结果对比 (30)

图4.1 NMF示意图 (32)

图4.2 参数对SRSC和NMFSC的聚类准确率的影响 (35)

图4.3 SRBCT数据集上SRSC和NMFSC的相似度矩阵对比 (36)

图4.4 MLL数据集上SRSC和NMFSC的相似度矩阵对比 (36)

图4.5 六种方法在10个数据集上的平均结果对比 (40)

附表索引

表3.1 数据集描述 (23)

表3.2 准确率的对比 (28)

表3.3 归一化相互信息的对比 (28)

表3.4 F的对比 (28)

表3.5 随机索引的对比 (29)

表3.6 熵的对比 (29)

表3.7 运行时间(秒)的对比 (29)

表4.1 数据集描述 (34)

表4.2 准确率的对比 (37)

表4.3 归一化相互信息的对比 (37)

表4.4 F的对比 (38)

表4.5 随机索引的对比 (38)

表4.6 熵的对比 (39)

表4.7 运行时间(秒)的对比 (40)

表4.8 NMFSC与KNNSRSC以及LCRSC的准确率对比 (41)

表4.9 NMFSC与KNNSRSC以及LCRSC的运行时间(秒)对比 (41)

第1章绪论

1.1研究背景和意义

生物信息学是80年代末随着人类基因组计划的启动而兴起的,将生命科学和计算机科学组合形成的一门新的交叉学科。生物信息学对逐日增长的海量的DNA 和蛋白质的序列和结构进行处理、分析和研究,以逐步认识生命的起源、进化、遗传和发育的本质,破译隐藏在DNA序列中的遗传语言,揭示生物体生理和病理过程的分子基础,为探索生命的奥秘提供最合理和有效的方法或途径。很多重大疾病(如糖尿病,肿瘤)的发生是一个具有阶段性且逐步演化的极其复杂的过程,而这一过程也带来了多种基因的非正常变化。基因的表达情况反映出基因的调控正常与否,而人类基因组计划中DNA测序的圆满完成使得在分子水平上阐明疾病的产生、发展机制成为可能。DNA微阵列技术(即基因芯片技术)作为20世纪末分子生物学领域的一项重大技术突破,可以在一张微型的芯片上同时监测数以万计的基因在同一条件下的基因表达水平值,由DNA技术产生的基因表达谱数据包含了生物细胞特定状态下的生理状况信息。对基因表达数据进行分析,可以了解基因的作用和基因间的关系,揭示疾病的发生机制,为疾病的诊断提供基础。基因表达谱数据给生物医学专家提供了一种新的途径去挖掘生命本质,对基因表达谱数据进行分析是生物信息学的研究热点和难点。

目前,基因表达谱数据已经被广泛应用于生物学和医学研究的各个领域,如疾病诊断、新药开发、大规模DNA测序以及基因突变检测等。其中,基于基因表达数据的肿瘤诊断问题已经吸引全球科学家的眼球,成为研究热点之一。肿瘤是指机体某一部分组织的某些细胞在各类致癌因素的影响下发生非正常变化,导致其不能完成基因水平上生长的调控作用而形成的赘生物细胞群。肿瘤已经严重威胁到人类的生命健康,尤其是恶性肿瘤(也称癌症)。癌症已经成为全球发病和死亡的主要原因。据世界卫生组织(WHO)2014年公布的最新数据显示,在2012年,全世界约有1400万新发癌症病例和820万例癌症相关死亡。其中,我国新增癌症发病例数是三百零七万,且有二百二十万病人死亡,其主要是肝癌、胃癌和食道癌等,如图1.1所示。报告中还预测全世界癌症病例将会呈现不断上升趋势,预计今后二十年新发病例数将增加约70%。至今,人类对治癌药物的开发也十分有限。因为癌症的致病机制极其复杂,并且种类繁多,同一类癌症也可能有多种不同的亚型。一种疗法对某种亚型有效,对其他亚型可能完全无效,因此肿瘤治疗过程中面临的最大挑战是如何对肿瘤进行正确的分类和诊断以便制定个性化的治疗方案达到最大的疗效。对肿瘤进行精确的诊断和分型成为当前全球科学家的

相关文档