【摘要】 如何诊断和治疗以癌症为代表的复杂疾病一直是生物医学研究的重点和难点。但这方面的研究长期以来受限于生物实验技术和实验结果分析技术,没能取得重大的突破。高通量生物技术的快速发展为复杂疾病的研究提供了海量的数据来源,尤其是以基因调控网络和蛋白质相互作用网络为代表的生物网络很好的表示了生物大分子间的复杂关系,为复杂疾病的研究提供了很好的数据支持。正是由于这类生物网络数据的大量积累,研究人员迫切的需要新的分析技术对生物网络进行分析,并最终对复杂疾病的研究、诊断和治疗提供支持。本文从评估生物大分子间相互作用数据的可靠性出发,对图聚类、多数据融合的动态网络构建等技术进行了研究,最终将这些分析技术应用到复杂疾病的疾病基因和生物过程的识别中。主要的研究工作包括:针对目前高通量实验技术所产生的生物网络存在假阳性高和假阴性高的问题,利用Gene Ontology注释信息和语义相似性对现有的蛋白质相互作用数据的可靠性进行评估,通过统计分析和机器学习寻找最适合于评估蛋白质相互作用可靠性的语义相似性定义。现在直接从公开数据库中得到的生物网络都是静态的,但这显然没有反应出生物的动态性。我们通过对时序基因表达数据和组织特异性基因表达数据进行分析,并将其与现有的静态生物网络融合,构建出了具有一定时空动态特性的生物网络,并对这种动态网络进行了基本的分析,并将其跟静态网络做了比较。现有的大部分用于从生物网络中挖掘功能模块和复合物的算法都只是基于生物网络的拓扑结构。通过分析发现,关键蛋白质在功能模块和复合物中的分布式不均匀的,而且功能模块和复合物都存在核结构,因此在聚类过程中有必要对关键蛋白和非关键蛋白做不同的处理。据此,我们提出了基于关键蛋白质的图聚类算法,EPOF。将该算法应用到酵母的蛋白质相互作用网络上,通过GO富集分析和跟已知的复合物进行比较,EPOF算法的性能比其他同类算法有显著提高。最后,在对生物网络进行各种分析的基础之上,我们利用图聚类算法对疾病和药物对照研究中的基因表达数据进行分析,并用GO语义相似性对聚类结果进行比较,识别出跟疾病相关的生物过程。同时,我们还利用疾病的Gene Signature和生物网络数据融合不同的Gene Signature,并识别出跟疾病有密切关系的基因。本文从生物网络数据的预处理开始,研究了生物网络的各种分析方法,最终将这些方法应用到复杂疾病的研究中,取得了较好的结果。本文的研究内容和成果,为从系统的角度对各种复杂疾病展开研究提供了支持,有助于推动我们对以癌症为代表的复杂疾病的诊断和治疗等方面的研究。
【关键词】 系统生物学; 生物网络; 蛋白质相互作用网络; 复杂疾病; 图论; 功能模块;
摘要 4-6
ABSTRACT 6-7
第一章 绪论 11-25
1.1 生物网络和复杂疾病 11-14
1.2 课题的研究意义 14-15
1.3 相关研究工作 15-22
1.3.1 蛋白质相互作用可靠性评估 15-18
1.3.2 动态蛋白质相互作用网络的构建 18-19
1.3.3 蛋白质复合物挖掘 19-21
1.3.4 基于生物网络的复杂疾病研究 21-22
1.4 本文的主要研究内容 22-23
1.5 论文的结构 23-25
第二章 蛋白质相互作用预测和可靠性评估 25-36
2.1 问题来源 25-26
2.2 Gene Ontology语义相似性 26-28
2.3 GO语义相似性定义和评估方法 28-30
2.3.1 GO注释间的语义相似性 28-29
2.3.2 基因产物间的语义相似性 29
2.3.3 GO语义相似性跟蛋白质相互作用的关系评估方法 29-30
2.4 基于GO语义相似性的蛋白质相互作用可靠性评估 30-34
2.4.1 ROC分析结果 31-33
2.4.2 信息增益分析结果 33
2.4.3 卡方检验分析结果 33-34
2.4.4 讨论和结论 34
2.5 本章小结 34-36
第三章 动态蛋白质相互作用网络的构建 36-51
3.1 问题来源 36-37
3.2 时序基因表达数据分析 37-44
3.2.1 时序基因表达数据的选择 37-38
3.2.2 核糖体相关基因的筛选 38-39
3.2.3 基于模型的时序基因表达数据分析 39-42
3.2.4 跟生物实验结果比较 42-44
3.3 组织特异性基因表达数据和组织特异性网络分析 44-50
3.3.1 组织特异性蛋白质相互作用网络的重建 44-46
3.3.2 蛋白质相互作用组织特异性 46
3.3.3 组织特异性蛋白质相互作用网络的拓扑分析 46-47
3.3.4 聚类分析结果的GO富集分析 47-50
3.4 本章小结 50-51
第四章 蛋白质复合物和功能模块挖掘 51-71
4.1 问题来源 51-53
4.2 基于关键蛋白的蛋白质复合物和功能模块挖掘 53-58
4.2.1 蛋白质复合物模型和相关概念 53-54
4.2.2 基于关键蛋白质的复合物挖掘算法 54-58
4.3 EPOF算法在无权重网络上的聚类结果 58-67
4.3.1 跟已知复合物的比较结果 58-60
4.3.2 Gene Ontology富集分析结果 60-61
4.3.3 准确性比较 61-62
4.3.4 复合物密度分析 62-63
4.3.5 有重叠的功能模块分析 63-65
4.3.6 关键蛋白质种子的效果分析 65-67
4.4 EPOF算法在加权重网络上的聚类结果 67-68
4.4.1 跟已知复合物的比较结果 67
4.4.2 Gene Ontology富集分析结果 67-68
4.4.3 准确性分析 68
4.5 生物网络聚类分析软件开发 68-70
4.6 本章小结 70-71
第五章 基于图中心度的疾病基因签名融合 71-80
5.1 问题来源 71-72
5.2 基于图论中心度的疾病基因签名融合 72-74
5.2.1 基于图论中心图的基因签名融合方法 73
5.2.2 图论中心度定义 73-74
5.3 实例:乳腺癌 74-79
5.4 本章小结 79-80
第六章 总结 80-83
6.1 主要贡献和创新点 80-81
6.2 展望 81-83
参考文献 83-90
致谢 90-91
攻读博士学位期间主要的研究成果 91-93
学术论文网Tag: |