内容简介
《生物信息学中的机器学习分析方法》针对生物信息学领域中海量的生物数据,分别从微阵列数据的分析
和处理、基因调控网络的分析和构建以及蛋白质相互作用网络的分析等角度,
系统介绍机器学习、统计学习及各种智能算法在生物信息学相关领域的应用。
机器学习在生物信息学领域的研究重心集中在观测和探索生物现象,以及建
立统一的形式化的模型对生物学现象加以阐释。《生物信息学中的机器学习分析方法》针对生物信息学领域典
型的诊断模型、基因调控网络构建和蛋白质相互作用网络分析3 个研究
方向展开机器学习数据挖掘方法的分析与研究,为生物信息学方向的初学者
提供了入门知识,也为相关研究人员在相关方向提供了参考信息。
目录
目 录
前言 0 绪论 1
0.1生物信息学的概念 1
0.2生物信息学的研究内容 1
0.3微阵列分析技术 2
0.4基因调控网络 9
0.5蛋白质相互作用网络 11
0.6机器学习方法及应用 12
0.7本书主要内容和安排 15 参考文献 15
第Ⅰ篇 微阵列数据的分析和处理
第 1章 基于核方法的多病类 DNA微阵列数据集成分类器 21
1.1核机器学习 22
1.2基分类器的选择 24
1.3 DNA微阵列数据集成分类器结构框图 29
1.4实例研究 30
1.5本章小结 34 参考文献 34 第 2章 基于选择性独立成分分析的 DNA微阵列数据集成分类器 36
2.1基于重构样本误差的选择性独立成分分析 37
2.2实例研究 38
2.3本章小结 45 参考文献 45 第 3章 基于相关性分析的诊断 47
3.1 K均值聚类 48
3.2基于特征选取的相关系数分析诊断模型 48
3.3实验结果和分析 51
3.4本章小结 53
参考文献 53 第 4章 基于线性回归的 DNA微阵列数据稀疏特征基因选择 55
4.1特征选择 56
4.2回归分析 56
4.3仿真研究 61
4.4本章小结 64 参考文献 65 第 5章 基于贝叶斯理论的 DNA甲基化水平数据分型 66
5.1贝叶斯理论概述 67
5.2基于贝叶斯理论的 DNA甲基化水平数据分型 70
5.3聚类性能评估 74
5.4仿真研究 75
5.5本章小结 81 参考文献 81
第Ⅱ篇 基因调控网络的分析和构建
第 6章 基因表达数据缺失值处理 85
6.1三种基因表达数据缺失值估计方法 86
6.2内部规律与外部联系结合的基因表达数据缺失值估计方法 88
6.3仿真研究 91
6.4本章小结 98 参考文献 98 第 7章 基于角度离散化的基因调控网络定性分析 100
7.1三种基因调控网络定性分析方法 101
7.2基于角度离散化的基因调控网络方法 104
7.3仿真研究 107
7.4本章小结
摘要与插图
0 绪 论0.1生物信息学的概念
生物信息学( Bioinformatics)一词是由林华安( Hwa A. Lim)于 1987年首创的。当时林华安任职美国佛罗里达州立大学超级计算机中心基因与生物物理研究组主任,他预测生物学与计算机科学相结合将成为未来科研的方向,于是就把这门学科命名为“Bioinformatics”,并一直沿用至今[1]。
生物信息学的概念主要从以下两个方面阐述。从广义的角度,生物信息包括基因组信息,如基因的 DNA序列、染色体定位等,也包括蛋白质或 RNA的结构功能,以及各种生物物种之间的进化关系等其他信息资源。从狭义的角度,生物信息学包含了生物信息的获取、处理、储存、传递、分析和解释等在内的所有方面。它综合运用数学、计算机科学和生物学的各种工具,以解释大量生物数据所包含的意义。具体来说即通过对基因组序列的分析,找到基因组序列中的代表蛋白质和 RNA基因的编码区,解释基因组中大量存在的非编码区的信息,在此基础上获取、处理、储存、传递、分析和解释与基因组遗传信息和蛋白质质谱等相关的数据,发现生命的代谢、发育、分化、进化的规律。
生物信息学是一门结合生物学、计算机科学的应用性学科,并且是综合应用这些学科知识对生物数据进行分析的学科。生物信息学不仅是一门概念型的理论性学科,也是一门理论和实践相互应用的学科。生物信息学作为生命科学和生物技术相结合的学科,在医学上表现出重要的意义,为新药的研制提供了基础,对开展生物大分子结构分析起到了重要作用,为揭示人类复杂疾病的发生发展机制提供了重要的信息。
0.2生物信息学的研究内容
生物分子数据具有深刻的内涵,数据之间存在着复杂的联系。这些数据中蕴涵着丰富的生物学知识和生物学规律。生物信息学的发展可以帮助揭示生物分子信息的本质,使人类彻底了解、掌握遗传信息的编码、传递和表达,从而加快人类了解自身的进程。
目前,生物信息学的主要研究内容涉及以下两个方面。
第一是收集和管理生物分子数据,使生物学研究人员能够方便地使用这些数据,并为后续的信息分析和数据挖掘打下基础。考虑到生物分子数据主要来自生物学实验,应用信息技术收集和管理这些数据,将各种数据以一定的表示形式存放在计算机中,建立数据库系统,并提供数据的查询、搜索和通信的接口。
第二是进行数据处理和分析。通过数据分析,发现数据之间的关系,认识数据的本质,进而上升为生物学规律。生物分子信息处理的一般流程如图 0-1所示[2]。以数据分析为基础,解释与生物分子信息复制、传递和表达相关的生物过程,解释在生物过程中出现的信息变化与疾病的关系,帮助发现新的药物作用目标,设计新的药物分子,为进一步的研究和应用打下基础。这方面的研究主要依靠相应的机器学习方法展开。
图 0-1生物分子信息处理流程(图片来源:文献[2])
0.3微阵列分析技术
近年来,随着生物微阵列技术的迅猛发展,产生了大量的基因表达谱和 DNA甲基化表达谱数据。这些海量数据被广泛应用于癌症的诊断、分型、预测预后评估,以及基因调控网络的分析与构建、蛋白质功能预测等领域。
0.3.1 DNA微阵列数据
生物微阵列又被广泛地称为生物芯片,它与计算机中的微芯片存在很大的区别,其渊源可追溯到生物杂交技术的源头 Southern blot。在 20世纪 80年代, Bains等就将短的 DNA片段固定到支持物上,借助杂交方式进行序列测定 [3]。使用微阵列技术检测基因表达谱的昀早文献发表于 1995年的 Science[4],而第一个完整的真核基因组微阵列于 1997年发表于同一期刊[5]。但基因芯片从实验室走向工业化却是直接得益于探针固相原位合成技术和照相平板印刷技术的有机结合,以及激光共聚焦显微技术的引入,如图 0-2所示[6]。它使合成、固定高密度的数以万计的探针分子切实可行,同时,激光共聚焦显微扫描技术的使用使对杂交信号进行实
时、灵敏、准确的检测和分析成为可能。
图 0-2微阵列芯片(图片来源:文献[6])
总体来说,生物微阵列是将生命科学研究中所涉及的不连续的分析过程(如样品制备、化学反应和分析检测等),利用微电子、微机械、化学、物理技术和计算机技术在固体芯片表面构建的微流体分析单元和系统,使之连续化、集成化、微型化。其中的关键点是将巨大的 DNA分析缩小到很小的芯片上,再利用光电技术对信号进行探测,昀后通过计算机加以分析。借助基因芯片技术,研究者可以测定基因在某一器官、不同条件下、不同的发展阶段和不同组织中的转录水平,从而建立基因表达谱以描绘基因组中每一个基因的表达水平。其基本制作原理和反应过程如下: ①把探针分子印刷(或原位合成)于载体上,交联并加以固定,制备成为微阵列; ②使用同位素或者荧光分子对待分析的样品进行标记; ③将样品与制备好的微阵列进行分子杂交反应; ④检测杂交后的信号,分析其强弱变化与样品间的关系。
各种微阵列技术中,用得昀多的当属基因微阵列芯片。在基于基因微阵列的实验中,首先选取来自不同状态的样本,如正常组织与肿瘤组织、不同发育阶段的组织、用药之前与用药之后的组织等。通常,一种称为实验样本,另外一种称为参考样本。在反转录过程中,实验样本和参考样本的 RNA分别通过不同的荧光染色,进行混合,与微阵列上的探针序列进行杂交,经过适当的洗脱步骤与激光扫描,获得对应于每种荧光的荧光强度图像,再通过专用的图像分析软件,获得微阵列上每个点的红、绿荧光强度(Cy5和 Cy3),其比值( Cy5/Cy3)就是该基因在相应样本中的表达水平[7]。
其制作分析流程如图 0-3所示。其制作步骤如下。
步骤 1,基因微阵列芯片的制备。基因微阵列芯片通常是以玻璃片或硅片为载体,采用原位合成或离片合成的方法将寡核苷酸片段或 cDNA作为探针按顺序排列在载体上。
图 0-3基因芯片制作分析流程图
步骤 2,标记探针的制备。为了提高检测的灵敏度,样本要进行一定程度的扩增,同时用荧光、生物素或同位素等标记标本。
步骤 3,芯片杂交和扫描。芯片经杂交反应以后,再利用激光共聚焦显微镜或落射荧光显微镜等设备检测标记信号,并记录为特殊格式的数据文件。昀后通过特定的计算机软件从微阵列中提取杂交点的荧光强度信号进行定量分析。在昀后得到的数据中,每一个点都是表达水平的比率,分子是某一基因在实验条件下的表达水平,分母是该基因在某种参考状态下的表达水平。
步骤 4,生物信息学综合分析。通常包括杂交图像处理和数据分析两部分内容。
作为一项能够分析基因组、基因表达特征性图谱的新技术, DNA微阵列技术已广泛应用于差异基因表达分析、基因功能预测、基因突变检测和多态性分析等方面。目前,各个不同的公司生产的 DNA微阵列芯片各有不同。其主要表现在探针的序列不同;探针的长短不同,既可以是合成的较短的寡核苷酸(如 Affymetrix芯片,25mer)或者较长的寡核苷酸(如 Agilent芯片, 60mer),也可以是基因片段的 PCR产物;制备的方法不同,有原位合成的芯片,也有机器点制的芯片;样品标记的方法不同,有的需要施行体外转录放大,有的则不需要;样品杂交的方式不同,有单色荧光和双色荧光之分。这些差异导致了不同芯片在检测时检出率、特异性等方面表现出一定的差异,但对后续的数据处理分析流程均无明显影响。
大多数的 DNA微阵列技术可经由一次测验,获取大量基因序列相关信息。作为基因组学和遗传学研究的工具,研究人员能够在同一时间定量地分析成千上万个基因表达。一个 DNA微阵列实验能够获得细胞在某一条件下的一组基因的表达数据,其中包含成千上万个基因在细胞中的相对或绝对丰度。表 0-1列出了某 DNA微阵列的数据格式。
表 0-1基因表达格式
gene sample1 sample 2 sample3 sample4 . sample n
gene1 1.154 1.824 2.708 1.574 . 0.847
gene2 0.037 1.662 1.857 2.447 . 1.254
gene3 0.178 . 0.578 0.142 .1.485 . 0.214
gene4 .1.354 .1.854 .1849 .0.872 . .0.751
. . . . . .
gene p 1.342 0.421 0.454 0.218 . 1.547
为了方便对其进行操作分析,通常据此构造微阵列数据矩阵 Xp×n。矩阵的行
代表基因,列代表观测样本,其元素代表某个基因在某一次观测中的表达水平,即第 i行中的第 j列则对应第 i个基因在第 j个样本中或第 j个时间点的观测的表
达向量。其具体表达格式为
. xx . x.
1112 1n
..
xx . x
2122 2n
..
X .
. .. . . ..
xx .x
. p1 p2 n.
..
式中,行向量 Xi. (,xi1 xi2,., xin) 代表基因 i在 n个条p件下的表达水平,称为基因 i
的表达谱;列向量 X. (,xx,., x)T 代表在条件 j下的各基因的表达水平。
j 1 j 2 j pj
0.3.2 DNA甲基化水平数据
DNA甲基化是一种重要的表观遗传现象,指的是少数胞嘧啶在 C5位置上的氢元素被甲基取代,如图 0-4所示,发生甲基化之后的胞嘧啶仍然可深入复制的 DNA中,在细胞分化、发育和增殖过程中发挥十分重要的作用。近年来的研究发现,肿瘤细胞中基因组总体甲基化水平的降低和某些基因启动子区发生过甲基化是肿瘤发生的表征,也是昀常见的分子改变之一。而随着 DNA甲基化与组蛋白甲基化的联合作用机制、RNA干扰机制以及去甲基化机制的发现, DNA甲基化的研究受到了广泛关注,从医学领域扩展到动植物研究中,同时在研究方法上也取得了很大的突破。
图 0-4胞嘧啶和甲基化胞嘧啶
DNA甲基化微阵列作为近年发展起来的高通量分析基因组水平 DNA甲基化状态和模式的新型技术,已成为肿瘤表观遗传学组研究的重要工具之一。利用微阵列技术研究某种疾病状态下异常甲基化的基因有利于进一步明确该疾病的表观遗传学异常机制,发现与之相关的表观遗传学标志物。
目前,多家芯片公司提供了 DNA甲基化检测平台,昀常见的有安捷伦公司的 Agilent Human CpG Island Microarray Kit和 Illumina公司的 Infinium Human Methylation27 BeadChip,Infinium Human Methylation450K BeadChip和 Illumina GoldenGate BeadArray。芯片平台不同,各自的实验过程也不同。安捷伦公司的 Agilent Human CpG Island Microarray Kit首先将基因组 DNA分成两份,一份通过甲基化免疫共沉淀处理,另一份作为对照样本。之后两个样本都通过荧光标记(通常甲基化免疫共沉淀样本采用 Cy5标记,对照样本采用 Cy3标记),与芯片进行杂交,则芯片上每个探针的 Cy5/Cy3的强度比即对应于该区域的甲基化程度。由于甲基化免疫共沉淀技术的特点,Agilent Human CpG Island Microarray Kit无法达到单碱基的分辨率。而 Illumina公司的 GoldenGate甲基化分析技术以矩阵微珠芯片的形式分析指定的 CpG位点,因此可获得单个 CpG位点的分辨率。其工作原理如图 0-5所示[6]。首先,将经过亚硫酸氢盐处理的基因组 DNA与分析寡核苷酸混合,寡核苷酸与未甲基化位点的 U互补,或者与甲基化位点的 C互补。杂交之后,引物延伸,并连接上位点特异的寡核苷酸来产生通用 PCR的模板。昀后,采用标记的 PCR引物生成可检测的产物。
一个 DNA甲基化微阵列实验同样能够获得细胞在某一条件下的一组甲基化位点的甲基化水平,包含成千上万个基因上的甲基化位点的甲基化水平百分比。表 0-2