内容简介
全书共11章:第1章绪论;第2~5章阐述数据挖掘和统计学的基本知识;第6章讨论偏小二乘法在中医药领域的应用思路,承接上下文;第7~10章分别从数据预处理、特征选择、非线特征提取研究、非线回归研究四个角度优化偏小二乘法,并穿插相关基础算法的介绍,以便读者理解;第11结和展望。本书按照数据挖掘的一般步骤安排章节顺序,以问题为导向提出优化模型,结合理论、方法和实验详细描写模型内容。本书内容由浅入深,从易到难,循序,适合高等中医药院校教师、科研人员以及研发人员阅读。
目录
第1章 绪论第2章 数据基本表述 2.1 数据基本知识 2.2 度量中心趋势 2.3 度量离散程度 2.4 正态分布 2.5 本章小结第3章 数据常规预处理 3.1 数据清理 3.1.1 缺失值处理 3.1.2 噪声数据处理 3.2 数据标准化 3.2.1 数据中心化处理 3.2.2 数据的无量纲化处理 3.2.3 标准化处理 3.3 本章小结第4章 线回归分析 4.1 线回归模型 4.1.1 一元线回归 4.1.2 多元线回归 4.2 小二乘法原理 4.2.1 计算方法的推导 4.2.2 体参数估计量的质 4.3 多重共线问题 4.3.1 问题的提出 4.3.2 多重共线的影响 4.3.3 多重共线的诊断 4.3.4 解决多重共线的方法 4.4 模型效果评价指标 4.4.1 测定系数 4.4.2 均方根误差 4.5 本章小结第5章 偏小二乘线回归模型 5.1 基本思路与算法原理 5.1.1 基本思路 5.1.2 算法原理 5.1.3 交叉有效 5.2 算法的基本质 5.3 主要分析技术 5.3.1 主成分分析 5.3.2 典型相关分析 5.3.3 T2椭圆图辅助分析 5.3.4 变量投影重要辅助分析技术 5.4 本章小结第6章 偏小二乘在中医药领域应用的思路 6.1 中医药实验数据 6.1.1 数据来源 6.1.2 数据特点 6.2 体思路与分析策略 6.2.1 体思路与目标 6.2.2 分析策略 6.3 本章小结第7章 优化偏小二乘的数据预法 7.1 问题的提出 7.2 基于降噪稀疏自编码器的偏小二乘缺失值处理 7.2.1 降噪稀疏自编码器 7.2.2 优化模型的建立 7.2.3 实验设计与结果分析 7.3 基于非径向数络分析的偏小二乘噪声处理 7.3.1 非径向数络分析 7.3.2 优化模型的建立 7.3.3 实验设计与结果分析 7.4 本章小结第8章 优化偏小二乘辅助特征选择研究 8.1 问题的提出 8.2 特征选择方法 8.2.1 相关定义 8.2.2 特征选择的过程 8.2.3 方法的类型 8.3 基于特征相关的偏小二乘特征选择 8.3.1 基于相关的特征选择方法 8.3.2 优化模型的建立 8.3.3 实验设计与结果分析 8.4 基于L1正则项的偏小二乘特征选择 8.4.1 LASSO方法 8.4.2 优化模型的建立 8.4.3 实验设计与结果分析 8.5 基于灰色关联的偏小二乘特征选择 8.5.1 灰色关联分析 8.5.2 优化模型的建立 8.5.3 实验设计与结果分析 8.6 本章小结第9章 偏小二乘成分提取的非线优化模型 9.1 问题的提出 9.2 融合受限玻尔兹曼机的偏小二乘优化模型 9.2.1 受限玻尔兹曼机 9.2.2 优化模型的建立 9.2.3 实验设计与结果分析 9.3 融合稀疏自编码器的偏小二乘优化模型 9.3.1 自编码器 9.3.2 稀疏自编码器的构造 9.3.3 优化模型的建立 9.3.4 实验设计与结果分析 9.4 融合深度置信网络的偏小二乘优化模型 9.4.1 深度置信网络 9.4.2 优化模型的建立 9.4.3 实验设计与结果分析 9.5 本章小结第10章 偏小二乘回归的非线优化模型 10.1 问题的提出 10.2 融合模型树的偏小二乘优化 10.2.1 模型树 10.2.2 非线模型的建立 10.2.3 实验设计与结果分析 10.3 融合森林的偏小二乘优化 10.3.1 森林 10.3.2 非线模型的建立 10.3.3 实验设计与结果分析 10.4 融合softmax的偏小二乘优化 10.4.1 softmax 10.4.2 非线模型的建立 10.4.3 实验设计与结果分析 10.5 本章小结第11章 结与展望 11.1 偏小二乘的优势 11.2 偏小二乘的不足 11.3 偏小二乘的展望附录A 专业术语附录B 优化偏小二乘的能数据分析系统使用指南附录C 中医药实验数据表
摘要与插图
偏小二乘法(partial least squares method,PLSM)[1-4]简称偏小二乘(PLS),是一种数学优化方法,它通过小化误方和找到一组数据的佳函数匹配,其中简单的方法是令误方和小。偏小二乘回归(partial least squaresregression,PLSR)是指采用偏小二乘法实现的回归建模技术。斯万特·伍德(Svante Wold)于1983年提出的偏小二乘回归是一种多元统计数据分析方法,它集主成分分析(principal component analysis,PCA)、典型相关分析(canonical correlation analysis,CCA) 和多元线回归(multiple linearregression,MLR)分析的基能于一体。偏小二乘回归使用迭代的方行回归建模,每一次迭代都有两个步骤:一是PLS提取成分的过程,它结合了主成分分析和典型相关分析各自提取成分的优势;二是用原始自变量对提取的成行多元线回归,用提取的成分表达原始自变量。偏小二乘回归建模主要优点可以归纳为:①集主成分分析、典型相关分析和多元线回归分析的基能于一体,实现多种数据分析方法的综合应用;②可以处理多因变量对多自变量的回归建模;③可以在样本点个数比变量个数(特征维数)明显过少行回归建模,即可以对高维小样本数行回归建模;④在自变量之间存在高度冗余行回归建模,即自变量存在严重多重共线时可以克服自相行回归建模;⑤在PLS模型中,每一个自变量的回归系数容易解释,回归系数是原始自变量的线组合,因此PLS终的回归模型含原有的所有自变量。偏小二乘回归的种种优点使它在医药化学、分析化学和物理化学等领域得到了广泛的应用。本书研究的中医药数括中医方药实验数据和物质基础实验数据。中医方药数据的复杂和系统体现在多成分、多靶点、多药效指标以及非线等方面,决定其量效关系和组效关系的数据呈现多自变量、多因变量和非线的特点;物质基础实验数据(以参附注射液心源休克的物质基础实验数据为例)具有多自变量、多因变量、非线、特征维数高、样本量少的特点。偏小二乘回归在处理分析中医药数据时有优势,中医药数据因其多药效指标的特决定了它多因变量的事实,因此常规的单因变量的回归建模方法并不适用,而PLS作为一种可以处理多因变量对多自变量的回归建模方法,比较适合中医药数据的分析。本书中提出的中医药数据分析方法是基于PLS的方法。中医药数据的分析挑战。首先,物质基础实验数据存在高维小样本特,在数据分析时容易导致“维度灾难”和“过拟合”的问题;其次,物质基础研究需要寻找“重要物质”。因此,需要对物质基础实验数行特征选择,而PLS在特征选择时并无明显优势,因此辅助PLS的特征选择研究刻不容缓。特征选择是按照某种准则从原始特征集合中选择一组具有良好区分能力的特征子集,本书针对偏小二乘的特征选择研究,充分发挥基于相关的特征选择方法(correlation-based feature selection,CFS)、L1 正则项以及灰色关联的各自优势,提出了基于特征相关的偏小二乘优化、引入L1正则项的偏小二乘模型优化和融合灰色关联的偏小二乘模型优化方法,开发了一系列适合中医药数据的特征选择方法。其次,虽然偏小二乘法的诸多优势,使其在中医药数据中应用广泛,但偏小二乘本质上是线回归模型,它对中医药数据非线特的处理不太理想,因此本书对偏小二乘的非线优化方面做了大量研究。本书从两大切入点对偏小二乘行非线:一是在提取成分时,偏小二乘法使用主成分分析和典型相关分析相结合的线提取方式,考虑对线提行非线优化,主要引入一些深度网络模型,使用非线提取方式提取成分,从而能够更好地表达原有数据的信息;二是针对偏小二乘法中多元线回归过程的非线优化,考虑用一些非线回归模型替代多元线回归。综上所述,本书主要基于偏小二乘的优化对中医药数行处理,从特征选择研究、非线特征提取研究和非线回归研究三方面开展研究,系统地介绍了偏小二乘在中医药领域的研究结果。本书第2章介绍数据的基本表述,并规定本书的符号,以便读者更好地理解本书中的公式及其推理过程。中医药数据中偶尔会出现数据缺失的情况。另外中医药数据都是通过仪器检测的。所以数据中难免存在噪声,行数据分析之前,必须对行预处理;在数据分析中,数据标准化是常规处理,可以统一量纲,使每一个变量都具有同等的表现力。因此,本书的第3章介绍了一些常规的数据预法。多元线回归是偏小二乘回归中的重要步骤,具体做法是使用提取的成分解释原始自变量,即成分对原始自变量的回归建模。因此第4章介绍线回归分析,以便更地理解后文中偏小二乘回归的推理过程;另外还谈到数据分析中的重要问题——多重共线问题,主要分析该问题的由来、有何不良影响及其解决办
……