
中药药性指中药的性能,是对中药作用性质和特征的高度概括,也是阐明中药疗效机制的理论依据。中药药性作为中医理论体系的重要组成部分,主要包括四性(四气)、五味、归经、升降浮沉及毒性等内容
[1]
。传统的中药药性理论由于受到古代医家认识水平的限制,因此更偏向于主观性,然而部分古代医家对药性的细化程度已经有了初步的认识和描述,如大热、微温、大寒、微寒等概念在一定程度体现了药性的定量化
[2]
。随着现代科学技术的发展,许多新技术方法应用中药量化领域,使得中药药性理论得到快速的发展
[3-4]
。
本研究主要结合统计学方法及机器学习,以中药的化学元素为基础,运用非参数检验、二元Logistic回归、决策树、神经网络等方法,分析不同分类方法的预测准确率,从而为后期中医临床处方的客观化和标准化提供具有可行性的思路与方法。
基于文献计量学分析,本研究采用管竞环主编的《中药理论量化与应用研究》
[5]
作为数据来源(管竞环教授团队对其临床常用的
105
味中药的微量元素进行数据分析和提取),选取文献中公开的中药化学元素信息进行数据处理和分析。《中药理论量化与应用研究》中记录研究者从药材产地获取道地药材,委托专业机构鉴别药材的真伪,并对药材进行清洗、风干、切片、碾碎获得备用标本,使用电感耦合原子发射光谱法
[6]
(
inductively
coupled plasma-atomic emission spectrometry
,
ICP-AES
)测量中药标本的化学元素含量。
对文献中的中药化学元素数据进行提取和整理,并将数据录入到
Excel
表格中,形成初步中药化学元素数据库。随后对元素数据进行核对,进一步明确每味中药所对应的元素数据与来源数据一致。将药性的分类数据列入表中,并核对药性的分类是否正确。在药性的二分类变量中,数值
“
0
”
与标签
“
否
”
代表药物不具有该药性,数值
“
1
”
和标签
“
是
”
代表药物具有此药性。
使用
IBM SPSS Statistics 26
软件进行统计分析,对中药药性和化学元素进行单因素分析(两独立样本非参数检验)、多因素分析(二元
Logistic
回归分析)、机器学习分析(决策树与人工神经网络分析),对分析结果进行检验和对比,分析不同模型的预判准确率及变量对模型的重要性。采用
Microsoft Office Excel
(
v.2016
)对化学元素的数据源进行录入及整理,同时作为中介软件对
SPSS
的分析结果进行导入及处理,制作表格及部分图片。
本研究采用二分类方法对目标中药的化学元素数据库进行提取,获取中药主要化学元素的量化数据源。对单个中药药性和化学元素进行非参数检验,将非参数检验所获得的具有统计学意义的关联化学元素作为下一步药性分析的自变量。通过二元
Logistic
回归分析、决策树算法、人工神经网络等统计学分析及机器学习方法获得与药性具有关联的化学元素,对因变量(药性)及自变量的关联性进行预判。运用此类算法得到中药的四气、五味、归经等药性的相关变量的判别率及函数变量系数,并比较不同方法的判别效果。
本研究对中药药性进行统计,获得四气、五味、归经的药性变量。从《中药理论量化与应用研究》中获得含有
105
味中药、
42
种化学元素的初步元素数据库。将每一个药性作为一个数据表,每个数据表包含
105
味中药及每味药物所包含的
42
种化学元素,共获得
22
个数据表。
105
味中药分别是肉桂子、桑葚子、巴戟天、白花蛇舌草、厚朴、虎杖、槐米、黄柏、黄连、黄藤、黄芩、火麻仁、桔梗、橘红、金樱子、九节菖蒲、菊花、连翘、白木耳、白芍、白术、白芷、覆盆子、高良姜、葛根、狗脊、瓜蒌皮、红豆蔻、红花、红蚤休、柏子仁、北沙参、草果、草乌、柴胡、车前子、川芎、郁李仁、云木香、泽泻、浙贝母、天南星、土茯苓、党参、地肤子、独活、鹅不食草、鄂贝母、防己、佛手、佛手花、凌霄花、豆蔻壳、肉豆蔻、枳壳、羌活、龙胆草、麻黄、麦冬、密蒙花、明党参、木通、牛蒡子、牵牛子、秦皮、秦艽、蛇床子、生半夏、生地黄、生附子、升麻、使君子、紫苏子、太子参、桃仁、天麻、乌药、吴茱萸、五味子、细辛、仙茅、香橼皮、小茴香、辛夷、苦杏仁、玄参、元胡、鸦胆子、砂仁壳、砂仁、山茱萸、山柰、川楝子、刺蒺藜、生大黄、丹参、牡丹皮、肉苁蓉、当归、紫草、茯苓、茺蔚子、菟丝子、葶苈子、槟榔。
42
种元素分别是
Be
、
Si
、
V
、
Cu
、
Sr
、
Hg
、
Pr
、
Tb
、
Yb
、
F
、
P
、
Mn
、
Zn
、
Cd
、
Bi
、
Nd
、
Dy
、
Lu
、
Na
、
Cl
、
Fe
、
As
、
Sb
、
Y
、
Sm
、
Ho
、
Mg
、
K
、
Co
、
Se
、
I
、
La
、
Eu
、
Er
、
Al
、
Ca
、
Ni
、
Br
、
Ba
、
Ce
、
Gd
及
Tm
。管竞环教授团队
[7-9]
通过
SPSS
分别对
105
味中药的
42
种元素进行分布检验,发现
42
种元素在每味药物中的分布均为偏态分布,不能使用正态分布的分析方法对数据进行统计分析。
3.2.1
两独立样本非参数检验
单因素分析可以初步探索预测变量与响应变量的关系,并且当样本量不是很大的时候可以通过单因素分析删除部分无关的预测变量。本研究中化学元素的总体分布为非正态,故使用非参数检验中的曼
-
惠特尼
U
检验。通过该检验得到化学元素与因变量的相关性,将在各个药性二分类变量(
“
是
”
与
“
否
”
)中差异具有统计学意义(
P
<
0.05
)的变量列于表中。
本研究以四气的寒性,五味的苦味,归经的脾经为例具体分析。如表
1
~
3
所示,与寒性具有统计学意义的独立相关因素有
Be
、
Sr
、
Ca
、
La
;与苦味有统计学意义的独立相关因素有
Mn
、
Ni
、
K
、
Ca
、
V
、
Si
、
Co
、
Zn
;与脾经有统计学意义的独立相关因素有
Ni
、
Bi
、
Co
、
Be
、
Eu
、
Ce
、
Nd
、
V
、
Pr
、
Sm
、
La
、
Dy
。每个药性其他不显著相关元素不列于表中,但不能说明这些元素与药性变量无相关性。通过单因素分析得到与因变量具有统计学意义的关联性自变量,将筛选出来的自变量作为预测变量进入到后面的预测模型中。
3.2.2
二元
Logistic
回归分析
将
105
味中药的
42
种元素数据变量用
IBM SPSS Statistics 26
软件进行二元
Logistic
回归分析,以四气、五味、归经的
22
个变量作为因变量,以
42
种化学元素建立二元
Logistic
回归方程模型。以寒性、苦味、脾经为例,列出具有统计学意义的化学元素及各药性的分析结果。
在四气药性中,寒性方程中的变量见表
4
。在寒性预测模型中,具有统计学意义(
P
<
0.05
)的影响元素有
Si
、
Co
。由表
5
可知,寒性
“
否
”
的预测
准确率为
92.2%
,
“
是
”
的预测准确率为
80.5%
,总体准确率为
87.6%
。
在五味药性中,苦味方程中的变量见表6。苦
味的回归模型显著影响因变量的元素有
P
、
V
、
Fe
、
Co
、
Br
、
Y
、
Dy
、
Ho
。由表
7
可知,苦味
“
否
”
的预测准确率为
91.8%
,
“
是
”
的预测准确率为
91.1%
,总体准确率为
91.4%
。
在归经药性中,脾经方程中的变量见表
8
。脾经的回归模型中,显著影响因变量的元素有
Ni
、
I
、
La
、
Ce
、
Pr
、
Dy
、
Ho
。由表
9
可知,脾经
“
否
”
的预测准确率为
95.3%
,
“
是
”
的预测准确率为
85.4%
,总体准确率
91.4%
。
3.2.3
决策树分析
在四气药性中,寒性有
6
个解释变量:
Be
、
Sr
、
Ca
、
La
、
Si
、
Co
。寒性的决策树
预测模型第
1
层按
La
拆分,即分类树的
2
个初始分支的一级分裂,
La
变量标准化的重要性为
100%
。
Sr
是二级分裂的决定因素,变量标准化的重要性为
35.9%
。
Si
和
La
是三级分裂的决定因素,
Si
变量标准化的重要性是
38.0%
。其余变量的重要性如图
1
所示。树模型的分类正确率见表
10
,训练集的准确率为
77.8%
,检验集的准确率为
69.7%
。
五味药性中,苦味的解释变量是
Mn
、
Ni
、
K
、
Ca
、
V
、
Si
、
Co
、
Zn
、
P
、
Fe
、
Dy
、
Ho
、
Br
、
Y
。决
策树预测模型的第
1
层按
Si
拆分,
Si
变量标准化的重要性为
95.9%
。
Ca
、
P
是二级分裂的决定因素,变量标准化的重要性分别为
39.8%
、
30.4%
。
Fe
是三级分裂的决定因素,
Fe
变量标准化的重要性是
100%
。苦味决策树模型训练集的预测准确率为
87.7%
,检验集的预测准确率为
65.0%
。
归经药性中,脾经的解释变量是
Ni
、
Bi
、
Co
、
Be
、
Eu
、
Ce
、
Nd
、
V
、
Pr
、
Sm
、
La
、
Dy
、
I
、
Ho
。决策树预测模型的第
1
层按
Ni
拆分,变量标准化的重要性为
100%
。
I
是二级分裂的决定因素,变量标准化的重要性是
56.9%
。
Bi
是三级分裂的决定因素,变量标准化的重要性是
89.9%
。脾经决策树模型训练集的预测准确率为
78.1%
,检验集的预测准确率为
62.5%
。
3.2.4
人工神经网络分析
将药性作为因变量,化学元素作为自变量,选用系统自动的多层感知器神经网络模型进行数据分析。协变量的重标度方法为正态化,隐藏层激活函数为双曲正切,输出层激活函数为
Softmax
。在四气药性中,寒性神经网络有
6
个输入节点,
1
个隐含层神经元,
2
个输出节点。自变量与决策树模型一致。重要性从大到小排列依次是
Co
(
0.228
)、
Be
(
0.204
)、
Ca
(
0.185
)、
La
(
0.180
)、
Si
(
0.121
)、
Sr
(
0.083
),标准化重要性分别是
100.0%
、
89.3%
、
81.1%
、
79.0%
、
52.9%
、
36.3%
。寒性模型总体预测准确率见表
11
,训练集的预测分类准确率为
72.1%
,检验集的预测分类准确率为
54.5%
。
五味药性中,苦味人工神经网络有
14
个输入节点,
5
个隐含层神经元,
2
个输出节点。自变量重要性从大到小排列依次是
K
、
Mn
、
Ca
、
V
、
Si
、
Ni
、
Dy
、
P
、
Co
、
Fe
、
Zn
、
Br
、
Y
、
Ho
,各变量标准化重要性分别是
100.0%
、
85.1%
、
83.5%
、
64.4%
、
60.1%
、
42.3%
、
38.4%
、
37.1%
、
34.7%
、
32.3%
、
22.9%
、
22.6%
、
19.6%
、
14.1%
。苦味模型训练集的总体预测分类准确率为
73.7%
,检验集总体预测分类准确率为
72.4%
。
归经药性中,脾经神经网络有
14
个输入节点,
2
个隐含层神经元,
2
个输出节点。自变量重要性从大到小排列依次是
Bi
、
Ni
、
I
、
Dy
、
Co
、
V
、
Be
、
Eu
、
Ce
、
Nd
、
La
、
Sm
、
Pr
、
Ho
,各变量标准化重要性分别是
100.0%
、
94.4%
、
84.4%
、
55.3%
、
49.1%
、
35.5%
、
33.4%
、
26.7%
、
21.3%
、
19.8%
、
18.4%
、
13.9%
、
13.2%
、
4.7%
。脾经模型训练集的总体预测分类准确率为
74.0%
,检验集总体预测分类准确率为
67.9%
。
3.2.5
判别分析
判别分析是一种分类方法,指在已知判别的情况下,对未知类别的观测量归类到已知类别的多元分析法
[10]
。本研究采用
Fisher
判别分析法,对寒性药物进行判别。因
Fisher
判别分析属于分类判别,故需对数据进行标准化处理,等级范围为
1
~
10
个等级,等级差相等,并将元素数值取整数(四舍五入)。对北沙参、浙贝母、丹参、黄连、白芍、柴胡、黄芩、白花蛇舌草、菊花、连翘、枳壳
11
味寒性药进行训练,并对麦冬、大黄
2
味寒性药进行预判。训练过程中,因没有寒性分级为
2
、
3
、
8
级的药物,因此分级为寒性等级
1
、
4
、
5
、
6
、
7
、
9
共
6
个等级组别。判别中给予
4
个函数进行预判,各函数特征值如图
2
所示,函数
1
能较好地判别变量的数值。分类变量之间,同一类别的变量间距离越近、不同类别间的变量距离越远,说明分类特征越明显。函数分类如图
3
所示,在函数
1
所在的横轴上,各类别变量间的组质心距离较远,函数
1
分类更具有显著性。
Fisher
判别分析结果如表
12
所示,该判别方法将未分组的麦冬、大黄
2
味药分别判为
4
组和
6
组,即
2
味中药的寒性量化整数值分别为
4
和
6
,这与临床用药经验比较相符。且该判别分析对初始分组案例中的
72.7%
的变量进行了正确分类。
中药药性在临床运用中常遇到不统一甚至相反的问题。如枸杞在《药性论》中被记载其味甘,平。《本草蒙筌》则记载其味甘、苦,气微寒,无毒。《景岳全书》言其味甘、微辛,气温。同一种药就有
3
种说法,对于中医药的运用及传承造成阻碍。另一方面,自然界植物药、动物药数以万计,中药成分复杂,配伍灵活多变,在与不同药物联合使用时效果可能会起到相反的作用,如中药“十八反”“十九畏”
等情况。对于未知药物四气、五味、归经的判断不能简单的一言概之,需要经过数据分析、实验探索才能取得人们认可。
自机器学习算法面世以来,基于机器学习探究微量元素与中药联系的研究已较为成熟。如刘进等
[11]
应用支持向量机预测中药药性,发现
Ca
、
Fe
元素对温热药识别较敏感。但该研究数据有限,仅纳入
7
种元素进行预测研究,样本量较少,存在一定的限制。杨波
[12]
从有机成分、无机成分着手,研究中药药性与化学成分的相关性。
2011
年,龙伟
[13]
提出
“
计算中药学
”
的理念,旨在通过计算科学、数理统计学以及药物化学等现代科学技术方法来解决中药问题。其通过原创的重心处理技术,结合化学描述符计算和支持向量机算法构建了预测率超过
80%
的中药寒热预测系统。多项研究表明,机器学习对中药药性研究可提供较大帮助
[14]
。
本研究前期基于文献计量学,研究人员纳入了管竞环教授团队的文献数据进一步分析。经过单因素分析获得药性的相关因素,并将相关因素运用到分类预测模型中。通过二元
Logistic
回归
[15]
、决策树
[16]
、人工神经网络分析
[17]
,揭示了中药药性与化学元素间存在一定联系,并获得不同模型的自变量重要性及分类正确率。研究中将训练集和测试集的
100
余味中药微量元素数据输入
SPSS
,系统将
70%
数据作为训练集,
30%
数据作为测试集。本研究将因变量(药性)与自变量(化学元素)输入软件,运用不同分类方法对同一个药性进行分类。由于方法不同,
SPSS
系统形成的模型方程不尽相同,自变量也有所不同。通过观察,发现同一个药性(如寒性)的不同分类方法所得出的关键自变量(化学元素)有一部分相同,可以认为这些相同的自变量与因变量存在较紧密的联系。
从分类准确率来看,决策树与人工神经网络训练集的准确率均高于检验集。在这
2
种方法的比较中,决策树训练集、检验集平均分类准确率均高于人工神经网络。二元
Logistic
回归分类的准确率虽高于人工神经网络和决策树,但二元
Logistic
回归没有区分训练集和检验集。本研究将中药的药性及化学元素的数据库导入
SPSS
软件,选用系统判别分析方法,药性选入分组变量,定义范围是
1
~
10
,
42
种元素数据放入自变量,统计量函数系数选择
Fisher
和未标准化,运行软件可获得四气、五味、归经等药性变量的典型判别函数和
Fisher
线性判别函数。并基于函数特征值、判别结果调整参数。在后续研究中可采用德尔菲法邀请具有
20
年以上中药临床运用经验的专家,对判别出的中药药性、归经进行合理性评判,从而调整预测方程与判别系数。
本研究表明,通过
ICP-AES
提取中药中的微量元素,基于机器学习算法预测、判别药物药性,从而解决文献记载矛盾、未知药物药性判断的难题。是一种行之有效的科学方法。其不仅能让临床医师迅速识别中药的药性,指导用药。也给研究者提供更多的理论依据及实验数据。
但该研究也存在一定的局限性,所纳入的数据来源是管竞环教授基于实验室研究所获得的元素数据,中药样本量偏少,数据量不足,但数据较为完整、规范、统一,可以在后期的研究中对更多中药的微量元素进行分析提取,扩大中药的微量元素数据,使研究的样本量更加丰富。
来 源:徐钦涌,黄志帮,姚思梦,陈远方,宁小英,侯政昆,陈新林.基于化学元素的部分中药药性量化方法的比较研究 [J]. 中草药, 2024, 55(17): 5964-5971.
单点登录
账号密码登录