预测京都基因和基因组百科全书中定义的所有通路和相关化合物条目的通路参与情况

文章导读

传统的化合物途径预测方法主要聚焦于代谢途径,但细胞和生物体中还存在众多其他类型的途径,如“人类疾病”、“遗传信息处理”等,这些途径同样对生物学家具有极大的吸引力。然而,由于训练数据集的大小限制,先前的模型往往只能预测有限的代谢途径。为了打破这一局限,肯塔基大学马基癌症中心的Erik D. Huckvale与Hunter N.B. Moseley教授在 Metabolites 发表了一项研究,该研究通过创新的机器学习模型,成功预测了京都基因和基因组百科全书 (KEGG) 中定义的所有生化途径及相关化合物的参与度,为生物和生物医学研究提供了强有力的支持。

研究过程与结果

研究团队首先构建了包含超过3,200,000个条目的数据集,该数据集涵盖了KEGG层次结构中的所有途径 (L1、L2和L3) 和具有途径注释的化合物。随后,作者使用多层感知器 (MLP) 二元分类器进行预测,并通过优化数据加载技术和模型超参数,显著提高了模型的预测性能。值得一提的是,研究团队还创新性地设计了一种自定义数据加载器,通过减少CPU和GPU之间的数据传输延迟,将模型的训练时间减少了20多倍。图1显示了每个数据集在CV迭代中的MCC分布。L1、L2和L3数据集是包含所有通路的完整数据集,并在200次CV迭代中运行。L2和L3数据集排除了L1通路,并在50次迭代中运行。L3数据集仅包含L3通路,也在50次CV迭代中运行。

今日霍州(www.jrhz.info)©️

图1. 每个数据集在CV迭代中的MCC分布。

图2解释了有关“代谢”的差异,可以看到“代谢”的规模比L1途径 (途径规模由与该途径相关的所有化合物中非氢原子的总数定义) 大得多,与之相关的化合物更多,数据集中与“代谢”途径相对应的阳性条目也更多。类别不平衡问题使这项机器学习任务变得困难,因为与途径无关的化合物往往很多,而与途径相关的化合物相对较少。然而,“代谢”途径也存在相反但同样具有挑战性的问题,即阳性条目过多,而其他途径则面临着阴性条目过多的挑战。“代谢”的真阳性有助于提高F1得分,但假阴性的数量会降低特异性。

今日霍州(www.jrhz.info)©️

图2. L1通路MCC和大小以及具有正值的通路特征的数量。

图3清晰地描绘了完整KEGG数据集中化合物与途径的大小分布情况。图3a展示了被广泛分布的所有途径,其中,“代谢”途径以其超过160,000的规模 (如图2所示) 显著突出。为了更精确地观察途径大小分布的峰值,图3b聚焦于大小不超过1000的途径,并展示了其途径计数的详细分布。

今日霍州(www.jrhz.info)©️

图3. 完整KEGG数据集中通路和化合物大小的分布:(a) 所有通路的大小分布;(b) 小于1000的通路的分布;(c) 化合物的大小分布。此处的大小是指化合物或通路中非氢原子的数量 (与通路相关的化合物的总和)。

图4则揭示了单个化合物和途径的马修斯相关系数 (MCC) 分布情况。值得注意的是,途径的MCC主要集中在0.6—0.9的区间内,而其他途径的MCC则更接近0,甚至偶有略低于0的情况出现,这暗示了部分途径的预测存在轻微的反向趋势。值得一提的是,即便在进行了200次交叉验证 (CV) 迭代后,仍有四条途径因无法在不除以零的情况下计算MCC而未能获得有效的分数,因此它们无法单独纳入结果分析,但其假阴性和真阴性计数仍对最终结果的计算产生了影响。

今日霍州(www.jrhz.info)©️

图4. 完整KEGG数据集中各个途径和化合物的MCC分布:(a) 途径MCC的分布;(b) 化合物MCC的分布。

图5进一步探究了化合物与途径大小与其相应MCC之间的关系。在对x轴进行对数缩放后,作者发现无论是途径 (图5b) 还是化合物 (图5d),其大小与MCC之间均未呈现出强烈的线性相关性。然而,途径的分布呈现出漏斗形状,意味着随着途径大小的增加,其方差逐渐减小。对于化合物而言,当大小达到某个临界值时 (如图5),其MCC才可能达到1.0的高峰。

今日霍州(www.jrhz.info)©️

图5. 通路和化合物大小与完整KEGG数据集的单个MCC的关系:(a) 通路大小与通路MCC;(b) 通路大小与通路MCC,x轴为对数尺度;(c) 化合物大小与化合物MCC;(d) 化合物大小与化合物MCC,x轴为对数尺度。文章总结

总的来说,这项研究不仅展示了机器学习在预测化合物通路参与度方面的巨大潜力,还为生物和生物医学研究提供了强有力的支持。随着更多的化合物和通路被纳入研究范围,预测性能的不断提升,相信这一领域将会迎来更加广阔的发展前景。未来,该领域的研究工作应以这一标准为基础,不断探索新的预测方法和应用场景,为生物学和生物医学领域的发展贡献更多的智慧和力量。

原文信息

Huckvale, E.D.; Moseley, H.N.B. Predicting the Pathway Involvement of All Pathway and Associated Compound Entries Defined in the Kyoto Encyclopedia of Genes and Genomes. Metabolites 2024, 14, 582. https://doi.org/10.3390/metabo14110582

Metabolites 期刊介绍

期刊内容涵盖代谢组学、代谢生物化学、计算和系统生物学、生物技术和医学领域相关的代谢物以及代谢方面的研究。

2023 Impact Factor: 3.5

2024 CiteScore: 6.9

特别声明:[预测京都基因和基因组百科全书中定义的所有通路和相关化合物条目的通路参与情况] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

48小时极速打样:福尔蒂服务长三角医械客户SOP与时效承诺(48小时快装的利弊)

上周五下午四点,一家位于苏州的三类医疗器械企业紧急联系到青岛福尔蒂新材料有限公司——他们正在赶制一款新型医用导管样品,原计划下周二提交注册资料,但客户临时提出材质需具备更高生物相容性与低析出特性,常规送检周期…

48小时极速打样:福尔蒂服务长三角医械客户SOP与时效承诺(48小时快装的利弊)

黄金暴涨背后的美元💵信任危机 全球货币体系变革(黄金暴涨背后的原因)

金价势如破竹,截至1月26日已冲破5000美元💵盎司大关。这是自1971年布雷顿森林体系瓦解以来,黄金首次站在“5000美元💵”的门槛上。回望过去,黄金用了不到一年时间从约3000美元💵盎司飙升至近5000美元💵盎司,涨幅超过60%

黄金暴涨背后的美元💵信任危机 全球货币体系变革(黄金暴涨背后的原因)

恩爱11年抵不过残酷现实?47岁的『周杰伦』,与32岁的『昆凌』拉开了距离(相爱11年的心情说说)

『周杰伦』曾是无数年轻人心中的偶像,他的歌曲不仅在当时掀起了一股新的音乐风潮,也为国潮的崛起贡献了力量。在事业的巅峰期,他遇到了比自己小14岁的『昆凌』,一位混血美女。随着媒体曝光,二人的恋情公开,然而,这段感情一开…

恩爱11年抵不过残酷现实?47岁的『周杰伦』,与32岁的『昆凌』拉开了距离(相爱11年的心情说说)

如何选购2026年热销包邮背带夹扣,让家居生活更省心?(2026年买什么车)

家居收纳越来越讲究高效便捷,背带夹扣成为许多家庭必备神器。本文详解热门款式的功能、价格和使用场景,教你挑选真正好用的固定夹。从预算考量到材质选择,轻松搞定家居难题!

如何选购2026年热销包邮背带夹扣,让家居生活更省心?(2026年买什么车)

男子带400万黄金坐高铁民警全程护送 移动金库的安全之旅(男人每天带着400万)

在河南平顶山,一名男子准备乘坐高铁时,在安检过程中被工作人员拦下。原因是他的行李箱通过安检机时显示出一片黑色阴影,引起了工作人员的注意。打开箱子后发现,里面装满了价值约400万元的黄金首饰,包括手镯、项链和耳环等

男子带400万黄金坐高铁民警全程护送 移动金库的安全之旅(男人每天带着400万)