1.53毫秒预判药性,香港理工、川大、鹏城实验室发布「AI分子透镜」GraphATC

今日霍州(www.jrhz.info)©️

编辑 | ScienceAI

一款新药从设计、研发、临床试验到走向市场,通常需耗费超过 26 亿美元💵的资金与 10 至 15 年的时间,而且越往后期成本越高。

比如,不适当的药物如果进入临床试验,除了因为没有期望的治疗效果而浪费医护和病人的大量时间和精力,更可能因为其潜在的副作用而对病人的生命安全产生威胁。

如何在研发早期快速、精准地判定药物的潜在治疗属性,成为当前药物设计与筛选中的关键问题。

近期,香港理工大学、四川大学、鹏城实验室的联合研究团队在《Briefings in Bioinformatics》期刊上发表了最新研究成果 GraphATC。

该方法借助原子级图神经网络,仅需 1.53 毫秒,即可完成一种药物ATC药性进行预判(如:该药物是否可以治疗呼吸系统疾病、心脑血管疾病等),为药物筛选与开发提供了一种高效的技术路径,从而规避因盲目进入临床试验而带来的各种风险。数据集和代码都已开源!

文章作者包括来自 3 所高校或研究机构的张翁渔,田奇,曹溢,范文琦,蒋冬梅,王耀威,李青,魏骁勇。魏骁勇教授为本文通讯作者。

今日霍州(www.jrhz.info)©️

期刊主页:https://doi.org/10.1093/bib/bbaf194

数据集和代码:https://github.com/lookwei/GraphATC

文章 PDF:https://academic.oup.com/bib/article-pdf/26/2/bbaf194/63012495/bbaf194.pdf

PaperWithCode:https://paperswithcode.com/dataset/atc-graph

ATC 药物分类系统简介

ATC(Anatomical Therapeutic Chemical)分类系统是由世界卫生组织(WHO)制定的全球通用药物分类标准。该系统根据药物的作用器官或系统、治疗用途、药理机制及化学特性,将药物的活性成分划分为五个层级,其中从第一级到第五级分别表示解剖学,治疗学,药理学,化学,以及化合物上的分类。

例如,在新冠期间,对乙酰氨基酚(泰诺、扑热息痛的主要成分)是一种常用的退热药,能够有效缓解新冠症状。对乙酰氨基酚的 ATC 代码是 N02BE01,第一级 N 表示『神经系统』,第二级 02 表示止痛药,第三级 B 表示其他止痛退药及退热药,第四级 E 表示苯胺类,第五级 01 表示乙酰氨基酚。

当前药物分类方法面临的挑战

1. 数据集陈旧与覆盖有限:主流药物分类数据集未能覆盖近年新上市的药物,且多数仅含 ATC 系统的第一级标签,难以满足精细化研发所需。

2. 深层分类样本稀缺:ATC 系统中更细粒度的第二至五级,因数据稀缺难以训练有效模型,成为药物建模中的瓶颈。

3. 表示方法能力不足:传统方法依赖 SMILES 等线性字符串或预定义分子指纹,难以捕捉复杂结构间的拓扑与相互作用。

今日霍州(www.jrhz.info)©️

图 1:GraphATC 框架图

GraphATC

GraphATC 的核心创新在于将药物结构建模为图结构,利用图神经网络来捕捉原子与键之间的高阶关联关系。具体而言,该研究在两大关键方向进行了系统性改进:

1. 构建更全面的 ATC 分类数据集

团队首先全面整合并扩充了现有的 ATC 药物数据集。为此,团队从多个国际权威数据库(如 KEGG、PubChem、ChEMBL 等)中收集了最新的药物信息,通过严格的清洗、校验和数据融合,构建出一个覆盖最广、数据最全的 ATC-GRAPH 数据集,如图 1A 所示。

如图 2 所示,这一数据集不仅显著扩大了药物种类和数量,还首次覆盖了世界卫生组织 ATC 体系的五个层级,从广义的药物类别细化到具体化学成分,确保每种药物都有完整、准确的多级标签。

这一全面的数据整合过程,不仅克服了现有数据集普遍存在的「数据老旧」、「标签缺失」、「覆盖不足」等问题,也极大提升了数据集的时效性和代表性,为后续的模型训练和高精度药物分类提供了坚实的基础。

今日霍州(www.jrhz.info)©️

图 2:ATC-GRAPH 与现有数据集的数据对比

2.构造更精确的药物表示形式

为解决传统分子序列表示(SMILES)在结构表达上的局限性,GraphATC 采用图神经网络进行建模(图 1B),同时针对特定药物种类引入以下设计:

· 加入虚拟原子与虚拟化学键:如图 1C 所示,对于聚合物,模型在结构连接点引入「虚拟原子」和「虚拟化学键」作为中介,使模型能够捕捉单体间的交互关系。实验显示该机制可使聚合物类药物分类准确率提升 14.74%。

· 引入基于 RNN 的子图融合机制:如图 1D 所示,对于多成分药物,GraphATC 利用 RNN 对各组分进行加权聚合,根据组分分子量与结构复杂度自适应地调整各组分对整体分类的影响。相比平均融合策略,该方法在多成分分类中提升准确率 14.46%。

实验结果

团队在三个数据集、ATC 第一级、ATC 第二级上对 GraphATC 进行了系统评估,GraphATC 均取得了最优性能,如表 1、表 2 所示。

今日霍州(www.jrhz.info)©️

表 1:与 SOTA 方法在 ATC 第一级上的性能比较。最佳结果以粗体显示。

今日霍州(www.jrhz.info)©️

表 2:与 SOTA 方法在 ATC 第二级上的性能比较。最佳结果以粗体显示。

此外,模型在复杂药物上的结构关注机制表现显著:

· 在聚合物药物中加入虚拟原子与虚拟化学键后,注意力由原先集中于单体中心,拓展至连接位点,如图 3 所示。

· 在多成分药物中引入子图融合机制后,注意力由原先集中于较大子成分,扩散至多个子成分,如图 4 所示。

今日霍州(www.jrhz.info)©️

图 3:在聚合物药物中加入虚拟原子与虚拟化学键后的注意力图

今日霍州(www.jrhz.info)©️

图 4:在多成分药物中引入子图融合机制后的注意力图

总结

GraphATC 提出了一种以图结构为基础进行药物多级分类的可行框架,显著提升了分类精度与推理效率。其主要贡献包括:

· 构建了当前覆盖最广的 ATC-GRAPH 多级分类数据集;

· 首次将 ATC 分类任务扩展至更细粒度的第二级;

· 优化模型对复杂药物结构的精确表达能力;

· 实现了分类性能和推理速度的双重优化。

该方法为后续的药物发现、药效预测、以及分子生成等任务提供了重要参考框架,也为 AI 辅助药物研发建立了更为坚实的技术基础。或许未来某天,当一种新型疾病袭来,AI 在短时间内就能从海量药物中锁定解药。

GraphATC 的数据集和代码均已开源,欢迎大家尝试!

特别声明:[1.53毫秒预判药性,香港理工、川大、鹏城实验室发布「AI分子透镜」GraphATC] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

年度优秀新闻摄影作品评选活动怎么制作?(新闻奖摄影作品欣赏)

接下来,跟着「天天评选」一起来学习年度优秀新闻摄影作品评选投票活动链接的制作方法吧!从100余款免费模板中选择与主题相关的皮肤样式封面图,漂浮物、背景音、背景图、选手称谓、页面显示均可自定义设置。 设置…

年度优秀新闻摄影作品评选活动怎么制作?(新闻奖摄影作品欣赏)

从港姐落选到TVB当红花旦,高海宁靠的不只是身材(港姐选择标准)

那个复杂的女强人角色,既强势又带点脆弱,既令人钦佩又让人心疼,而她恰恰抓住了这个角色的灵魂。 高海宁或许不是天赋最耀眼的那一个,但她绝对是那些走得最扎实的艺人之一。在TVB的灯光下,曾照过太多一夜成名又迅…

从港姐落选到TVB当红花旦,高海宁靠的不只是身材(港姐选择标准)

电视湘军开创者,原湖南省广播电视局局长魏文彬去世,曾推出现象级节目《『快乐大本营』》《超级女声》(湘军创始者)

电视湘军开创者,原湖南省广播电视局局长魏文彬去世,曾推出现象级节目《<strong>『快乐大本营』</strong>》《<strong>超级女声</strong>》(湘军创始者)

从版权©️纠纷到假唱争议,国民歌后降央卓玛,如何走向人设崩塌(版权©️之争案例)

她开始认为《西海情歌》是她的代表作,每次商演都要唱这首歌,甚至在一些音乐平台上为这首歌收费,却没有注明原创作者是谁。 对于这场风波,有人认为她因为过度追逐利益而迷失了方向,而有人则说她已经回归了家庭,过上…

从版权©️纠纷到假唱争议,国民歌后降央卓玛,如何走向人设崩塌(版权©️之争案例)

李昊能否成为中国足球未来的希望 青训与留洋的启示(李昊现状)

亚足联的一纸候选名单让李昊这个名字迅速从足球专业领域破圈,成为全民热议的焦点。U23亚洲杯亚军、五场零封、扑救之王、最具影响力球员第二名等标签共同塑造了一个不同于以往认知的中国球员形象

李昊能否成为中国足球未来的希望 青训与留洋的启示(李昊现状)