基因组“预言家”?看浙大“女娲”AI模型!

浙江大学融媒体中心
170次浏览

tuF知多少教育网-记录每日最新科研教育资讯

基因组由DNA组成,它不仅包含蛋白质的编码序列,还包含大量不编码蛋白质的调控序列。这两类序列协同作用,共同决定生物体的复杂表型特征,讲述着生物体的古老遗传语言。tuF知多少教育网-记录每日最新科研教育资讯

读懂海量基因背后的调控密码,是科学家们一直致力于攀登的科学高峰。tuF知多少教育网-记录每日最新科研教育资讯

浙江大学郭国骥教授团队在具有完全自主知识产权的超高通量超灵敏单核ATAC测序技术(UUATAC-seq)基础上,开发多任务深度学习模型女娲CE(NvwaCE),实现了从基因组序列到单细胞水平调控序列图谱的直接预测。该成果以“Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning”为题,于北京时7月8日,发表在《细胞》上。tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯
tuF知多少教育网-记录每日最新科研教育资讯

专属的模型训练“教材”tuF知多少教育网-记录每日最新科研教育资讯

 2003年起,人类基因组计划集全球顶尖科学家之力,绘制出人类基因图谱。但时至今日,科学家对其中的遗传信息破译了不足10%。如何快速、系统性理解复杂生命系统?近年来涌现的人工智能(AI)模型崭露锋芒。tuF知多少教育网-记录每日最新科研教育资讯

 AI模型要学得好,训练用的“教材”,即数据的质量至关重要。 tuF知多少教育网-记录每日最新科研教育资讯

 “我们认为,与结构AI模型相比,基因组AI模型所面临的瓶颈在于发表数据质量参差不齐,批次效应大。”深耕单细胞组学技术的郭国骥团队,曾基于自主研发的Microwell-seq高通量单细胞测序平台,发布了世界首个小鼠细胞图谱和人类细胞图谱。经过多年积累,团队迭代建立起了超高通量、超灵敏单核ATAC测序技术:UUATAC-seq。tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯

因为UUATAC-seq直接测量决定mRNA的基础——调控DNA,所以该方法可以获得与转录组互补的表观调控序列信息,同时对于低表达基因(如转录因子)的检测不会存在明显的扩增偏差,这赋予了UUATAC-seq更高的数据质量和更丰富的信息,并且可以在单日内高效率绘制一个物种的染色质可及性图谱。tuF知多少教育网-记录每日最新科研教育资讯

“调控序列就像基因中的‘功能开关’,处于开放、舒展的状态。”郭国骥介绍说,不同细胞处于开放状态的染色质区域不一样,构建染色质可及性图谱,相当于为基因组绘制“功能地图”,建立了深度学习遗传“语言”的数据基础。tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯
tuF知多少教育网-记录每日最新科研教育资讯

破解基因组调控序列密码tuF知多少教育网-记录每日最新科研教育资讯

以UUATAC-seq技术为基础,研究团队构建了覆盖小鼠、鸡、守宫、蝾螈和斑马鱼这五种代表性脊椎动物的全身单细胞染色质可及性图谱,并由此鉴定出数百万个候选顺式调控序列(cCREs),系统性地揭示了贯穿脊椎动物演化的细胞类型特异性调控程序。tuF知多少教育网-记录每日最新科研教育资讯

“我们发现,脊椎动物调控语法的保守性明显强于核苷酸序列本身,且该语法将脊椎动物调控原件序列在高维分类为不同的功能模块。”郭国骥说,这进一步揭示了细胞类型特异性基因表达的序列基础。 tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯

有了这套“教材”,深度学习模型“女娲CE”顺势诞生,成为了团队拓展研究深度的得力助手。tuF知多少教育网-记录每日最新科研教育资讯

通过学习UUATAC-seq技术获得的大量高质量数据,“女娲”读懂了脊椎动物的调控序列编码规则,能够基于一维DNA序列,预测其在任意脊椎动物单细胞中的染色质可及性水平。tuF知多少教育网-记录每日最新科研教育资讯

值得一提的是,“女娲”的高泛化能力使其能够从基因组序列出发预测未经训练物种的染色质可及性图谱,其对于人类调控元件可及性水平的预测值与实验测量值显示出较好的相关性。tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯
tuF知多少教育网-记录每日最新科研教育资讯

是“预言师”,更是“设计师”tuF知多少教育网-记录每日最新科研教育资讯

“‘女娲’模型在多项指标上,超越现有的基因组AI模型,并能精准预测合成突变对谱系特异性调控序列功能的影响。”郭国骥介绍,“女娲”不仅能够预测出细胞各个位置发生突变之后带来的表型变化,也能结合疾病的表型设计出相应的治疗位点。tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯

那在实战演练中“女娲”表现如何?tuF知多少教育网-记录每日最新科研教育资讯

HBG1-68:A>G是“女娲”在功能实验中预测出的一个镰刀型贫血症治疗性基因位点。“经过对该点位的基因治疗,胎儿血红蛋白表达量的显著提升,这将能弥补镰刀型贫血症β血红蛋白的功能缺失。”郭国骥说,这是世界上首例验证的由人工智能设计的人类疾病治疗性位点,为未来全面解读基因组语言和建立数字生命模型奠定了坚实的基础。tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯

与国外同行相比,“女娲”基于迄今为止最高质量的单细胞图谱数据,并对几乎所有的细胞类型实现了AUROC>0.90的预测准确率,这是其他基因组AI模型暂时无法企及的。tuF知多少教育网-记录每日最新科研教育资讯

“这项研究不仅提供了宝贵的跨物种单细胞数据资源,更创造了强大的基因组AI预测工具。”郭国骥表示,“女娲”模型在解读调控规则、理解遗传病发病机制以及设计合成调控序列等方面的能力,将为生命科学,医学和农学研究提供强大的支撑。tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯
tuF知多少教育网-记录每日最新科研教育资讯

(文 查蒙/图 哲映)tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯
tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯
tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯
tuF知多少教育网-记录每日最新科研教育资讯

tuF知多少教育网-记录每日最新科研教育资讯
tuF知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-3-3276.html基因组“预言家”?看浙大“女娲”AI模型!

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

2024年艺考考试流程发布 2024年山西艺考时间
今天小编整理了2024年艺考考试流程发布 2024年山西艺考时间相关内容,希望能帮助到大家,一起来看下吧。 艺考政策变化2024如下: 1、本科艺术类专业点增加。 普通高等学校新增159个备
临清二中分数线 聊城学院分数线
小编今天整理了一些临清二中分数线 聊城学院分数线相关内容,希望能够帮到大家。 2023年 临清 二中录取分数线尚未公布。 聊城民办普通高中分数线已经公布的如下: 水城中
自考高考买什么教材好呢,自考高职高考考什么?
自考高考买什么教材好呢,自考高职高考考什么?很多朋友对这方面很关心,整理了相关文章,供大家参考,一起来看一下吧! 今天教务老师给大家收集整理了自考高考买什么教材好呢,自考高职高考考什么的相关问题
艺考哪个专业最好考
今天小编整理了艺考哪个专业最好考相关信息,希望在这方面能够更好帮助到大家。 高考走艺术哪个专业好 1.文化成绩一般、专业要求高的专业:美术、表演、音乐、舞蹈 美术:学美术报考人数最多
广州涉外经济职业技术学院春考分数线(春季高考200分可以报哪所学校?)
小编给大家带来了广州涉外经济职业技术学院春考分数线(春季高考200分可以报哪所学校?)相关文章,一起来看一下吧。 178分。广州涉外经济职业技术学院经广东省人民政府批准、教育部备案的民办全日制普
山东艺考时间2023具体时间 山东2024年艺考时间表
今天小编整理了山东艺考时间2023具体时间 山东2024年艺考时间表相关信息,希望在这方面能够更好帮助到大家。 2024年山东省公务员考试公共科目笔试时间安排为2023年12月10日,具体安排为上午9:0

热点精选

最新推荐

您可能感兴趣