南方人为什么比北方人更容易得地中海贫血?因为几十年前肆虐的疟疾导致了南方人某个基因的突变。如何既快又准找到它?
为了解决诸如此类的问题,一群最懂基因测序、拥有海量数据的人,和一群最懂AI的科学家在一起,花7个月时间做出了全球首个百亿级人类基因组基础模型。
之江实验室总工程师赵志峰把他们称为“硬盘侠”和“键盘侠”:前者负责筛选并且把装有专业数据的硬盘背到实验室,交给那些敲代码敲到腰椎间盘突出的年轻科学家。
昨天,他们坐在一起,发布了一个叫021的科学模型,希望在地球科学、天文学、生命科学、材料科学等多个领域加速科学发现、变革科研范式,成为科学家们手里的最强“外挂”。
所谓的021,实际上是英文zero to one(从0到1)的简写。光从名字看,就包含了变革的意义。按照中国工程院院士、之江实验室主任王坚的说法,“如果基础模型是人工智能的皇冠,那么科学基础模型就是人工智能皇冠上的明珠。”
全球首个百亿级人类基因组基础模型
7个月前,在杭州华大的一间小会议室里,包括华大生命科学研究院领域首席科学家刘石平和之江实验室总工程师赵志峰在内的几个人,坐下来喝了一杯咖啡。在这一杯咖啡的时间里,他们就讨论了一个问题:生命科学是非常大的一门科学,从哪里开始?最后指向一个答案:“读懂”基因。
从200多年前,奥匈帝国人孟德尔在奥古斯丁修道院的小花园里,通过豌豆实验首次提出遗传因子概念,到2000年左右完成第一个人类基因组全部30亿个碱基对的测序,人类一直没有停止对生命本身的探索。
但即使如此,目前人类超过90%的基因组功能尚未明确,70%以上的致病点位仍未被定位。
在喝完咖啡的一周后,一个叫“基因模型种子班”的团队在之江实验室正式启动,刘石平是种子班的班主任。
从5月份开始,华大研究院从杭州、北京、深圳、武汉等地陆续抽调精英团队进驻之江实验室 ,每天和之江实验室的科学家同吃同住。一边是全球生命科学领域的领军企业,拥有领先的自主基因组学测序技术和海量数据,一边是最懂AI的科学家,他们想解决同一个问题:如何将这30亿碱基对放进模型里。
“牵一发而动全身。”刘石平说,基因组的语言极其复杂,一个微小的单碱基突变,原因可能藏在百万碱基对之外。
比如,科学家用了很久才发现,南方人患地中海贫血概率比北方人高的原因:几十年前南方疟疾横行,南方人为了抵抗疟疾、适应环境,基因的某些点位发生了一些突变。虽然这些基因突变提高了南方人抵抗疟疾的能力,但反过来也带来了一些副作用,比如导致血红蛋白运输氧气的能力减弱,从而导致地中海贫血或其他血红蛋白病。
“键盘侠”和“硬盘侠”一起奋战5个月后,全球首个百亿级人类基因组基础模型Genos诞生了。这个针对人类基因组深度优化的基因组基础模型,可支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。
在AI的加持下,蛋白、基因、多组学等生命的奥秘正在逐渐被揭开。
最近,之江实验室生命科学计算研究中心研究专家郭玲分享了一个模型的实用案例,曾经在做基因序列的时候,发现在6号染色体上有一个高频突变,但遗传病理查不到相关信息,最后,她把数据放到了Genos里,模型给出了三个症状预测,并得到了医生的高度认可。
科学家们的超级“外挂”来了
“语言所表达的维度,远远低于科学所需表达的维度。”之江实验室科学模型总体部技术总师薛贵荣指出,科学数据涵盖时间、空间、能量等多个维度,是对复杂物理系统演变规律的高维表征。
比如,地球科学中超过75%的信息存储于声波、磁场等非文本数据中;天文学依赖图像、光谱来解析宇宙结构与演化;生命科学的奥秘深藏于如人类基因组30亿碱基对等DNA序列中……
在薛贵荣看来,解决科学问题,我们迫切地需要突破语言空间的局限,研发科学基础模型,构建集“科学空间+语言空间”于一体的更高维空间,建立跨学科数据之间的深层连接,变革科学研究范式。
目前,021模型已服务地球科学、天文学、生命科学、材料科学等多个领域,成为科学家们打破学科边界、激发创新思维的超级“外挂”。
比如,今年4月面向全球开放使用的地学领域模型GeoGPT,经过不断迭代升级,其中GeoGPT-VL支持图像描述总结、图像信息提取、地理空间推理、地学分析推理四类典型任务,实现从“读图”到专业推理的跨越。
天文领域模型OneAstronomy,将光谱、光变、图像等不同模态的天文数据映射至统一表征空间,实现跨模态融合推理,重构数据处理范式。通过OneAstronomy,望远镜学会了自主观测,不久的将来望远镜还会“观测即发现”。
之江实验室与华大生命科学研究院的联合团队从0到1完成了百亿参数人类基因组基础模型Genos的训练,并基于021科学基础模型,在致病性突变识别任务上实现了98.3%的准确率。
<爱上你,爱上新江南网:www.xjnnet.com 欢迎您!>声明:
本文仅代表作者个人观点,与新江南网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,新江南网号系信息发布平台,新江南网仅提供信息存储空间服务。如有侵权请出示权属凭证联系管理员(yin040310@sina.com)删除!
阅读推荐
新闻爆料