全球首个百亿级可部署基因组基础模型诞生

来源:科技日报2025年10月24日 09:28作者:张佳星

23日,华大生命科学研究院与之江实验室联合发布全球首个百亿参数可部署的基因组通用基础模型Genos。该模型支持多达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。

人类基因组由30亿对碱基组成。“人类基因组计划”破译了序列,但序列上碱基的具体功能仍需要精准识别和解析。

现有模型大多基于1—2个参考基因组开展训练,难以体现人类遗传资源的多样性。而Genos整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异图谱计划(HGSVC)等多个权威公开资源,首次将全球范围内636个“端粒到端粒”级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,有助更全面理解人类遗传多样性。

算法架构方面,Genos通过“混合专家”架构,精准调度强相关“专家”算法协同处理,在汇总百亿级庞大参数时成功降低推理成本和资源消耗,让模型既强大、又好用。

测试结果显示,Genos在直接面向临床应用的致病性突变解读任务中,准确率达92%;结合科学基础模型后,准确率高达98.3%。多项综合评测结果也显示,Genos超越现有最佳水平模型。

华大生命科学研究院相关负责人说,Genos模型已在HuggingFace(抱抱脸)、魔搭等平台全面开源开放,提供12亿和100亿参数两个版本,满足不同需求。

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com
中国能源网官方微信二维码
欢迎关注中国能源官方网站
分享让更多人看到
中国能源网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。

即时新闻

要闻推荐

热点专题

精彩视频

能源之问 | 深耕采煤沉陷区新能源 助力海南新型电力系统建设
院士对话|“十五五”,氢能发展最好的切入点在哪里?
网传深圳比亚迪坪山工厂出现火情:浓烟滚滚,火势明显
院士对话:如何提升区域能源的自给率

精彩图集

力箭二号遥一运载火箭发射成功
美以伊战事30天——战争阴影下两座城市的日常
世界最大水下盾构隧道实现双层贯通
十四届全国人大四次会议第二场“部长通道”集中采访活动举行
全球首个百亿级可部署基因组基础模型诞生
分享到: