GENERator简介

GENERator是由阿里云飞天实验室AI for Science团队研发的生成式基因组基础模型,专注于DNA序列的设计与生成。该模型基于Transformer解码器架构,具备98k碱基对的上下文长度和120亿参数规模,训练数据覆盖3860亿个真核生物DNA碱基对。在多个基准测试中表现优异,能够生成与天然蛋白质家族结构相似的DNA序列,并在启动子设计任务中展现出优化潜力。

GENERator的主要功能

  • DNA序列生成:GENERator能够生成具有生物学意义的DNA序列,可编码与已知蛋白质家族结构相似的蛋白质。已成功生成组蛋白和细胞色素P450家族的新变体。
  • 启动子设计:通过微调,GENERator可用于设计特定活性的启动子序列,用于调控基因表达,显示出强大的基因表达调控潜力。
  • 基因组分析与注释:在基因分类和分类群分类任务中表现出色,能够高效识别基因位置并预测其功能。
  • 序列优化:在序列优化方面具有显著潜力,可通过指令生成具有特定功能的DNA序列,为合成生物学和基因工程提供新工具。

GENERator的技术原理

  • Transformer解码器架构:采用Transformer解码器结构,结合多头自注意力机制和前馈神经网络,实现高效的序列建模,确保生成结果符合生物学逻辑。
  • 超长上下文建模:支持98k碱基对的上下文长度,有效处理复杂基因结构,保持生成序列的连贯性。
  • 6-mer分词器:使用6-mer分词方式,提升序列分辨率与上下文覆盖,优于传统分词方法。
  • 预训练策略:基于大规模真核生物DNA数据集(3860亿bp)进行预训练,采用Next Token Prediction任务学习DNA语义。
  • 下游任务适配:在基因分类、分类群分类和启动子设计等任务中表现良好,具备良好的迁移能力。
  • 生物学验证:生成的DNA序列能编码结构接近天然蛋白质的序列,通过Progen2和AlphaFold3验证了其生物学合理性。

GENERator的项目资源

GENERator的应用场景

  • DNA序列设计与优化:适用于蛋白质家族定制,生成结构相似于天然蛋白的DNA序列。
  • 基因组分析与注释:可高效识别基因位置、预测功能并注释结构。
  • 合成生物学与基因工程:用于设计调控元件,如启动子和增强子。
  • 精准医疗与药物设计:支持生成与疾病相关的基因序列,辅助基因治疗。
  • 生物技术中的序列优化:通过指令生成特定功能的DNA序列,推动生物技术创新。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部