GENERator简介
GENERator是由阿里云飞天实验室AI for Science团队研发的生成式基因组基础模型,专注于DNA序列的设计与生成。该模型基于Transformer解码器架构,具备98k碱基对的上下文长度和120亿参数规模,训练数据覆盖3860亿个真核生物DNA碱基对。在多个基准测试中表现优异,能够生成与天然蛋白质家族结构相似的DNA序列,并在启动子设计任务中展现出优化潜力。
GENERator的主要功能
- DNA序列生成:GENERator能够生成具有生物学意义的DNA序列,可编码与已知蛋白质家族结构相似的蛋白质。已成功生成组蛋白和细胞色素P450家族的新变体。
- 启动子设计:通过微调,GENERator可用于设计特定活性的启动子序列,用于调控基因表达,显示出强大的基因表达调控潜力。
- 基因组分析与注释:在基因分类和分类群分类任务中表现出色,能够高效识别基因位置并预测其功能。
- 序列优化:在序列优化方面具有显著潜力,可通过指令生成具有特定功能的DNA序列,为合成生物学和基因工程提供新工具。
GENERator的技术原理
- Transformer解码器架构:采用Transformer解码器结构,结合多头自注意力机制和前馈神经网络,实现高效的序列建模,确保生成结果符合生物学逻辑。
- 超长上下文建模:支持98k碱基对的上下文长度,有效处理复杂基因结构,保持生成序列的连贯性。
- 6-mer分词器:使用6-mer分词方式,提升序列分辨率与上下文覆盖,优于传统分词方法。
- 预训练策略:基于大规模真核生物DNA数据集(3860亿bp)进行预训练,采用Next Token Prediction任务学习DNA语义。
- 下游任务适配:在基因分类、分类群分类和启动子设计等任务中表现良好,具备良好的迁移能力。
- 生物学验证:生成的DNA序列能编码结构接近天然蛋白质的序列,通过Progen2和AlphaFold3验证了其生物学合理性。
GENERator的项目资源
- 项目官网:https://generteam.github.io/
- Github仓库:https://github.com/GenerTeam/GENERator
- HuggingFace模型库:https://huggingface.co/GenerTeam
- arXiv技术论文:https://arxiv.org/pdf/2502.07272
GENERator的应用场景
- DNA序列设计与优化:适用于蛋白质家族定制,生成结构相似于天然蛋白的DNA序列。
- 基因组分析与注释:可高效识别基因位置、预测功能并注释结构。
- 合成生物学与基因工程:用于设计调控元件,如启动子和增强子。
- 精准医疗与药物设计:支持生成与疾病相关的基因序列,辅助基因治疗。
- 生物技术中的序列优化:通过指令生成特定功能的DNA序列,推动生物技术创新。
发表评论 取消回复