Maya是一款基于LLaVA框架的开源多语言多模态模型,旨在通过指令微调提升模型在多种语言和文化背景下的视觉-语言任务表现。该模型包含一个包含八种语言的预训练数据集,并通过毒性分析和数据集过滤确保训练数据的安全性和质量。支持的语言包括中文、法语、西班牙语、俄语、印地语、日语和阿拉伯语,特别注重提升低资源语言的AI内容生成能力。 Maya具备强大的多语言和多模态能力,能够处理图像和文本的联合任务,如图像描述生成和视觉问答。其核心技术基于LLaVA 1.5架构,使用Aya-23 8B作为多语言语言模型(LLM),并采用SigLIP作为视觉编码器。通过多轮对话数据的预训练和指令微调,模型实现了跨模态对齐,显著提升了视觉-语言任务的表现。 Maya的技术细节还包括毒性分析工具(LLaVAGuard 7B和Toxic-BERT)的应用,用于检测和过滤数据集中潜在的有害内容。项目代码托管于GitHub和HuggingFace平台,技术论文可在arXiv上查阅。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部