多模态

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型,擅长处理图像与文本信息,具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异,支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术,提升推理准确性与可解释性,适用于科研、教育、医疗及自动驾驶等场景。

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集,包含约20万个多模态样本,涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力,并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量,适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

LLaDA

LLaDA是一款基于扩散模型框架的新型大型语言模型,由中国人民大学高瓴AI学院与蚂蚁集团联合开发。它通过正向掩蔽和反向恢复机制建模文本分布,采用Transformer作为掩蔽预测器,优化似然下界提升生成效果。LLaDA在上下文学习、指令遵循和双向推理方面表现突出,尤其在反转推理任务中克服了传统自回归模型的局限。其8B参数版本在多项基准测试中表现优异,适用于多轮对话、文本生成、代码生成、数学推理和语

龙猫LongCat

龙猫LongCat是美团自主研发的生成式AI大模型,具备多模态处理能力,可支持文本、图像等内容生成任务。其核心功能涵盖智能编程、会议记录、文档编辑、图形设计与视频脚本生成等,适用于多种办公场景。通过大规模预训练与混合训练策略,龙猫在实际应用中展现出高效、精准的特点,有效提升工作效率与创新能力。

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集,包含4300万条样本,涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量,并采用合成数据生成技术扩展数据集规模。基于此数据集,智源研究院训练出了20亿参数的Aquila-VL-2B模型,在多项基准测试中表现出色,推动了多模态AI领域的研究与发展。

幻剪

幻剪是一款基于AI技术的视频创作工具,支持智能生成和剪辑视频,用户可通过输入文案快速获取成品,并通过二次编辑实现个性化定制。其功能涵盖多模态搜索、自动剪辑、配音及字幕设置等,广泛应用于个人、教育、团队协作及内容创作等领域,有效简化视频制作流程,提升创作效率。

AnythingLLM

AnythingLLM 是一款开源、多模态的 AI 客户端工具,支持文本、图像和音频输入,可将文档转化为上下文信息供语言模型使用。支持本地和云端部署,具备多用户管理、工作区隔离、丰富的文档格式支持和强大的 API 接口。适用于企业知识管理、学术研究、个人学习、内容创作等多种场景,保障数据隐私安全。

PySpur

PySpur 是一款开源的轻量级可视化 AI 工作流构建工具,支持拖拽式界面,帮助用户快速构建、测试和迭代 AI 应用,无需编写复杂代码。其功能包括循环与记忆、文件处理、结构化输出、RAG 技术、多模态数据支持及与多个平台的集成。适用于智能对话系统、自动化任务管理、多模态数据分析等场景,适合非技术人员和开发者使用。

Stable Diffusion 3.5

Stable Diffusion 3.5是一套由Stability AI开发的先进AI图像生成模型,包含多个版本以适应不同需求。它具备高定制性、高效的消费级硬件运行能力和开源许可,能够生成高质量、多样化的图像,支持多种风格和肤色表现。其核心技术基于多模态学习和优化的架构,适用于艺术创作、游戏开发、广告设计等多个领域。 ---

元分身

元分身平台基于多模态AIGC与互动技术,打造媲美真人的的形象、声音、表情、动作、个性的AI数字人,应用于视频合成、直播、个性化交互等场景。