多模态

Kanana

Kanana是一款由Kakao推出的生成式AI助手,具备强大的上下文理解和记忆能力。其核心功能包括群聊助手(Kana)和私人伴侣(Nana),前者专注于处理团队协作中的具体任务,后者则用于管理个人及集体事务。此外,该工具还支持多模态输入输出方式,可应用于商务、教育、社交等多个领域,并计划扩展至车载场景以提升用户体验。

Pixtral 12B

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型,能够同时处理图像和文本数据。该模型包含120亿参数,大小约为24GB,基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力,能够执行图像描述生成、统计照片中的物体数量等任务,并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源,用户可以自由下载和微调该模型。应用场景广泛,包括

优雅YOYA

优雅(YOYA)是中科闻歌推出的多模态文生视频平台,基于大语言模型和多模态技术,支持从脚本生成到视频剪辑的全流程自动化。用户仅需输入主题,即可快速生成高质量视频,并支持语音克隆、口型翻译、数字人等功能。平台还具备多模态素材智能剪辑能力,提升创作效率与可控性,适用于媒体、影视、企业宣传及教育等领域。

Jodi

Jodi是由中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,实现视觉生成与理解的统一。它支持联合生成、可控生成和图像感知三种任务,利用线性扩散Transformer和角色切换机制,提升生成效率和跨领域一致性。Jodi使用Joint-1.6M数据集进行训练,包含20万张高质量图像和7个视觉域标签,适用于创意内容生成、多模态数据增强、图像编辑与修复等场景。

优雅AI创作平台

中科闻歌发布的一款多模态内容智能生成平台,用户只需输入关键词或简单指令,能够自动生成文本、图片、音视频等多种形式的内容。

Hummingbird

Hummingbird-0 是一款基于深度学习的 AI 口型同步工具,支持零样本学习,无需额外训练即可快速生成高质量口型同步视频。它兼容多种格式,支持最长 5 分钟视频处理,1 分钟内生成 10 秒视频,适用于影视制作、广告、本地化翻译及 AI 内容创作等场景。通过多模态融合技术,实现音频与视频的精准匹配,提升内容表现力。

Agent K v1.0

Agent K v1.0 是一款端到端自主数据科学智能体,由华为诺亚方舟实验室与伦敦大学学院团队联合开发。该工具能够自动化处理数据科学生命周期中的各个环节,支持多模态数据处理,具备动态多步骤问题解决能力,并通过结构化推理和动态记忆管理实现自我学习与优化。Agent K v1.0 在Kaggle多模态挑战赛中表现优异,广泛应用于金融、医疗、零售、制造及客户服务等领域。

跃问

一款免费AI聊天机器人,个人效率助手,跃问支持多模态能力,能够理解图片物体、阅读总结文档信息和解析网页内容,支持连续的多轮对话等。

Webdraw

Webdraw 是一款无代码 AI 应用开发平台,支持图像生成、视频制作、聊天助手等功能,用户可通过自然语言或可视化工具快速构建应用。平台集成多种 AI 模型,支持多模态内容创作,具备文件共享、实时协作和一键部署能力,适用于创意设计、个性化工具开发、教育及企业场景,降低 AI 技术使用门槛。

WorldDreamer

WorldDreamer 是一种基于 Transformer 的通用世界模型,具备理解与预测物理世界动态变化的能力,专注于视频生成任务。它支持多种应用场景,包括文本到视频、图像到视频、视频编辑和动作序列生成,利用视觉 Token 化、Transformer 架构和多模态提示技术,实现了高效且高质量的视频生成。