多模态输入

Dola

Dola是一款基于人工智能的日历助手,它允许用户通过多种方式(包括文字、语音和图片)与主要的即时通讯软件交互,以高效地创建和管理日程事件。Dola具备自然语言理解和日历同步功能,能够自动识别并添加日程,支持跨平台同步,并在事件开始前发送提醒。此外,它还提供群组管理功能,适合团队和组织使用。Dola简化了日程管理流程,提升了个人和团队的工作效率。

Movie Gen

Movie Gen是Meta开发的一款AI视频生成与编辑工具,支持根据文本提示生成高清视频并提供同步音频配制。该工具具备强大的视频生成能力,可创建长达16秒的高清视频,并支持照片定制化视频生成和精准编辑功能。此外,它还拥有先进的音频生成技术,能够生成高质量的环境音效和背景音乐。当前,Movie Gen主要服务于Meta内部团队及部分合作伙伴,未来有望推广至更广泛的用户群体。 ---

GTA

GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试,专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题,涉及多个领域,并通过多模态输入输出和细粒度评估指标,全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域,助力提升人工智能系统的综合性能。

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型,具备快速处理文本、音频和图像的能力,支持多语言输出和实时音视频流输入。通过Agent技术和工具调用,Gemini 2.0 能够自主理解任务并提供解决方案,已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用,计划逐步开放更多功能。

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型,拥有十亿参数量,可自主完成复杂任务,如调酒和遛狗。该模型基于模仿学习,具备强大的泛化能力和操作精度,支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景,推动机器人技术发展。

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架,支持多模态输入(如图片、文字、视频等)生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化,具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景,有效降低音乐创作门槛,提升创作效率与个性化体验。

Stackie.AI

Stackie.AI 是一款基于AI的智能记录与管理工具,支持多模态输入(文本、语音、图像),提供自动整理、任务生成、个性化模板及角色互动等功能。适用于健康管理、学习辅助、日常计划与习惯养成等场景,提升信息处理效率与用户体验。

GaussianAnything

GaussianAnything 是一款基于多模态输入的 3D 内容生成框架,支持点云、文本和图像等多种输入方式,能够生成高精度且可编辑的 3D 模型。其核心技术包括点云结构化潜空间和级联扩散模型,具备几何与纹理解耦特性,适用于游戏开发、影视制作、VR/AR、工业设计等多个场景。该工具在生成质量和一致性方面表现优异,为 3D 内容创作提供了高效解决方案。

Neo

Neo-1 是 VantAI 开发的全球首个整合从头分子生成与原子级结构预测的 AI 模型,支持多模态输入,提升药物设计效率与准确性。该模型基于大规模训练和定制数据集,具备精准生成分子和预测结构的能力,适用于分子胶设计、蛋白质复合物预测及抗体发现等多个领域,推动结构生物学发展。

Augment Agent

Augment Agent 是一款 AI 编程助手,支持 VS Code 和 JetBrains,具备强大上下文处理能力(最高 20 万 tokens),可自动学习用户编码风格并保持一致性。支持多模态输入、代码检查点、终端命令及跨平台协作,适用于复杂代码库开发和日常编程任务,性能在基准测试中表现优异。