多模态

华藏通用大模型

华藏通用大模型是一个多功能的人工智能平台,它通过集成先进的算法和大量数据训练,为用户提供了一个强大的工具,以支持各种应用场景,从客户服务到专业咨询,再到数据分析和自动...

Hummingbird

Hummingbird-0 是一款基于深度学习的 AI 口型同步工具,支持零样本学习,无需额外训练即可快速生成高质量口型同步视频。它兼容多种格式,支持最长 5 分钟视频处理,1 分钟内生成 10 秒视频,适用于影视制作、广告、本地化翻译及 AI 内容创作等场景。通过多模态融合技术,实现音频与视频的精准匹配,提升内容表现力。

Flame

Flame是一款开源的多模态AI模型,能够将UI设计截图转换为高质量的现代前端代码。它支持React等主流框架,具备动态交互、组件化开发和高代码质量的特点。Flame通过创新的数据合成方法提升代码多样性与准确性,适用于快速原型开发、提升开发效率及辅助学习等多种场景。其训练数据、模型和测试集均已开源,为前端开发提供了高效的工具支持。

蓝心大模型

蓝心大模型是由vivo研发的通用大模型矩阵,包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色,蓝心语音大模型支持多语言,蓝心图像大模型融合了中国特色和东方美学,蓝心多模态大模型则提供了流畅的视频对话体验。

西湖大模型

西湖大模型西湖心辰开发的多模态大模型,既具备通过跨领域的知识解决问题的超高智商,也具备通过情感感知、长期记忆形成的超高情商。

ChatWise

ChatWise 是一款支持多种语言模型的 AI 聊天工具,提供多模态交互功能,支持音频、PDF、图片和文本文件处理。其桌面优化设计提升体验,数据本地存储保障隐私。内置网页搜索功能,支持连接 Notion、Google Sheets 等外部工具,适用于学习、办公、内容创作等场景。

LeRobot

LeRobot是一个由HuggingFace开发的开源AI聊天机器人项目,旨在简化机器人技术的学习过程。它提供了预训练模型、数据集和模拟环境,支持模仿学习和强化学习,适用于多种机器人硬件。该项目具有多用途、可扩展的特点,通过提供预训练模型、数据集共享、模拟环境和多功能库等功能,帮助用户加速机器人项目的开发进程。

办公小浣熊2.0

办公小浣熊2.0是一款由商汤科技开发的AI办公助手,其核心功能围绕“浣熊三步法”展开,涵盖规划、分析与写作三大模块。该工具支持个人知识库建设、信息检索、文档编辑及对话转文档等功能,尤其擅长无编程数据分析与文档解析,同时提供内容生成、校对、创意辅助等服务,广泛应用于办公、学习、研究及项目管理等领域。

TinyVLA

TinyVLA是一种轻量级的视觉-语言-动作(VLA)模型,专为机器人操控设计。它通过结合多模态模型和扩散策略解码器,实现了快速推理、数据高效和多任务学习的能力,并在泛化性能上表现优异。TinyVLA可应用于家庭、工业、服务等多个领域,具有广泛的实用价值。

MagicQuill

MagicQuill是一款基于AI的开源图像编辑工具,提供智能化的局部编辑功能。其核心功能包括AI驱动的智能建议、精确的像素级编辑(如添加、删除和颜色调整),以及多种定制化工具(如添加笔刷、减去笔刷和颜色笔刷)。此外,它还具备实时意图预测和参数调整能力,支持多模态大语言模型和扩散模型的协作,适用于个人娱乐、教育、专业设计及商业应用等多个领域。