跨模态 - 智狐AI导航

Ichigo

Ichigo是一款开源的多模态AI语音助手，采用混合模态模型，支持实时处理语音和文本交织序列。它通过统一的Transformer架构实现跨模态联合推理，提供低延迟的实时性能，并支持多语言、多轮对话及模糊输入处理。Ichigo适用于智能家居、个人助理、客户服务、教育和健康咨询等多种应用场景，展现了高效、灵活的技术优势。

AI项目与工具 2025年06月12日 96 点赞 0 评论 439 浏览

OmniSearch

OmniSearch是一款由阿里巴巴通义实验室开发的多模态检索增强生成框架，具备自适应规划能力。它能够动态解析复杂问题，根据检索结果和问题情境调整检索策略，模拟人类解决复杂问题的行为，提升检索效率和准确性。OmniSearch支持多模态信息处理，包括文本、图像等，并通过递归检索与推理流程逐步接近问题解答，显著提高多模态检索的灵活性和效果。

AI项目与工具 2025年06月12日 52 点赞 0 评论 668 浏览

SmoothCache

SmoothCache是一种针对Diffusion Transformers（DiT）模型的推理加速技术，通过分析层输出的相似性实现自适应缓存和特征重用，有效减少计算成本并提升生成效率。该技术具有模型无关性、跨模态适用性和易于集成的特点，支持图像、视频、音频及3D模型生成，并在多种应用场景中展现出卓越的性能表现。

AI项目与工具 2025年06月12日 52 点赞 0 评论 759 浏览

NVLM

NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 484 浏览

书生·万象InternVL 2.5

书生·万象InternVL 2.5是一款开源多模态大型语言模型，基于InternVL 2.0升级而来。它涵盖了从1B到78B不同规模的模型，支持多种应用场景，包括图像和视频分析、视觉问答、文档理解和信息检索等。InternVL 2.5在多模态理解基准上表现优异，性能超越部分商业模型，并通过链式思考技术提升多模态推理能力。

AI项目与工具 2025年06月12日 100 点赞 0 评论 617 浏览

Maya

Maya是一款开源多语言多模态模型，基于LLaVA框架开发，支持中文、法语、西班牙语等多种语言，专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据，实现跨模态对齐和指令微调，广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 452 浏览

千影 QianYing

千影 QianYing 是一款由巨人网络推出的 AI 工具，包含游戏视频生成大模型 YingGame 和视频配音大模型 YingSound。YingGame 支持角色动作交互控制与物理仿真，YingSound 具备视频语义理解和时间对齐能力，两者结合可生成高质量的有声游戏视频。该工具旨在降低游戏开发门槛，促进创作平等，并推动游戏行业的创新发展。

AI项目与工具 2025年06月12日 100 点赞 0 评论 520 浏览

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型，能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器（VAE）和因果Transformer架构，支持自回归生成与跨模态信息共享，特别擅长图像生成、多模态语言模型及文本到语音合成等任务，其提出的σ-VAE进一步提升了模型的鲁棒性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 632 浏览

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型（MLLM）。它通过整合视觉、语音和文本三种模态的信息，实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据，还支持流式文本-语音生成及跨模态信息交互，适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 394 浏览

VMB

VMB是一个由多机构合作研发的多模态音乐生成框架，可从文本、图像和视频等多样化输入生成音乐。它通过文本桥接和音乐桥接优化跨模态对齐与可控性，显著提高了音乐生成的质量和定制化程度。VMB具有增强模态对齐、提升可控性、显式条件生成等特点，适用于电影、游戏、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 84 点赞 0 评论 507 浏览

跨模态

首页

跨模态

列表

默认

浏览次数

发布日期