跨模态 - 智狐AI导航

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 707 浏览

LongVU

LongVU是一款由Meta AI团队研发的长视频理解工具，其核心在于时空自适应压缩机制，可有效减少视频标记数量并保留关键视觉细节。该工具通过跨模态查询与帧间依赖性分析，实现了对冗余帧的剔除及帧特征的选择性降低，并基于时间依赖性进一步压缩空间标记。LongVU支持高效处理长视频，适用于视频内容分析、搜索索引、生成描述等多种应用场景。

AI项目与工具 2025年06月12日 65 点赞 0 评论 703 浏览

Ichigo

Ichigo是一款开源的多模态AI语音助手，采用混合模态模型，支持实时处理语音和文本交织序列。它通过统一的Transformer架构实现跨模态联合推理，提供低延迟的实时性能，并支持多语言、多轮对话及模糊输入处理。Ichigo适用于智能家居、个人助理、客户服务、教育和健康咨询等多种应用场景，展现了高效、灵活的技术优势。

AI项目与工具 2025年06月12日 96 点赞 0 评论 690 浏览

MILS

MILS是由Meta AI开发的一种无需额外训练即可为大型语言模型（LLM）提供多模态能力的框架。它通过多步推理、评分反馈和迭代优化，实现图像、视频、音频等多模态内容的生成与理解。MILS支持零样本描述生成、风格迁移、跨模态推理等任务，适用于内容生成、多模态检索、视觉问答等多个场景，具备高效、灵活和无需训练的优势。

AI项目与工具 2025年06月12日 31 点赞 0 评论 667 浏览

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型，专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性，采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能，并且其源代码和资源已公开，可供研究和应用。

AI项目与工具 2025年06月12日 73 点赞 0 评论 667 浏览

PromptFix

PromptFix是一款基于扩散模型的开源AI图像修复工具，支持多种图像处理任务，如上色、物体移除、去雾、去模糊等。它通过20步去噪过程精确修复图像缺陷，同时保持图像结构完整性和泛化能力。PromptFix具备高频细节保护、辅助提示适配器、零样本学习能力和大规模数据集构建等特点，适用于个人照片编辑、专业摄影、数字艺术创作、媒体广告及电影制作等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 651 浏览

DoraCycle

DoraCycle是由新加坡国立大学Show Lab开发的一种多模态生成模型，通过文本与图像间的双向循环一致性学习，实现跨模态信息转换与对齐。其核心优势在于无需大量标注数据即可完成领域适应，支持风格化设计、虚拟角色生成等多样化任务。模型采用自监督学习和梯度裁剪等技术提升训练稳定性，适用于广告、教育等多个应用场景。

AI项目与工具 2025年06月12日 19 点赞 0 评论 649 浏览

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型（MLLM）。它通过整合视觉、语音和文本三种模态的信息，实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据，还支持流式文本-语音生成及跨模态信息交互，适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 643 浏览

T2V

T2V-Turbo 是一种高效的文本到视频生成模型，能够快速生成高质量视频，同时确保文本与视频的高度一致性。它通过一致性蒸馏技术和混合奖励机制优化生成过程，适用于电影制作、新闻报道、教育及营销等多个领域，支持从创意草图到成品视频的全流程加速。

AI项目与工具 2025年06月12日 16 点赞 0 评论 640 浏览

NEXUS

NEXUS-O是一款由多家知名机构联合开发的多模态AI模型，能够处理音频、图像、视频和文本等多种输入，并以相应形式输出结果。它在视觉理解、音频问答、语音识别和翻译等方面表现出色，具备强大的跨模态对齐与交互能力。模型基于视觉语言预训练，结合高质量音频数据提升性能，并通过多模态任务联合训练增强泛化能力。适用于智能语音助手、视频会议、教育、智能驾驶、医疗健康等多个领域。

AI项目与工具 2025年06月12日 84 点赞 0 评论 630 浏览

跨模态

首页

跨模态

列表

默认

浏览次数

发布日期