多模态 - 智狐AI导航

LiveCC

LiveCC是一款由新加坡国立大学Show Lab与字节跳动联合开发的实时视频解说模型，基于自动语音识别字幕进行训练。它能够实时生成自然流畅的视频评论和回答相关问题，适用于体育、新闻、教育等多个场景。模型采用流式训练方法，结合大规模数据集和Qwen2-VL架构，具备低延迟和高质量的生成能力。LiveCC通过LiveSports-3K基准测试评估性能，广泛应用于视频内容分析与智能交互场景。

AI项目与工具 2025年06月11日 100 点赞 0 评论 698 浏览

Kimi Latest

Kimi Latest是月之暗面推出的实时更新AI模型，支持128k上下文长度，可自动选择模型规模并优化成本。具备图像理解、自动上下文缓存和多模态处理能力，适用于聊天应用、内容创作及数据分析等多种场景，为开发者和用户提供稳定高效的AI解决方案。

AI项目与工具 2025年06月12日 38 点赞 0 评论 698 浏览

LongVU

LongVU是一款由Meta AI团队研发的长视频理解工具，其核心在于时空自适应压缩机制，可有效减少视频标记数量并保留关键视觉细节。该工具通过跨模态查询与帧间依赖性分析，实现了对冗余帧的剔除及帧特征的选择性降低，并基于时间依赖性进一步压缩空间标记。LongVU支持高效处理长视频，适用于视频内容分析、搜索索引、生成描述等多种应用场景。

AI项目与工具 2025年06月12日 65 点赞 0 评论 698 浏览

天工超级智能体

运用AI agent架构和深度研究技术，能一站式生成文档、PPT、表格、网页、播客和音视频等多种类型的内容，标志着“AI Office智能体”时代已经来临。

Ai办公效率 2025年06月05日 76 点赞 0 评论 698 浏览

MiniMax

MiniMax-01是由MiniMax推出的高性能AI模型系列，包含语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。该系列采用线性注意力机制，支持处理长达400万token的上下文，性能接近国际领先模型。具备强大的语言理解、多模态处理及长文本分析能力，适用于企业、教育、科研及开发等多个领域。API定价合理，提供高效的长文本处理与多模态交互解决方案。

AI项目与工具 2025年06月12日 30 点赞 0 评论 699 浏览

Morphik

Morphik是一款开源的多模态检索增强生成（RAG）工具，专为处理高技术性和视觉内容丰富的文档设计。支持图像、PDF、视频等多种格式的文档搜索，采用ColPali技术理解文档中的视觉内容，具备快速元数据提取功能，可提取边界框、标签、分类等信息。其主要功能包括多模态数据处理、智能解析文件、知识图谱构建、自然语言规则引擎和数据管理与集成，适用于技术文档处理、企业知识管理和智能应用开发等场景。

AI项目与工具 2025年06月11日 27 点赞 0 评论 700 浏览

Dust

Dust 是一款面向企业用户的 AI 代理构建平台，支持无代码开发，可快速部署定制化 AI 代理，实现业务流程自动化。其核心功能包括多平台集成、实时数据同步、语义搜索、多模态交互及团队协作等，适用于市场营销、销售、技术支持等多个应用场景，有效提升工作效率和数据利用率。

AI项目与工具 2025年06月11日 98 点赞 0 评论 701 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 701 浏览

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统，基于大量中文语音数据训练，支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能，适用于智能助手、内容创作及无障碍通信等场景，技术上融合了语音-文本联合建模与多阶段训练策略，提升语音表现力与智能化水平。

AI项目与工具 2025年06月12日 23 点赞 0 评论 701 浏览

IMYAI智能助手

原名ILoveChatGPT，为用户提供丰富的AI服务，使用IMYAI，无需额外工具，即可让您畅享ChatGPT以及Midjourney等AI服务。

Ai平台模型 2025年06月05日 12 点赞 0 评论 702 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期