多模态 - 智狐AI导航

STIV

STIV是一款由苹果公司开发的视频生成大模型，具有8.7亿参数，擅长文本到视频（T2V）及文本图像到视频（TI2V）任务。它通过联合图像-文本分类器自由引导（JIT-CFG）技术提升生成质量，并结合时空注意力机制、旋转位置编码（RoPE）及流匹配训练目标优化性能。STIV支持多种应用场景，包括视频预测、帧插值、长视频生成等，适用于娱乐、教育、广告及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 466 浏览

LabelU

一款轻量级的开源标注工具

Ai平台模型 2026年06月12日 0 点赞 0 评论 467 浏览

Step-1V

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

Ai平台模型 2026年06月12日 0 点赞 0 评论 467 浏览

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，采用混合变换器专家架构（MoT），通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异，生成质量接近SD3，并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

AI项目与工具 2025年06月11日 92 点赞 0 评论 468 浏览

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash Thinking 是谷歌发布的一款推理增强型AI模型，具有高达百万tokens的长上下文窗口、可解释的推理过程、代码执行功能及多模态处理能力。它能够有效减少推理矛盾，提升输出结果的可靠性和一致性，广泛适用于教育、科研、内容创作、客户服务以及数据分析等多个领域。

AI项目与工具 2025年06月12日 33 点赞 0 评论 468 浏览

FLUX.1 Kontext

FLUX.1 Kontext是由Black Forest Labs推出的图像生成与编辑模型，支持上下文感知的图像处理。它基于文本和图像提示进行生成与编辑，具备对象修改、风格转换、背景替换、角色一致性保持和文本编辑等功能。FLUX.1 Kontext Pro版本支持快速迭代编辑，Kontext Max版本在提示词遵循和排版生成方面表现优异，而dev开源版本适合定制化开发。

AI项目与工具 2025年06月11日 15 点赞 0 评论 468 浏览

Mistral Small 3.1

Mistral Small 3.1 是一款由 Mistral AI 开发的开源多模态 AI 模型，拥有 240 亿参数，支持文本与图像处理，具备长达 128k tokens 的上下文窗口和每秒 150 token 的推理速度。采用 Transformer 架构与 MoE 技术，提升计算效率，支持多语言和本地部署。适用于文档处理、图像分析、质量检测、虚拟助手等多种场景。

AI项目与工具 2025年06月12日 58 点赞 0 评论 470 浏览

觅果·Migo

觅果·Migo 是一款基于 AI 技术的学习与研究平台，支持多模态内容处理，涵盖文本、图像和数据。提供智能问答、网页辅读、文献分析、学术写作、化学辅助等功能，适用于科研、学习与内容创作。用户可通过云端访问，实现多设备无缝切换，提升信息处理与知识管理效率。

AI项目与工具 2025年06月11日 45 点赞 0 评论 473 浏览

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型，专注于长上下文多模态学习，具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B，但性能接近更大模型。采用信息优先采样和渐进式后训练策略，提升模型稳定性与适应性。支持多样任务，适用于视频分析、图像处理、内容创作及教育等多个领域。

AI项目与工具 2025年06月11日 59 点赞 0 评论 476 浏览

心影大模型

心影大模型是一款专注于游戏领域的AI工具，基于超百万条游戏数据训练，支持《原神》《艾尔登法环》等主流游戏，提供精准攻略查询、情感化角色互动、多模态交互等功能。其响应速度快，准确率高，适用于游戏辅导、情绪支持、心理陪伴等多种场景，提升用户体验与互动性。

AI项目与工具 2025年06月11日 88 点赞 0 评论 477 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期