多模态 - 智狐AI导航

ScreenAI

ScreenAI是一款专为理解和处理用户界面（UI）及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系，并生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息，并采用自回归解码器生成自然语言响应。此外，ScreenAI还能适应不同屏幕格式，提供精确的UI导航和内容摘要功能。

AI项目与工具 2024年01月01日 16 点赞 0 评论 788 浏览

Valley

Valley是一款由字节跳动开发的多模态大语言模型，擅长处理文本、图像和视频数据，广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能，支持灵活调整令牌数量，实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色，尤其在参数规模较小的情况下依然保持优异的成绩。

AI项目与工具 2025年06月12日 60 点赞 0 评论 787 浏览

Step1X

Step1X-Edit 是由阶跃星辰团队推出的通用图像编辑框架，结合多模态大语言模型与扩散模型，支持多样化的图像编辑任务，如主体修改、背景更换、风格转换等。用户可通过自然语言指令进行操作，系统能精准理解并生成高质量图像。该工具基于大规模数据集训练，具备强大的真实场景适应能力，适用于创意设计、影视制作、社交媒体等多个领域。

AI项目与工具 2025年06月11日 81 点赞 0 评论 787 浏览

西鲸AI

一个集成了几十款大模型的平台，西鲸AI免费提供文生文大模型的使用，支持midjourney、Dall-E、SD，以及RAG知识库功能。

AI写作对话 2025年06月05日 27 点赞 0 评论 785 浏览

通义星尘

基于通义大模型设计的一个能够快速创造独有人设、风格的角色对话扮演智能体，可在多种场景中进行多种形式的人工智能互动，广泛应用在角色扮演、教育&服务等领域。

AI写作对话 2025年06月05日 24 点赞 0 评论 784 浏览

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架，支持文本到图像、文本到视频、图像到视频等多种任务，兼容多种生成模型与奖励机制。其通过强化学习优化生成过程，提升视觉内容质量与一致性，降低显存压力，提高训练效率与稳定性，适用于视频生成和多模态内容创作。

AI项目与工具 2025年06月11日 45 点赞 0 评论 784 浏览

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型，支持处理超长文本（超过100万tokens）及多模态输入（图像、视频、文本）。通过分阶段训练提升上下文理解能力，结合动态分块编码器与并行推理技术，实现高效处理长文本和高分辨率图像。模型基于开源数据训练，适用于视频分析、图像识别、长文本生成等场景，性能在多个基准测试中表现突出。

AI项目与工具 2025年06月12日 65 点赞 0 评论 784 浏览

讯飞星辰MaaS

讯飞星辰MaaS是一个AI大模型定制微调平台，提供从数据管理到模型微调、评估、托管及推理服务的全流程支持。平台支持多种行业知名模型的零代码微调，具有高度灵活性和可扩展性，适用于逻辑推理、数据管理和多模态应用等场景，为企业提供高效、专业的AI解决方案。

AI项目与工具 2025年06月12日 88 点赞 0 评论 783 浏览

Grok 3

Grok 3是由马斯克旗下xAI推出的最新AI模型，具备强大的推理能力和多模态处理功能。采用“思维链”技术，支持复杂任务的逐步分析，提升逻辑准确性。模型参数量达1.2万亿，基于10万块H100 GPU训练，性能在多个基准测试中超越同类产品。适用于自动驾驶、医疗、教育、客服及营销等多个领域，提供高效智能解决方案。

AI项目与工具 2025年06月12日 66 点赞 0 评论 783 浏览

GaussianAnything

GaussianAnything 是一款基于多模态输入的 3D 内容生成框架，支持点云、文本和图像等多种输入方式，能够生成高精度且可编辑的 3D 模型。其核心技术包括点云结构化潜空间和级联扩散模型，具备几何与纹理解耦特性，适用于游戏开发、影视制作、VR/AR、工业设计等多个场景。该工具在生成质量和一致性方面表现优异，为 3D 内容创作提供了高效解决方案。

AI项目与工具 2025年06月12日 41 点赞 0 评论 781 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期