多模态 - 智狐AI导航

元象XVERSE

元象 XVERSE是国内领先的 AI 与 3D 技术服务公司，致力于打造 AI 驱动的 3D 内容生产与消费一站式平台，愿景为“定义你的世界”。

Ai科技公司 2025年06月05日 82 点赞 0 评论 714 浏览

Claude 3.7 Sonnet

Claude 3.7 Sonnet 是由 Anthropic 推出的混合推理模型，支持标准模式与扩展思考模式，适用于复杂任务处理和日常交互。其在数学、物理、编程等领域表现卓越，尤其在代码生成与理解方面领先。模型优化了安全性，减少误拒率，并支持多平台接入。适用于软件开发、前端设计、科学计算及企业自动化等多个场景。

AI项目与工具 2025年06月12日 37 点赞 0 评论 712 浏览

ShowUI

ShowUI是一款由新加坡国立大学Show Lab与微软合作开发的视觉-语言-行动模型，旨在提升图形用户界面（GUI）助手的工作效率。该模型通过UI引导的视觉令牌选择、交错视觉-语言-行动流以及高质量数据集的运用，实现了高效的零样本截图定位和GUI自动化功能，广泛应用于网页自动化、移动应用测试、桌面软件自动化及游戏自动化等领域。

AI项目与工具 2025年06月12日 27 点赞 0 评论 711 浏览

AtomThink是一个由多所高校与企业联合研发的多模态数学推理框架，通过构建长链思维（CoT）引导多模态大型语言模型（MLLMs）进行复杂推理。它包含自动CoT注释引擎、原子步骤微调策略及多种搜索策略，旨在提升原子步骤质量并增强MLLMs的推理能力。AtomThink提出的大规模多模态数据集AtomMATH及其评估方法为模型训练和测试提供了重要支持，广泛应用于教育辅助、自动化测试、学术研究等领域

AI项目与工具 2025年06月12日 62 点赞 0 评论 709 浏览

LHM

LHM是由阿里巴巴通义实验室推出的3D人体模型重建系统，能从单张图像快速生成高质量、可动画化的3D人体模型。基于多模态Transformer架构，融合3D几何与2D图像信息，保留服装与面部细节，并采用3D高斯点云表示方式，支持实时渲染和姿态控制。适用于AR/VR、游戏开发、影视制作及教育等多个领域，具备高保真、强泛化和低延迟等优势。

AI项目与工具 2025年06月12日 93 点赞 0 评论 708 浏览

Codex CLI

Codex CLI 是一款基于 OpenAI 模型的轻量级 AI 编程工具，支持通过自然语言指令生成代码、执行文件操作、进行数据库迁移等。它具备代码重构、测试生成、解读及多模态处理能力，适用于开发者在终端中高效完成多种编程任务。工具兼容主流操作系统，提供安全的沙盒执行环境，并支持个性化配置。

AI项目与工具 2025年06月11日 14 点赞 0 评论 708 浏览

阿里翻译

阿里翻译是由阿里巴巴提供的多语种在线实时AI翻译网站，由阿里巴巴达摩院机器智能技术实验室提供技术支持，多语言多场景覆盖的智能翻译解决方案。

Ai办公效率 2025年06月05日 77 点赞 0 评论 706 浏览

优雅YOYA

优雅（YOYA）是中科闻歌推出的多模态文生视频平台，基于大语言模型和多模态技术，支持从脚本生成到视频剪辑的全流程自动化。用户仅需输入主题，即可快速生成高质量视频，并支持语音克隆、口型翻译、数字人等功能。平台还具备多模态素材智能剪辑能力，提升创作效率与可控性，适用于媒体、影视、企业宣传及教育等领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 705 浏览

VLOGGER

VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型，主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作，包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作，实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性，能够展示原始主体的不同动作和表情。此外，VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

AI项目与工具 2024年01月01日 12 点赞 0 评论 704 浏览

DualPipe

DualPipe是由DeepSeek开发的开源双向流水线并行技术，通过将前向和反向计算分离为独立管道并行执行，显著提升大规模深度学习模型的训练效率。该技术优化了计算与通信的重叠，降低内存峰值，提高资源利用率，并支持多模态处理、多任务学习等应用场景。适用于需要高效训练和推理的AI系统。

AI项目与工具 2025年06月12日 92 点赞 0 评论 702 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期