多模态 - 智狐AI导航

Jodi

Jodi是由中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架，基于联合建模图像域和多个标签域，实现视觉生成与理解的统一。它支持联合生成、可控生成和图像感知三种任务，利用线性扩散Transformer和角色切换机制，提升生成效率和跨领域一致性。Jodi使用Joint-1.6M数据集进行训练，包含20万张高质量图像和7个视觉域标签，适用于创意内容生成、多模态数据增强、图像编辑与修复等场景。

AI项目与工具 2025年06月11日 32 点赞 0 评论 840 浏览

AtomThink是一个由多所高校与企业联合研发的多模态数学推理框架，通过构建长链思维（CoT）引导多模态大型语言模型（MLLMs）进行复杂推理。它包含自动CoT注释引擎、原子步骤微调策略及多种搜索策略，旨在提升原子步骤质量并增强MLLMs的推理能力。AtomThink提出的大规模多模态数据集AtomMATH及其评估方法为模型训练和测试提供了重要支持，广泛应用于教育辅助、自动化测试、学术研究等领域

AI项目与工具 2025年06月12日 62 点赞 0 评论 840 浏览

SimpleAR

SimpleAR是一款由复旦大学与字节跳动联合研发的纯自回归图像生成模型，采用简洁架构实现高质量图像生成。其通过“预训练-有监督微调-强化学习”三阶段训练方法，提升文本跟随能力与生成效果。支持文本到图像及多模态融合生成，兼容加速技术，推理速度快。适用于创意设计、虚拟场景构建、多模态翻译、AR/VR等多个领域。

AI项目与工具 2025年06月11日 76 点赞 0 评论 840 浏览

DualPipe

DualPipe是由DeepSeek开发的开源双向流水线并行技术，通过将前向和反向计算分离为独立管道并行执行，显著提升大规模深度学习模型的训练效率。该技术优化了计算与通信的重叠，降低内存峰值，提高资源利用率，并支持多模态处理、多任务学习等应用场景。适用于需要高效训练和推理的AI系统。

AI项目与工具 2025年06月12日 92 点赞 0 评论 841 浏览

GCDance

GCDance是一款由英国萨里大学与江南大学联合开发的3D舞蹈生成框架，可根据音乐和文本提示生成风格可控的全身舞蹈序列。它结合多粒度音乐特征融合与CLIP模型文本嵌入技术，实现舞蹈动作与音乐节奏的高度同步。支持多种舞蹈风格生成、局部编辑及高质量全身动作输出，适用于VR、游戏开发、舞蹈教学等场景。

AI项目与工具 2025年06月12日 36 点赞 0 评论 841 浏览

ChatEDU

多模态教育工具，通过借助生成式 AI成为学生的 “第二大脑”。提供包括知识图谱、动态知识档案和任务型学习代理三大核心功能。

教育学习 2025年06月05日 10 点赞 0 评论 841 浏览

Claude 3.7 Sonnet

Claude 3.7 Sonnet 是由 Anthropic 推出的混合推理模型，支持标准模式与扩展思考模式，适用于复杂任务处理和日常交互。其在数学、物理、编程等领域表现卓越，尤其在代码生成与理解方面领先。模型优化了安全性，减少误拒率，并支持多平台接入。适用于软件开发、前端设计、科学计算及企业自动化等多个场景。

AI项目与工具 2025年06月12日 37 点赞 0 评论 844 浏览

阿帕斯大模型

阿帕斯大模型是APUS公司推出的以人工智能技术为核心的多模态大模型，它通过提供行业定制化的AI解决方案和创意工具，致力于帮助全球用户实现更优质的移动互联网使用体验和创造个性...

创作工具 2026年07月28日 0 点赞 0 评论 844 浏览

达闼RobotGPT多模态大模型

达闼RobotGPT多模态大模型是一个创新的AI工具，它通过整合多模态数据处理能力，为机器人在多样化的应用场景中提供了强大的交互和行为生成能力。

创作工具 2026年07月28日 0 点赞 0 评论 845 浏览

Granite 3.2

Granite 3.2是IBM推出的开源多模态AI模型系列，具备强大的推理、视觉理解和预测能力。其核心功能包括链式推理、多模态融合、稀疏嵌入和时间序列预测，适用于复杂任务自动化、文档理解、安全监控等领域。Granite 3.2通过优化资源利用和安全性设计，提升了模型性能与实用性。

AI项目与工具 2025年06月12日 68 点赞 0 评论 846 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期