模型 - 智狐AI导航

StochSync

StochSync是一种基于扩散同步（DS）和分数蒸馏采样（SDS）的图像生成技术，适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法，兼顾图像细节与连贯性，无需额外训练即可生成高质量图像。支持高分辨率输出，适用于复杂几何纹理化任务。

AI项目与工具 2025年06月12日 65 点赞 0 评论 676 浏览

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型，专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模，广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。

AI项目与工具 2025年06月12日 16 点赞 0 评论 676 浏览

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 676 浏览

OlympicArena

OlympicArena是由多所高校与研究机构联合开发的多学科认知推理基准测试框架，包含11,163道国际奥赛双语题目，覆盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。该平台通过答案级与过程级评估，全面衡量AI模型的逻辑与视觉推理能力，支持多模态输入并具备数据泄漏检测机制，适用于AI模型评估、训练优化、教育辅助及科研应用。

AI项目与工具 2025年06月12日 58 点赞 0 评论 675 浏览

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统，基于增强型视频大型语言模型，实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准，支持对象识别、关系分析、推理预测及多模态交互等功能，适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 675 浏览

SmolVLM是一款由Hugging Face开发的轻量级视觉语言模型，专为设备端推理设计。该模型具有三个版本，包括SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct，分别适用于不同的应用场景。SmolVLM借鉴了Idefics3的理念，采用SmolLM2 1.7B作为语言主干，并通过像素混洗技术提升视觉信息的压缩效率。其训练数据集包括Cauldron和

AI项目与工具 2025年06月12日 62 点赞 0 评论 675 浏览

RelightVid

RelightVid是一款基于时序一致性扩散模型的视频重照明工具，由多所高校和研究机构联合开发。它支持通过文本提示、背景视频或HDR环境贴图对视频进行细粒度和一致的场景编辑，具备全场景和前景保留重照明功能。该模型在预训练图像照明编辑框架基础上扩展，引入时序层提升视频重照明效果，并结合真实视频与3D渲染数据生成高质量数据对。RelightVid在保持时序一致性和照明细节方面表现突出，适用于影视制作、

AI项目与工具 2025年06月11日 53 点赞 0 评论 674 浏览

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型，擅长处理图像与文本信息，具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异，支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术，提升推理准确性与可解释性，适用于科研、教育、医疗及自动驾驶等场景。

AI项目与工具 2025年06月12日 92 点赞 0 评论 674 浏览

MovieDreamer

MovieDreamer是一个由浙江大学与阿里巴巴联合开发的AI视频生成框架，专为长视频设计。该框架结合自回归模型和扩散渲染技术，生成复杂的长视频内容。它支持多层次叙事一致性、高质量视觉渲染和多模态脚本，适用于电影预告片、VR叙事、教育视频和游戏内剧情等多种场景。

AI项目与工具 2025年06月12日 34 点赞 0 评论 673 浏览

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统，支持低延迟交互与多模态输入输出。系统采用模块化架构，允许灵活配置语音识别、语言模型和语音合成等组件，兼容本地与云服务。支持2D/3D数字人渲染，适用于客户服务、教育、娱乐及企业应用等多个场景，为开发者提供高效、灵活的AI对话解决方案。

AI项目与工具 2025年06月11日 81 点赞 0 评论 673 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期