视觉感知 - 智狐AI导航

Free Video

Free Video-LLM是一种无需训练的高效视频语言模型，基于提示引导的视觉感知技术，可直接对视频内容进行理解和推理，适用于视频问答、内容分析等多种场景。通过时空采样优化和减少视觉标记，它在保持高性能的同时显著降低了计算复杂度。

AI项目与工具 2025年06月12日 50 点赞 0 评论 524 浏览

Mobile

Mobile-Agent 是一种具备移动能力的智能代理系统，能够跨设备执行任务并优化资源使用。基于多模态大语言模型和视觉感知技术，支持自动操作、自我规划与反思，适用于多应用协同、跨平台操作及纯视觉交互。其技术架构包含多个智能体协作机制，提升了移动设备任务处理的效率与灵活性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 540 浏览

RoboBrain

RoboBrain是由智源研究院开发的开源具身大脑模型，支持任务规划、可操作区域感知和轨迹预测等功能。其基于LLaVA框架，采用多阶段训练策略，具备高分辨率图像处理和长历史帧记忆能力。适用于多机器人协作、复杂任务执行及实时优化场景，依托ShareRobot数据集提升模型性能，广泛应用于机器人操作领域。

AI项目与工具 2025年06月12日 78 点赞 0 评论 684 浏览

Scenethesis

Scenethesis是NVIDIA推出的AI框架，可通过文本生成高质量的3D场景。它结合LLM与视觉技术，经过布局规划、视觉细化、物理优化和场景验证四个阶段，确保生成结果具备物理合理性和空间连贯性。支持用户交互与多样化场景构建，广泛应用于VR/AR、游戏开发、具身智能及虚拟内容创作等领域。

AI项目与工具 2025年06月11日 13 点赞 0 评论 817 浏览

TrackVLA

TrackVLA是银河通用推出的端到端导航大模型，具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障，并根据自然语言指令识别和跟踪目标对象。无需提前建图，适用于多种场景，如陪伴服务、安防巡逻、物流配送等，为具身智能商业化提供支撑，推动机器人走向日常生活。

AI项目与工具 2025年06月11日 79 点赞 0 评论 847 浏览

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间，实现从粗粒度到细粒度的信息获取，并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理，具备良好的可扩展性，适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 887 浏览

Make-A-Character

创新的3D角色生成框架，它通过文本描述快速创建逼真的3D角色，具有高度的定制性和逼真度。它结合了最新的人工智能技术，提供了一个直观、灵活且高效的角色创建解决方案，适用于多...

Ai平台模型 2026年06月30日 0 点赞 0 评论 877 浏览

肇观电子

让残障人士在内的每个人都生活的更好

创作工具 2026年06月30日 0 点赞 0 评论 637 浏览

视觉感知

首页

视觉感知

列表

默认

浏览次数

发布日期