视觉编码 - 智狐AI导航

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积（STC）连接器和音频分支，显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

AI项目与工具 2025年06月12日 50 点赞 0 评论 642 浏览

iDP3

iDP3是一种基于自我中心3D视觉表征的改进型人形机器人运动策略，由斯坦福大学等机构联合开发。它摒弃了对精确相机校准和点云分割的需求，具备出色的视图、对象及场景泛化能力，可高效适应未知环境。此外，其优化的视觉编码器和扩散模型进一步提高了学习和推理性能，在家庭、工业、医疗、搜救及教育等领域具有广泛应用潜力。

AI项目与工具 2025年06月12日 90 点赞 0 评论 573 浏览

UniToken

UniToken 是一种面向多模态理解与生成任务的自回归模型，结合了离散与连续视觉表示，实现对图像语义与细节的全面捕捉。它支持图文理解、图像生成、多模态对话、复杂指令执行等多种任务，并具备细粒度视觉处理能力。适用于内容创作、智能客服、教育、医疗及自动驾驶等多个领域。

AI项目与工具 2025年06月11日 67 点赞 0 评论 552 浏览

视觉编码

首页

视觉编码

列表

默认

浏览次数

发布日期

Video

iDP3

UniToken

视觉编码 首页 视觉编码

列表 默认 浏览次数 发布日期

Video

iDP3

UniToken

视觉编码

首页

视觉编码

列表

默认

浏览次数

发布日期