定位 - 智狐AI导航

Browser Use

Browser Use是一款基于大语言模型的智能浏览器工具，支持多标签页管理和视觉识别，可提取网页内容并记录操作步骤。它允许开发者自定义动作，如保存文件或推送至数据库，并兼容多种主流LLM模型，具备并行运行和自我修正能力，旨在提升任务执行效率与准确性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 676 浏览

PC Agent

PC Agent是一款基于人工智能的多功能系统，通过模拟人类认知过程，实现复杂数字任务的自动化处理，包括文档编辑、数据分析、项目管理和客户服务等。它采用多智能体系统架构，结合PC Tracker采集的人机交互数据，利用两阶段认知完成流程生成富含认知信息的轨迹，从而支持高效的决策制定与任务执行。

AI项目与工具 2025年06月12日 28 点赞 0 评论 573 浏览

豆包视觉理解模型

豆包视觉理解模型是一款集视觉识别、理解推理和复杂逻辑计算于一体的先进AI工具。它具备强大的视觉定位能力，支持多目标、小目标和3D定位，并能识别物体的类别、形状、纹理等属性，理解物体间的关系和场景含义。此外，模型在视频理解方面表现出色，能够进行记忆、总结、速度感知和长视频分析。凭借其高效性和成本优势，该模型广泛应用于图片问答、医疗影像分析、教育科研、电商零售及内容审核等领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 644 浏览

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型，通过“扩展-压缩”策略优化处理高分辨率图像和长视频，兼具效率与准确性。它在图像和视频基准测试中表现优异，支持时间定位、机器人导航和医疗成像等应用场景，并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

AI项目与工具 2025年06月12日 68 点赞 0 评论 833 浏览

ShowUI

ShowUI是一款由新加坡国立大学Show Lab与微软合作开发的视觉-语言-行动模型，旨在提升图形用户界面（GUI）助手的工作效率。该模型通过UI引导的视觉令牌选择、交错视觉-语言-行动流以及高质量数据集的运用，实现了高效的零样本截图定位和GUI自动化功能，广泛应用于网页自动化、移动应用测试、桌面软件自动化及游戏自动化等领域。

AI项目与工具 2025年06月12日 27 点赞 0 评论 789 浏览

DynaMem

DynaMem是一款由纽约大学与Hello Robot共同研发的动态空间语义记忆系统，旨在应对开放环境下的移动操作挑战。该系统通过构建特征点云来存储环境信息，并利用RGBD观测数据动态调整记忆库。它支持文本查询定位物体，同时具备强大的动态物体处理能力，广泛应用于家庭、工业、仓储管理以及灾难救援等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 744 浏览

天壤万卷

天壤万卷是一款基于AI的文档处理工具，支持多格式文档（含超大文件和扫描件）的处理。其核心功能包括混合检索、跨语言问答、精准定位和溯源答案，同时配备表格、图像、公式识别等实用工具及行业模板，适用于法律、学术、金融等多个领域。

AI项目与工具 2025年06月12日 24 点赞 0 评论 891 浏览

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型，支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构，采用序列到序列学习方法，利用自注意力机制实现多模态信息融合。通过训练大规模数据集，Florence-2在多个应用场景中表现出色，包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

AI项目与工具 2025年06月12日 67 点赞 0 评论 538 浏览

Cascadeur

Cascadeur是一款独立的3D动画软件，它通过AI辅助和物理工具简化关键帧动画的创建过程，同时还能清理和编辑任何导入的动画。它支持.FBX、.DAE和.USD文件格式，易于集成到任何动画工...

Ai视频生成 2026年06月30日 0 点赞 0 评论 354 浏览

Depth Anything

强大的单目深度估计工具，它通过利用大规模未标注数据和先进的数据增强技术，实现了在多种复杂环境下的准确深度预测。其多任务学习和语义辅助功能使其在多个领域都有广泛的应用潜力。

Ai平台模型 2026年06月30日 0 点赞 0 评论 400 浏览

定位

首页

定位

列表

默认

浏览次数

发布日期