定位 - 智狐AI导航

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型，支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构，采用序列到序列学习方法，利用自注意力机制实现多模态信息融合。通过训练大规模数据集，Florence-2在多个应用场景中表现出色，包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

AI项目与工具 2025年06月12日 67 点赞 0 评论 337 浏览

天壤万卷

天壤万卷是一款基于AI的文档处理工具，支持多格式文档（含超大文件和扫描件）的处理。其核心功能包括混合检索、跨语言问答、精准定位和溯源答案，同时配备表格、图像、公式识别等实用工具及行业模板，适用于法律、学术、金融等多个领域。

AI项目与工具 2025年06月12日 24 点赞 0 评论 695 浏览

DynaMem

DynaMem是一款由纽约大学与Hello Robot共同研发的动态空间语义记忆系统，旨在应对开放环境下的移动操作挑战。该系统通过构建特征点云来存储环境信息，并利用RGBD观测数据动态调整记忆库。它支持文本查询定位物体，同时具备强大的动态物体处理能力，广泛应用于家庭、工业、仓储管理以及灾难救援等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 570 浏览

ShowUI

ShowUI是一款由新加坡国立大学Show Lab与微软合作开发的视觉-语言-行动模型，旨在提升图形用户界面（GUI）助手的工作效率。该模型通过UI引导的视觉令牌选择、交错视觉-语言-行动流以及高质量数据集的运用，实现了高效的零样本截图定位和GUI自动化功能，广泛应用于网页自动化、移动应用测试、桌面软件自动化及游戏自动化等领域。

AI项目与工具 2025年06月12日 27 点赞 0 评论 617 浏览

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型，通过“扩展-压缩”策略优化处理高分辨率图像和长视频，兼具效率与准确性。它在图像和视频基准测试中表现优异，支持时间定位、机器人导航和医疗成像等应用场景，并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

AI项目与工具 2025年06月12日 68 点赞 0 评论 659 浏览

豆包视觉理解模型

豆包视觉理解模型是一款集视觉识别、理解推理和复杂逻辑计算于一体的先进AI工具。它具备强大的视觉定位能力，支持多目标、小目标和3D定位，并能识别物体的类别、形状、纹理等属性，理解物体间的关系和场景含义。此外，模型在视频理解方面表现出色，能够进行记忆、总结、速度感知和长视频分析。凭借其高效性和成本优势，该模型广泛应用于图片问答、医疗影像分析、教育科研、电商零售及内容审核等领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 448 浏览

PC Agent

PC Agent是一款基于人工智能的多功能系统，通过模拟人类认知过程，实现复杂数字任务的自动化处理，包括文档编辑、数据分析、项目管理和客户服务等。它采用多智能体系统架构，结合PC Tracker采集的人机交互数据，利用两阶段认知完成流程生成富含认知信息的轨迹，从而支持高效的决策制定与任务执行。

AI项目与工具 2025年06月12日 28 点赞 0 评论 389 浏览

Browser Use

Browser Use是一款基于大语言模型的智能浏览器工具，支持多标签页管理和视觉识别，可提取网页内容并记录操作步骤。它允许开发者自定义动作，如保存文件或推送至数据库，并兼容多种主流LLM模型，具备并行运行和自我修正能力，旨在提升任务执行效率与准确性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 497 浏览

Picarta

Picarta是一款基于AI技术的图像位置识别工具，可自动分析照片并提供地理信息，支持旅行照片整理、摄影管理、新闻验证和历史研究等功能。平台注重隐私保护，提供多样化的服务模式，满足个人和企业用户的需求。

AI项目与工具 2025年06月12日 84 点赞 0 评论 739 浏览

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台，集成了指令优化的多模态大型语言模型（MLLM）及一系列定制化医疗工具，支持多种医学成像模式（如MRI、CT、X射线等），可高效处理视觉问答、分类、定位、分割、医学报告生成（MRG）及检索增强生成（RAG）等任务，显著提升了医疗数据处理效率与准确性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 395 浏览

定位

首页

定位

列表

默认

浏览次数

发布日期