LongDocURL LongDocURL是一个由中国科学院自动化研究所和阿里巴巴联合发布的多模态长文档理解基准数据集,包含2,325组问答对,覆盖33,000页文档,涉及20个子任务。该数据集专注于评估AI模型在长文档理解、数值推理、跨元素定位及多样化任务中的性能,支持文本、图像和表格等多种模式,具有高质量和多样性的特点。 AI项目与工具 2025年06月12日 26 点赞 0 评论 197 浏览
AddressCLIP AddressCLIP 是一种基于 CLIP 技术的端到端图像地理定位模型,由中科院自动化所与阿里云联合开发。它通过图像与地址文本对齐和地理匹配技术,实现街道级别的精确定位,无需依赖 GPS。模型在多个数据集上表现优异,适用于城市管理、社交媒体、旅游导航等多个场景,具备良好的灵活性和多模态结合潜力。 AI项目与工具 2025年06月12日 30 点赞 0 评论 203 浏览
GeoSpy GeoSpy是一款基于AI技术的照片地理定位工具,可准确识别照片拍摄位置并输出经纬度坐标。它支持批量处理、地图集成和API接口,适用于研究、执法、新闻核实等多种场景,帮助用户深入挖掘图像背后的地理信息。 AI项目与工具 2025年06月12日 54 点赞 0 评论 316 浏览
ProtGPS ProtGPS是一款由MIT与怀特黑德生物医学研究所开发的深度学习模型,用于预测蛋白质在细胞内的亚细胞定位。它基于Transformer架构,能准确识别蛋白质在12种不同亚细胞区域的分布,并支持设计特定定位的蛋白质序列。该工具还可分析致病突变对蛋白质定位的影响,为疾病机制研究、蛋白质工程和药物开发提供新思路。 AI项目与工具 2025年06月12日 60 点赞 0 评论 189 浏览
Migician Migician是一款由多所高校联合开发的多模态大语言模型,专为多图像定位任务设计。它基于大规模数据集MGrounding-630k,采用端到端架构和两阶段训练方法,支持跨图像精准定位与多任务处理。Migician适用于自动驾驶、安防监控、医疗影像等多个领域,具有高效的推理能力和灵活的输入方式。 AI项目与工具 2025年06月12日 90 点赞 0 评论 365 浏览
Linkeddit Linkeddit 是一款基于 AI 技术的 Reddit 数据分析工具,能够根据用户需求智能匹配潜在客户、合作伙伴或目标受众。它提供用户画像分析、多维度筛选、实时数据更新等功能,帮助用户精准定位高价值用户。适用于市场营销、创业拓展、社区运营等场景,支持数据导出和长期使用,提升目标群体识别效率。 AI项目与工具 2025年06月12日 55 点赞 0 评论 137 浏览
DCEdit DCEdit是一款基于双层控制机制的图像编辑工具,结合精确语义定位策略与视觉、文本自注意力优化,提升图像编辑的准确性和可控性。无需额外训练即可应用于现有扩散模型,支持复杂场景下的精细编辑任务,如对象替换、颜色调整等,适用于广告、影视、社交媒体等多个领域。 AI项目与工具 2025年06月12日 15 点赞 0 评论 114 浏览
LocAgent LocAgent是一款由多所高校联合开发的代码定位工具,通过构建代码库的图结构并结合大语言模型进行多跳推理,帮助开发者快速找到需修改的代码片段。支持多种开发任务,如错误修复、功能添加和性能优化,具备高效的搜索与定位能力,适用于大规模代码维护场景。 AI项目与工具 2025年06月12日 39 点赞 0 评论 456 浏览
MCA MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架,通过引入SAGI和SALQ注意力控制策略及主体定位模块,提升图像生成质量与一致性。支持零样本图像生成,适用于主体特征保持、背景一致性维护等多种任务,广泛应用于数字内容创作、广告设计、艺术创作等领域。 AI项目与工具 2025年06月11日 82 点赞 0 评论 127 浏览
DeepEyes DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型,基于端到端强化学习实现“用图思考”能力,无需依赖监督微调。它在推理过程中动态调用图像工具,增强对细节的感知与理解,在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能,适用于教育、医疗、交通、安防和工业等多个领域。 AI项目与工具 2025年06月11日 21 点赞 0 评论 128 浏览