图像识别

KaChiKa

KaChiKa是一款基于AI图像识别的日语学习工具,用户可通过拍照或上传图片获取相关日语词汇和句子,并配有标准发音功能。支持本地存储学习卡片,方便复习,适用于日常生活、旅行、复习及语言实践等多种场景,提升学习效率与实用性。

GeoSpy

GeoSpy是一款基于AI技术的照片地理定位工具,可准确识别照片拍摄位置并输出经纬度坐标。它支持批量处理、地图集成和API接口,适用于研究、执法、新闻核实等多种场景,帮助用户深入挖掘图像背后的地理信息。

EasyAnimate

EasyAnimate是一款由阿里巴巴研发的AI视频生成工具,支持通过文本或图片生成视频。用户可以上传图片作为视频的起始和结束画面,增加视频编辑的灵活性。该工具最长可生成1分钟的视频,适用于内容创作、教育、营销等多个领域。用户可以通过简单的操作快速生成高质量的视频内容。

苏打办公

苏打办公是一款提供在线协作和办公工具的平台,拥有多项实用功能,帮助用户方便地进行团队协作、文件管理和项目管理。

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型,基于 Qwen2.5-VL 架构,结合强化学习优化技术,具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析,支持自然语言指令定位图像目标,并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型,通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练,支持多种参数规模,适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能,并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异,具备良好的可扩展性和零样本适应能力。

Gemini

Gemini是Google DeepMind推出的全新AI模型,集成了多模态推理功能,超越了以往模型的性能,适用于科学文献洞察、竞争性编程等多种应用场景。

Cal AI

Cal AI是一款基于AI技术的营养分析工具,通过图像识别技术分析食物的卡路里和营养成分。它支持多样的输入方式,包括拍照、条形码扫描和手动输入,并允许用户修正AI分析结果以提升准确性。Cal AI可生成个性化的饮食计划,适用于体重管理、健康饮食、健身规划及特殊人群如孕妇、哺乳期女性和糖尿病患者的营养需求。

MNN

MNN是一个由阿里巴巴开源的轻量级深度学习推理框架,支持多种模型格式和网络结构,具备高性能、低内存占用及跨平台特性。它通过模型量化、计算图优化和异构计算等技术,在移动设备和嵌入式系统中实现高效推理。主要功能涵盖模型转换、硬件加速、内存优化及多模型支持,广泛应用于图像识别、语音处理、智能家居及工业检测等领域。

Migician

Migician是一款由多所高校联合开发的多模态大语言模型,专为多图像定位任务设计。它基于大规模数据集MGrounding-630k,采用端到端架构和两阶段训练方法,支持跨图像精准定位与多任务处理。Migician适用于自动驾驶、安防监控、医疗影像等多个领域,具有高效的推理能力和灵活的输入方式。