视觉识别 - 智狐AI导航

Screenshot to Code

无论是在线使用还是本地部署，它都为用户提供了灵活、高效的代码生成解决方案。此外，通过提供编辑功能和代码导出，它满足了用户对代码调整和个性化的需求。

Ai平台模型 1970年01月01日 0 点赞 0 评论 279 浏览

小爱同学 AI 助手

小爱同学 AI 助手是一款功能全面、智能化程度高的多模态AI助手。它不仅能够提供丰富的信息查询和知识问答服务，还能通过智能分析和建议，帮助用户更高效地规划生活和工作。

创作工具 1970年01月01日 0 点赞 0 评论 423 浏览

知存科技

专注研发基于存算一体先进技术的人工智能芯片

创作工具 1970年01月01日 0 点赞 0 评论 722 浏览

Hysli AI

AI艺术二维码生成，可生成最不像二维码的二维码

Ai绘画生成 1970年01月01日 0 点赞 0 评论 737 浏览

LobeChat

一个开源、高性能的聊天机器人框架，支持语音合成、多模态和可扩展（函数调用）插件系统。支持一键免费部署您的私人 ChatGPT/LLM Web 应用程序。

AI写作对话 2025年06月05日 37 点赞 0 评论 823 浏览

LogomakerrAI

Logomakerr.AI 是一个帮助初创公司和小企业主获得完美且负担得起的logo设计以完成其品牌的平台。

Ai图片处理 2025年06月05日 30 点赞 0 评论 590 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 570 浏览

Open Computer Agent

Open Computer Agent 是一款基于云端的 AI 工具，支持在 Linux 虚拟机中运行，能通过自然语言指令完成多种任务。结合视觉模型实现界面元素识别与交互，具备任务自动化、多任务处理能力，并提供云托管服务，适用于办公、教育、数据收集等场景。

AI项目与工具 2025年06月11日 35 点赞 0 评论 712 浏览

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型，支持图像与语音的自然交互。它基于Moshi 7B架构，集成了视觉编码器和跨注意力机制，实现低延迟、自然流畅的对话体验。支持多种后端部署，适用于无障碍应用、智能家居、教育及工业场景，提升人机交互的智能化水平。

AI项目与工具 2025年06月12日 72 点赞 0 评论 675 浏览

Finedefics

Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型，专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述，结合对比学习方法，实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色，准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。

AI项目与工具 2025年06月12日 10 点赞 0 评论 740 浏览

视觉识别

首页

视觉识别

列表

默认

浏览次数

发布日期