视觉识别 - 智狐AI导航

Lobe Chat

Lobe Chat 是一个免费开源的高性能 AI 聊天机器人框架，具备多种功能，如 GPT-4 视觉识别、文字语音转换、灵活的插件系统及个性化主题模式。用户能够轻松部署和扩展功能，适用于各种场景。该框架已在 GitHub 上获得近 14K 星标，展示了其受欢迎程度和实用性。

AI项目与工具 2025年06月12日 82 点赞 0 评论 927 浏览

LobeChat

一个开源、高性能的聊天机器人框架，支持语音合成、多模态和可扩展（函数调用）插件系统。支持一键免费部署您的私人 ChatGPT/LLM Web 应用程序。

AI写作对话 2025年06月05日 37 点赞 0 评论 917 浏览

Finedefics

Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型，专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述，结合对比学习方法，实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色，准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。

AI项目与工具 2025年06月12日 10 点赞 0 评论 822 浏览

Hysli AI

AI艺术二维码生成，可生成最不像二维码的二维码

Ai绘画生成 2026年06月27日 0 点赞 0 评论 816 浏览

理想同学

理想同学是一款基于AI技术打造的智能助手，集成了知识问答、视觉识别、绘画创作和播客等多种功能。它支持多领域的信息查询、语言翻译、文本生成及视觉分析，通过跨平台协作实现数据同步与连续对话。此外，用户可根据需求选择不同模型以优化推理能力，广泛适用于日常生活、学习和工作场景。

AI项目与工具 2025年06月12日 96 点赞 0 评论 810 浏览

Open Computer Agent

Open Computer Agent 是一款基于云端的 AI 工具，支持在 Linux 虚拟机中运行，能通过自然语言指令完成多种任务。结合视觉模型实现界面元素识别与交互，具备任务自动化、多任务处理能力，并提供云托管服务，适用于办公、教育、数据收集等场景。

AI项目与工具 2025年06月11日 35 点赞 0 评论 782 浏览

知存科技

专注研发基于存算一体先进技术的人工智能芯片

创作工具 2026年06月27日 0 点赞 0 评论 779 浏览

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型，支持图像与语音的自然交互。它基于Moshi 7B架构，集成了视觉编码器和跨注意力机制，实现低延迟、自然流畅的对话体验。支持多种后端部署，适用于无障碍应用、智能家居、教育及工业场景，提升人机交互的智能化水平。

AI项目与工具 2025年06月12日 72 点赞 0 评论 757 浏览

ConceptMaster

ConceptMaster是一款基于扩散Transformer模型的多概念视频生成框架，可在无需测试调优的情况下生成高质量、概念一致的视频。通过解耦多概念嵌入并独立注入模型，有效解决身份解耦问题，尤其擅长处理高度相似的视觉概念。该工具支持多概念视频定制、高质量数据收集和全面的基准测试，适用于视频创作、动画制作、游戏开发及产品展示等领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 645 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 644 浏览

视觉识别

首页

视觉识别

列表

默认

浏览次数

发布日期