视觉识别 - 智狐AI导航

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 570 浏览

豆包视觉理解模型

豆包视觉理解模型是一款集视觉识别、理解推理和复杂逻辑计算于一体的先进AI工具。它具备强大的视觉定位能力，支持多目标、小目标和3D定位，并能识别物体的类别、形状、纹理等属性，理解物体间的关系和场景含义。此外，模型在视频理解方面表现出色，能够进行记忆、总结、速度感知和长视频分析。凭借其高效性和成本优势，该模型广泛应用于图片问答、医疗影像分析、教育科研、电商零售及内容审核等领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 562 浏览

小爱同学 AI 助手

小爱同学 AI 助手是一款功能全面、智能化程度高的多模态AI助手。它不仅能够提供丰富的信息查询和知识问答服务，还能通过智能分析和建议，帮助用户更高效地规划生活和工作。

创作工具 1970年01月01日 0 点赞 0 评论 420 浏览

Screenshot to Code

无论是在线使用还是本地部署，它都为用户提供了灵活、高效的代码生成解决方案。此外，通过提供编辑功能和代码导出，它满足了用户对代码调整和个性化的需求。

Ai平台模型 1970年01月01日 0 点赞 0 评论 279 浏览

视觉识别

首页

视觉识别

列表

默认

浏览次数

发布日期

CoGenAV

豆包视觉理解模型

小爱同学 AI 助手

Screenshot to Code

视觉识别 首页 视觉识别

列表 默认 浏览次数 发布日期

CoGenAV

豆包视觉理解模型

小爱同学 AI 助手

Screenshot to Code

视觉识别

首页

视觉识别

列表

默认

浏览次数

发布日期