深度学习 - 智狐AI导航

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型，具备强大的文本与图像理解能力，包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法，实现了从1B到30B参数规模的性能提升，并推出了视频和移动UI专用版本，为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 750 浏览

clone

Clone-Voice是一款基于深度学习的声音克隆工具，支持16种语言的文本转语音及声音风格转换，具有友好的操作界面和较低的硬件要求。它被广泛应用于视频制作、语言学习、有声出版物创作、广告宣传及游戏开发等领域，为用户提供多样化的个性化声音解决方案。

AI项目与工具 2025年06月12日 18 点赞 0 评论 749 浏览

BEN2

BEN2是一款由Prama LLC开发的深度学习图像和视频处理工具，专注于高效、精准的背景移除与前景分割。采用置信度引导抠图技术，可处理复杂细节，如头发和边缘，确保高精度分割。支持4K图像处理，具备GPU加速功能，适用于图像编辑、视频剪辑及批量处理等多种应用场景。

AI项目与工具 2025年06月12日 60 点赞 0 评论 748 浏览

Pollinations.AI

Pollinations.AI是一个开源AI内容生成平台，提供图像生成、文本生成、音频转换及视觉分析等功能。用户无需注册即可使用，支持多种模型和参数配置，适合开发者和创作者快速集成与应用。平台还提供浏览器开发环境，简化了使用流程，提升了效率。

AI项目与工具 2025年06月11日 50 点赞 0 评论 747 浏览

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型，基于大规模网络图像数据训练，无需语言监督即可学习有效视觉表示。其包含多个变体，参数规模从3亿到70亿不等，在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据，显著提升特定任务性能。模型具备良好的扩展性，适用于智能客服、文档处理、医疗影像分析等多个领域。

AI项目与工具 2025年06月11日 92 点赞 0 评论 744 浏览

DeepFaceLab

DeepFaceLab 是一种利用深度学习识别来交换图片和视频中的人脸的工具。

Ai开源项目 2025年06月05日 59 点赞 0 评论 743 浏览

Web2GPT

Web2GPT 是一款由长亭科技推出的智能工具，可将传统网站快速转化为功能完善的 AI 应用。它支持自然语言交互、多轮对话和个性化服务，具备强大的安全性和多平台集成能力。用户可通过一键转化、智能问答、智能操作等功能快速部署 AI 助手，广泛应用于客服、教育、金融等领域。工具支持自动学习、内容采集与知识库构建，简化了 AI 应用的开发流程，提升了用户体验和运营效率。

AI项目与工具 2025年06月11日 59 点赞 0 评论 741 浏览

Sonic

Sonic是由腾讯与浙江大学联合开发的音频驱动肖像动画框架，基于音频信号生成逼真面部表情和动作。它通过上下文增强音频学习和运动解耦控制器，提升唇部同步精度与运动多样性。Sonic在长视频生成中表现出色，具备高稳定性与自然连贯性，支持用户自定义参数。适用于虚拟现实、影视制作、在线教育、游戏开发和社交媒体等多个领域。

AI项目与工具 2025年06月12日 67 点赞 0 评论 739 浏览

Fish Agent

Fish Agent是一款集成了自动语音识别（ASR）与文本到语音（TTS）技术的端到端语音处理工具，能够直接实现语音到语音的转换，无需传统语义编码器/解码器。它支持多种语言，适用于语音转换、环境音频信息捕捉等场景，并基于深度学习技术优化了语音处理性能。Fish Agent可广泛应用于内容创作、教育、客户服务及娱乐等领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 739 浏览

Finedefics

Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型，专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述，结合对比学习方法，实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色，准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。

AI项目与工具 2025年06月12日 10 点赞 0 评论 739 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期