开源 - 智狐AI导航

Subtitle Edit

Subtitle Edit 是一款免费开源的多功能字幕编辑器，支持超过300种字幕格式。它具备字幕同步、创建、翻译、音频波形可视化、视频播放、AI语音识别、AI自动翻译和OCR技术等功能，适用于影视后期、多语言内容创作、教育培训及辅助听力障碍者等场景。其界面友好，操作简便。

AI项目与工具 2025年06月12日 61 点赞 0 评论 686 浏览

VisActor

一种源自字节跳动的众多可视化场景的数据可视化解决方案。VisActor不仅涵盖了传统的可视化场景，还特别强调叙事可视化和智能可视化。

Ai编程建站 2025年06月05日 21 点赞 0 评论 685 浏览

Orpheus TTS

Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统，支持自然、富有情感的语音生成。具备零样本语音克隆能力，无需预训练即可模仿特定语音，延迟低至 200 毫秒，适合实时应用。支持多种语音风格和情感控制，适用于有声读物、虚拟助手、游戏、教育等多个领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 684 浏览

Ev

Ev-DeblurVSR是一款由多所高校联合开发的视频增强模型，利用事件相机数据提升视频去模糊和超分辨率效果。通过互惠特征去模糊模块和混合可变形对齐模块，实现高精度视频恢复。适用于监控、体育、自动驾驶等多个领域，支持快速部署与研究。

AI项目与工具 2025年06月11日 52 点赞 0 评论 682 浏览

PsycoLLM

PsycoLLM是由合肥工业大学研发的中文心理大模型，基于高质量心理数据集训练，具备精准理解心理问题、多轮对话交互、情绪识别与支持、心理健康评估等功能。其技术融合了多步数据优化、监督微调和Transformer架构，适用于个人心理支持、心理咨询、教育及社区服务等场景，为心理健康领域提供专业、高效的技术解决方案。

AI项目与工具 2025年06月12日 48 点赞 0 评论 682 浏览

Hunyuan3D 2.0

Hunyuan3D 2.0是腾讯推出的3D资产生成系统，支持从文本和图像生成高分辨率3D模型。系统采用两阶段生成流程，包含几何生成与纹理合成两个核心模块，具备高精度、高质量输出能力。支持多平台使用，涵盖游戏开发、UGC创作、电商、工业设计等多个应用场景，并提供多个开源模型供研究与开发使用。

AI项目与工具 2025年06月12日 89 点赞 0 评论 682 浏览

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型，基于 Qwen2.5-VL 架构，结合强化学习优化技术，具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析，支持自然语言指令定位图像目标，并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 679 浏览

QwQ

QwQ-32B-Preview是一款由阿里巴巴开发的开源AI推理模型，具有325亿参数，擅长处理数学与编程领域的复杂任务。它能在多个基准测试中超越同类产品，并提供透明化的推理流程。然而，该模型在语言切换及跨领域应用上存在一定局限性。

AI项目与工具 2025年06月12日 99 点赞 0 评论 679 浏览

MinerU

MinerU是一款开源智能数据提取工具，专注于复杂PDF文档的高效解析与提取。它能够将包含多种内容类型的PDF文档转换为结构化的Markdown格式，支持图像、公式、表格和文本等多种内容处理，保留原始文档结构和格式，支持公式识别与转换成LaTeX格式，自动删除页眉、页脚、脚注和页码等非内容元素，适用于学术、财务、法律等多个领域。

AI项目与工具 2025年06月12日 92 点赞 0 评论 678 浏览

Voice

Voice-Pro是一款开源的多功能音频处理工具，集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等功能，支持超过100种语言，广泛应用于教育、娱乐和商业领域，显著提升音频处理效率和便捷性。

AI项目与工具 2025年06月12日 33 点赞 0 评论 678 浏览

开源

首页

开源

列表

默认

浏览次数

发布日期