开源 - 智狐AI导航

Computer Use OOTB

Computer Use OOTB 是一款基于开源框架的 GUI 自动化工具，支持跨平台操作与远程控制，借助 Claude 3.5 Computer Use API 实现从用户指令到桌面操作的端到端自动化。其核心技术包括实时视觉信息处理、历史上下文维护及动态反馈机制，适用于远程办公、自动化测试、教育培训、家庭自动化及游戏辅助等多种场景。

AI项目与工具 2025年06月12日 21 点赞 0 评论 610 浏览

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集，包含4300万条样本，涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量，并采用合成数据生成技术扩展数据集规模。基于此数据集，智源研究院训练出了20亿参数的Aquila-VL-2B模型，在多项基准测试中表现出色，推动了多模态AI领域的研究与发展。

AI项目与工具 2025年06月12日 87 点赞 0 评论 610 浏览

SmolVLM是一款由Hugging Face开发的轻量级视觉语言模型，专为设备端推理设计。该模型具有三个版本，包括SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct，分别适用于不同的应用场景。SmolVLM借鉴了Idefics3的理念，采用SmolLM2 1.7B作为语言主干，并通过像素混洗技术提升视觉信息的压缩效率。其训练数据集包括Cauldron和

AI项目与工具 2025年06月12日 62 点赞 0 评论 612 浏览

易魔声EmotiVoice

易魔声EmotiVoice是一个强大的开源TTS引擎，支持中英文双语，包含2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

Ai开源项目 2025年06月05日 27 点赞 0 评论 613 浏览

Chalk.ist

一款由Idered打造的开源代码截图工具，帮助开发者将代码生成为美观的图片，用户只需粘贴代码，选择主题和样式，就能快速创建美观的代码截图，支持多种编程语言。

图片处理 2025年06月05日 93 点赞 0 评论 613 浏览

LosslessCut

LosslessCut 是一款基于 FFmpeg 的开源视频编辑工具，支持无损剪辑、合并、格式转换及多轨道编辑等功能。它通过直接操作数据流避免重新编码，保持视频质量，适用于家庭用户、视频创作者及专业人士。该工具提供了高分辨率截图、智能剪辑及多种接口支持，能够高效处理各类视频文件。

AI项目与工具 2025年06月12日 15 点赞 0 评论 614 浏览

Stable Diffusion 3.5

Stable Diffusion 3.5是一套由Stability AI开发的先进AI图像生成模型，包含多个版本以适应不同需求。它具备高定制性、高效的消费级硬件运行能力和开源许可，能够生成高质量、多样化的图像，支持多种风格和肤色表现。其核心技术基于多模态学习和优化的架构，适用于艺术创作、游戏开发、广告设计等多个领域。 ---

AI项目与工具 2025年06月12日 75 点赞 0 评论 614 浏览

Coco AI

INFINI Labs 开发的一款开源、跨平台的统一AI搜索工具。它能够连接并搜索多种数据源，包括本地应用程序、文件以及云端平台如 Google Drive、Notion、语雀和 Hugo 等。

AI搜索问答 2025年06月05日 25 点赞 0 评论 614 浏览

Hibiki

Hibiki是一款由Kyutai Labs开发的开源语音翻译解码器，支持实时语音到语音（S2ST）和语音到文本（S2TT）的翻译。其基于多流语言模型架构，结合弱监督学习和上下文对齐技术，实现低延迟、高保真度的翻译效果。适用于国际会议、在线教育、旅游、新闻采访及客户服务等场景，具备良好的实用性和可扩展性。

AI项目与工具 2025年06月12日 31 点赞 0 评论 615 浏览

MyShell

MyShell是一个全面的AI应用开发平台，提供了经典、开发和无代码三种模式，适合各种技能水平的用户。该平台支持创建AI原生应用，并通过AI代理商店提供多模态应用，涵盖效率工具、教育应用、游戏和客户服务等多个领域。平台还设有激励机制，鼓励创作者和用户参与，同时倡导使用开源模型，确保创作者和用户能够公平地分享收益。

AI项目与工具 2025年06月12日 97 点赞 0 评论 615 浏览

开源

首页

开源

列表

默认

浏览次数

发布日期