开源

LosslessCut

LosslessCut 是一款基于 FFmpeg 的开源视频编辑工具,支持无损剪辑、合并、格式转换及多轨道编辑等功能。它通过直接操作数据流避免重新编码,保持视频质量,适用于家庭用户、视频创作者及专业人士。该工具提供了高分辨率截图、智能剪辑及多种接口支持,能够高效处理各类视频文件。

Hibiki

Hibiki是一款由Kyutai Labs开发的开源语音翻译解码器,支持实时语音到语音(S2ST)和语音到文本(S2TT)的翻译。其基于多流语言模型架构,结合弱监督学习和上下文对齐技术,实现低延迟、高保真度的翻译效果。适用于国际会议、在线教育、旅游、新闻采访及客户服务等场景,具备良好的实用性和可扩展性。

MyShell

MyShell是一个全面的AI应用开发平台,提供了经典、开发和无代码三种模式,适合各种技能水平的用户。该平台支持创建AI原生应用,并通过AI代理商店提供多模态应用,涵盖效率工具、教育应用、游戏和客户服务等多个领域。平台还设有激励机制,鼓励创作者和用户参与,同时倡导使用开源模型,确保创作者和用户能够公平地分享收益。

易魔声EmotiVoice

易魔声EmotiVoice是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

SmolVLM

SmolVLM是一款由Hugging Face开发的轻量级视觉语言模型,专为设备端推理设计。该模型具有三个版本,包括SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct,分别适用于不同的应用场景。SmolVLM借鉴了Idefics3的理念,采用SmolLM2 1.7B作为语言主干,并通过像素混洗技术提升视觉信息的压缩效率。其训练数据集包括Cauldron和

Chalk.ist

一款由Idered打造的开源代码截图工具,帮助开发者将代码生成为美观的图片,用户只需粘贴代码,选择主题和样式,就能快速创建美观的代码截图,支持多种编程语言。

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集,包含4300万条样本,涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量,并采用合成数据生成技术扩展数据集规模。基于此数据集,智源研究院训练出了20亿参数的Aquila-VL-2B模型,在多项基准测试中表现出色,推动了多模态AI领域的研究与发展。

Computer Use OOTB

Computer Use OOTB 是一款基于开源框架的 GUI 自动化工具,支持跨平台操作与远程控制,借助 Claude 3.5 Computer Use API 实现从用户指令到桌面操作的端到端自动化。其核心技术包括实时视觉信息处理、历史上下文维护及动态反馈机制,适用于远程办公、自动化测试、教育培训、家庭自动化及游戏辅助等多种场景。

LTX Video

LTX Video是一款基于开源架构的AI视频生成工具,利用先进的扩散Transformer技术和2亿参数的DiT架构,能够在短时间内生成高质量视频。其功能涵盖实时生成、运动一致性保障、开源可扩展性及广泛的硬件兼容性,适用于游戏、广告、影视等多种行业,为用户提供高效的视频生成解决方案。

DeepSeek Coder

中国人工智能公司深度求索(DeepSeek)推出的开源代码生成大模型系列,通过深度学习技术提升代码生成和理解能力,提升开发者的编程效率。