开源

LTX Video

LTX Video是一款基于开源架构的AI视频生成工具,利用先进的扩散Transformer技术和2亿参数的DiT架构,能够在短时间内生成高质量视频。其功能涵盖实时生成、运动一致性保障、开源可扩展性及广泛的硬件兼容性,适用于游戏、广告、影视等多种行业,为用户提供高效的视频生成解决方案。

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集,包含4300万条样本,涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量,并采用合成数据生成技术扩展数据集规模。基于此数据集,智源研究院训练出了20亿参数的Aquila-VL-2B模型,在多项基准测试中表现出色,推动了多模态AI领域的研究与发展。

易魔声EmotiVoice

易魔声EmotiVoice是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

SmolVLM

SmolVLM是一款由Hugging Face开发的轻量级视觉语言模型,专为设备端推理设计。该模型具有三个版本,包括SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct,分别适用于不同的应用场景。SmolVLM借鉴了Idefics3的理念,采用SmolLM2 1.7B作为语言主干,并通过像素混洗技术提升视觉信息的压缩效率。其训练数据集包括Cauldron和

Chalk.ist

一款由Idered打造的开源代码截图工具,帮助开发者将代码生成为美观的图片,用户只需粘贴代码,选择主题和样式,就能快速创建美观的代码截图,支持多种编程语言。

LosslessCut

LosslessCut 是一款基于 FFmpeg 的开源视频编辑工具,支持无损剪辑、合并、格式转换及多轨道编辑等功能。它通过直接操作数据流避免重新编码,保持视频质量,适用于家庭用户、视频创作者及专业人士。该工具提供了高分辨率截图、智能剪辑及多种接口支持,能够高效处理各类视频文件。

Hibiki

Hibiki是一款由Kyutai Labs开发的开源语音翻译解码器,支持实时语音到语音(S2ST)和语音到文本(S2TT)的翻译。其基于多流语言模型架构,结合弱监督学习和上下文对齐技术,实现低延迟、高保真度的翻译效果。适用于国际会议、在线教育、旅游、新闻采访及客户服务等场景,具备良好的实用性和可扩展性。

MyShell

MyShell是一个全面的AI应用开发平台,提供了经典、开发和无代码三种模式,适合各种技能水平的用户。该平台支持创建AI原生应用,并通过AI代理商店提供多模态应用,涵盖效率工具、教育应用、游戏和客户服务等多个领域。平台还设有激励机制,鼓励创作者和用户参与,同时倡导使用开源模型,确保创作者和用户能够公平地分享收益。

Stable Diffusion 3.5

Stable Diffusion 3.5是一套由Stability AI开发的先进AI图像生成模型,包含多个版本以适应不同需求。它具备高定制性、高效的消费级硬件运行能力和开源许可,能够生成高质量、多样化的图像,支持多种风格和肤色表现。其核心技术基于多模态学习和优化的架构,适用于艺术创作、游戏开发、广告设计等多个领域。 ---

edge

edge-tts 是一个开源的AI文字转语音项目,支持超过40种语言和300多种声音。该项目利用微软Azure Cognitive Services技术,能够将文本信息转换为流畅自然的语音输出。edge-tts 提供了丰富的语言和声音选择,易于集成且具有高度可定制性。其主要功能包括多语言支持、多样声音选择、流畅自然语音、易于集成的API以及开源特性。edge-tts 广泛应用于辅助技术、客户服务、