开源项目
StarVector
StarVector 是一个开源多模态视觉语言模型,支持图像和文本到可编辑 SVG 文件的转换。采用多模态架构,结合图像编码与语言模型,生成结构紧凑、语义丰富的 SVG 内容。基于 SVG-Stack 数据集训练,适用于图标设计、艺术创作、数据可视化等多种场景,具备良好的性能和扩展性。
Agent TARS
Agent TARS 是字节跳动推出的开源多模态 AI 代理工具,支持浏览器、命令行和文件系统的集成,实现复杂任务的自动化执行。其核心功能包括代理工作流、数据处理、代码生成与解释等。基于事件流和模型上下文协议(MCP),Agent TARS 能高效分解任务并实时反馈结果,适用于网页自动化、任务管理、数据分析和代码辅助等多种场景。目前支持 macOS 平台,处于技术预览阶段。
YT Navigator
YT Navigator 是一款基于 AI 的 YouTube 内容检索工具,支持自然语言查询、语义搜索和视频内容交互。用户可快速定位视频片段并获取时间戳,提升信息获取效率。适用于研究、学习、创作和分析等场景,具备频道管理、安全会话等功能。采用向量嵌入与 BM25 算法结合的搜索机制,提高搜索准确率,项目已开源。
Orpheus TTS
Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。
Botgroup.chat
Botgroup.chat 是一款支持多人 AI 交互的聊天平台,用户可自定义 AI 角色并进行群聊互动。平台兼容多种 AI 模型,支持实时对话、Markdown 排版及数学公式显示,具备上下文记忆和角色管理功能。项目基于 React 和 Cloudflare Pages 构建,部署便捷,代码开源,适用于语言学习、创意讨论等多种场景。