开源

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs),能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能,并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外,OpenEMMA支持人类可读的输出,适用于多种驾驶环境,包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。

提示精灵小富贵

一个旨在简化并增强为AI模型创建和优化提示词(Prompts)过程的开源项目,会帮你写Prompt提示词的GPTs应用。

Whisper Input

Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

s1

S1是由斯坦福大学和华盛顿大学联合开发的低成本、高性能AI推理模型,采用知识蒸馏技术从大型模型中提取推理能力。通过1000个高质量问题训练,成本低于50美元,训练时间短于30分钟。S1在数学和编程领域表现卓越,支持测试时扩展技术以优化推理效果,并已在GitHub开源,适用于科学问题解决、智能辅导、自动问答等多种场景。

HuggingChat macOS

HuggingChat macOS是一款基于开源语言模型的聊天应用程序,专为macOS平台打造。它支持多款顶级开源大语言模型,具备网络搜索、代码高亮等功能,同时提供模型管理及本地推理引擎支持。这款工具适用于日常交流、信息查询、语言学习、编程辅助及内容创作等多种场景。

BabelDOC

BabelDOC是一款专为科学论文翻译设计的开源PDF处理工具,支持双语对照显示,保留原文格式如公式、图表等。兼容多种翻译引擎,支持自定义模型接入,适用于学术、商业和技术文档翻译,提供在线和本地部署方式,保障翻译准确性和排版一致性。

MeloTTS

MeloTTS是一个高质量的多语言文本转语音(TTS)库,由MyShell AI开发。该工具支持多种语言的文本转语音任务,包括英语(含不同口音)、西班牙语、法语、中文、日语和韩语,并具备快速的语音合成速度。MeloTTS不仅支持中英混合发音,还易于安装和使用,适用于多种操作系统和环境。用户可以在GitHub和Hugging Face平台上获取和体验MeloTTS。

PeterCat

PeterCat是一款基于开源技术的智能问答机器人,能够通过自动构建的知识库与GitHub相关功能交互,提供对话式答疑服务。它支持多模型适配、多集成方式,并具备强大的自然语言处理能力和自动化工具支持。主要应用场景涵盖开源项目支持、企业内部论坛、在线教育平台以及客户服务等领域,旨在提升技术交流与问题解决效率。

TextBase

TextBase 是一款简单的框架,用于构建 AI 聊天机器人,它可以帮助开发人员快速搭建和优化聊天机器人。

万相首尾帧模型

万相首尾帧模型(Wan2.1-FLF2V-14B)是一款开源视频生成工具,基于DiT架构和交叉注意力机制,可根据用户提供的首帧和尾帧图像生成高质量、流畅的过渡视频。支持多种风格和特效,适用于创意视频制作、影视特效、广告营销等多个场景。模型具备细节复刻、动作自然、指令控制等功能,且提供GitHub和HuggingFace开源资源供用户使用。