Pixtral 12B Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型,能够同时处理图像和文本数据。该模型包含120亿参数,大小约为24GB,基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力,能够执行图像描述生成、统计照片中的物体数量等任务,并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源,用户可以自由下载和微调该模型。应用场景广泛,包括 AI项目与工具 2025年06月12日 69 点赞 0 评论 616 浏览
MagicQuill MagicQuill是一款基于AI的开源图像编辑工具,提供智能化的局部编辑功能。其核心功能包括AI驱动的智能建议、精确的像素级编辑(如添加、删除和颜色调整),以及多种定制化工具(如添加笔刷、减去笔刷和颜色笔刷)。此外,它还具备实时意图预测和参数调整能力,支持多模态大语言模型和扩散模型的协作,适用于个人娱乐、教育、专业设计及商业应用等多个领域。 AI项目与工具 2025年06月12日 85 点赞 0 评论 616 浏览
TypingMind 一款支持多种大型语言模型的聊天界面应用,用户可以通过API密钥与ChatGPT、Claude、Gemini等模型进行互动。 AI写作对话 2025年06月05日 28 点赞 0 评论 616 浏览
PicMenu PicMenu是一款利用AI技术实现菜单可视化的工具,用户可通过上传菜单图片自动生成数字化展示图,支持多格式导出,适用于社交媒体、网站及打印场景。未来版本计划增加菜品详细信息展示,同时具备标签过滤功能,提升用户体验。PicMenu目前为开源项目,基础功能免费提供。 AI项目与工具 2025年06月12日 47 点赞 0 评论 616 浏览
Nemotron Nemotron-Mini-4B-Instruct是一款由英伟达开发的小型开源语言模型,针对角色扮演、检索增强生成(RAG)及函数调用任务进行了优化。模型基于Transformer架构,利用蒸馏、剪枝和量化技术提升运行效率与设备端适配能力,适用于实时交互场景,如游戏NPC对话或虚拟助手交互。其快速响应特性使其在客户服务、教育软件及内容创作领域也展现出巨大潜力。 AI项目与工具 2025年06月12日 46 点赞 0 评论 617 浏览
小半WordPress Ai助手 一个全免费开源WordPress插件,支持AI对话聊天、文章生成、文章总结、文章翻译、生成PPT等功能,此外它还能对接DeepSeek、豆包和通义千问等模型。 Ai编程建站 2025年06月05日 19 点赞 0 评论 617 浏览
Fireworks f1 Fireworks f1 是一款专为复杂推理任务设计的复合型 AI 模型,通过整合多个开源模型提升性能与可靠性。支持开发者通过提示词快速构建复杂 AI 应用,已在编码、对话及数学领域展现卓越能力。同时提供标准版和轻量版供用户选择,并在 AI Playground 提供免费体验。 AI项目与工具 2025年06月12日 25 点赞 0 评论 617 浏览
Toucan TTS Toucan TTS是一款由德国斯图加特大学自然语言处理研究所开发的文本到语音合成工具箱。它基于Python和PyTorch构建,支持超过7000种语言及多种方言和变体。主要功能包括多说话人语音合成、语音风格克隆、人机交互编辑、语音参数调整以及发音清晰度和性别特征调整。该工具箱适用于语音模型教学、文字朗读和多语言应用开发等场景,并提供在线交互式演示功能,方便用户快速理解和使用。 AI项目与工具 2025年06月12日 89 点赞 0 评论 617 浏览
万相首尾帧模型 万相首尾帧模型(Wan2.1-FLF2V-14B)是一款开源视频生成工具,基于DiT架构和交叉注意力机制,可根据用户提供的首帧和尾帧图像生成高质量、流畅的过渡视频。支持多种风格和特效,适用于创意视频制作、影视特效、广告营销等多个场景。模型具备细节复刻、动作自然、指令控制等功能,且提供GitHub和HuggingFace开源资源供用户使用。 AI项目与工具 2025年06月11日 100 点赞 0 评论 617 浏览
书生·万象InternVL 2.5 书生·万象InternVL 2.5是一款开源多模态大型语言模型,基于InternVL 2.0升级而来。它涵盖了从1B到78B不同规模的模型,支持多种应用场景,包括图像和视频分析、视觉问答、文档理解和信息检索等。InternVL 2.5在多模态理解基准上表现优异,性能超越部分商业模型,并通过链式思考技术提升多模态推理能力。 AI项目与工具 2025年06月12日 100 点赞 0 评论 617 浏览