AI项目与工具

FLUX

FLUX-Controlnet-Inpainting是一款基于ControlNet和FLUX.1-dev技术的图像修复工具,能够通过用户指定的掩码区域对图像进行精准修复。其主要特点包括风格一致性、边缘和结构保持、高质量生成以及参数可调性。工具广泛应用于历史照片修复、艺术创作、媒体娱乐、广告营销、数据增强及医学成像等领域。

Scenethesis

Scenethesis是NVIDIA推出的AI框架,可通过文本生成高质量的3D场景。它结合LLM与视觉技术,经过布局规划、视觉细化、物理优化和场景验证四个阶段,确保生成结果具备物理合理性和空间连贯性。支持用户交互与多样化场景构建,广泛应用于VR/AR、游戏开发、具身智能及虚拟内容创作等领域。

KTransformers

KTransformers是一款由清华大学KVCache.AI团队与趋境科技联合开发的开源工具,用于提升大语言模型的推理性能并降低硬件门槛。它支持在24GB显卡上运行671B参数模型,利用MoE架构和异构计算策略实现高效推理,预处理速度达286 tokens/s,推理速度达14 tokens/s。项目提供灵活的模板框架,兼容多种模型,并通过量化和优化技术减少存储需求,适合个人、企业及研究场景使用。

灵码 IDE

灵码 IDE是通义推出的AI原生IDE,深度适配千问3大模型,集成编程智能体、行间建议预测、行间会话等功能。支持多种编程语言和主流IDE,具备代码生成、续写、注释、单元测试生成、异常排查等能力,可提升开发效率。开发者可通过自然语言描述任务,实现端到端的编码操作,适用于新功能开发、工程级任务及企业数据个性化场景。

Websim

Websim是一款基于AI技术的网页开发工具,用户只需输入文本提示,即可快速生成网站或应用程序。它支持智能界面设计、自动代码生成及项目托管,适用于个人创意实现、企业开发、教育及市场营销等多个场景。无需编程基础,大幅降低开发门槛,提高项目构建效率。

腾讯混元Turbo S

腾讯混元Turbo S是腾讯推出的高效AI模型,采用Hybrid-Mamba-Transformer架构,提升推理效率并降低计算成本。支持快速响应、多领域推理、内容创作及多模态生成,适用于对话、代码、逻辑推理等场景。兼具短思维链与长思维链能力,性能对标行业领先模型。

11x

11X是一款基于AI技术打造的数字员工服务平台,主要功能涵盖自动化销售流程、跨渠道客户互动以及多语言支持等。其核心产品Alice和Mike分别负责潜在客户挖掘与沟通安排、电话销售与客户跟进,助力企业实现高效运营。平台支持25种语言,适用于多种业务场景,包括销售自动化、客户服务、市场推广及语言翻译等。

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架,用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术,通过多阶段写作流程和模态对齐优化,提升故事内容的质量与连贯性。支持灵活模块化设计,适用于儿童教育、数字内容创作、在线教育等多个场景,为故事创作提供高效、可定制的解决方案。

Mercury Coder

Mercury Coder 是 Inception Labs 推出的扩散型大语言模型,专为代码生成设计。它采用“从粗到细”机制,支持并行生成,每秒可处理超过 1000 个 token,效率显著高于传统模型。具备代码生成、补全、优化、多语言支持及可控生成等功能,适用于开发效率提升、教育辅助、代码优化及低代码平台集成等场景。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。