WorldPM WorldPM是由阿里巴巴Qwen团队与复旦大学联合开发的偏好建模模型系列,基于1500万条数据训练,适用于对话系统、推荐系统等任务。模型支持多种微调版本,具备强大的泛化能力和鲁棒性,适用于低资源和高规模场景。支持Hugging Face平台部署,适用于语言生成优化、个性化推荐、智能客服及内容审核等应用场景。 AI项目与工具 2025年06月11日 51 点赞 0 评论 387 浏览
Ming Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型,基于MoE架构,支持文本、图像、音频和视频等多种模态的输入输出,具备强大的理解和生成能力。模型在多个任务中表现优异,如图像识别、视频理解、语音问答等,适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性,为用户提供一体化智能体验。 AI项目与工具 2025年06月11日 79 点赞 0 评论 386 浏览
AudioX AudioX 是一种基于多模态输入的音频生成模型,支持文本、视频、图像等多种输入方式,能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略,提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力,适用于视频配乐、动画音效、音乐创作等多个场景。 AI项目与工具 2025年06月12日 68 点赞 0 评论 384 浏览
Free Video Free Video-LLM是一种无需训练的高效视频语言模型,基于提示引导的视觉感知技术,可直接对视频内容进行理解和推理,适用于视频问答、内容分析等多种场景。通过时空采样优化和减少视觉标记,它在保持高性能的同时显著降低了计算复杂度。 AI项目与工具 2025年06月12日 50 点赞 0 评论 384 浏览
Bard PDF 一个用于汇总和分析 PDF 文档的终极 AI 驱动工具,AI Bard PDF允许用户通过自然对话上传PDF文档并与之交互。 AI写作对话 2025年06月05日 38 点赞 0 评论 384 浏览
Chinese Chinese-LiPS是由智源研究院与南开大学联合开发的高质量中文多模态语音识别数据集,包含100小时语音、视频及手动转录文本。其创新性融合唇读视频与幻灯片内容,显著提升语音识别性能,实验表明可降低字符错误率约35%。适用于教学、科普、虚拟讲解等复杂语境,为多模态语音识别研究提供丰富数据支持。 AI项目与工具 2025年06月11日 47 点赞 0 评论 384 浏览
CAD CAD-MLLM 是一款基于多模态输入生成参数化 CAD 模型的系统,融合了文本、图像和点云等多种数据形式。它通过命令序列与大型语言模型的结合,实现了高效的数据对齐与处理,并提出了创新的评估指标。CAD-MLLM 具备强大的鲁棒性和交互式设计能力,适用于工业设计、建筑设计、汽车制造等多个领域。 AI项目与工具 2025年02月07日 61 点赞 0 评论 381 浏览
Character Character-3 是 Hedra Studio 推出的全模态 AI 视频生成工具,支持图像、文本和音频输入,生成高质量动态视频。具备全身动作捕捉、情感控制、精准对口型等功能,适用于创意视频、虚拟形象、教育、营销等多个场景。采用多模态融合与先进 AI 技术,提升视频自然度与连贯性,提高内容创作效率。 AI项目与工具 2025年06月12日 66 点赞 0 评论 381 浏览