DrivingDojo DrivingDojo是一个由中国科学院自动化研究所与美团无人车团队合作研发的数据集,包含18,000个视频片段,涵盖全面的驾驶操作、多智能体交互及开放世界驾驶知识。它定义了动作指令跟随(AIF)基准,用于评估世界模型的预测能力,并支持自动驾驶算法开发、世界模型训练、多智能体交互模拟及罕见事件处理等多个应用场景。 AI项目与工具 2025年06月12日 85 点赞 0 评论 115 浏览
Mistral Small 3 Mistral Small 3 是一款由 Mistral AI 推出的开源大语言模型,具备 240 亿参数,支持多语言处理,适用于低延迟场景。模型基于 Transformer 架构,支持长文本输入,具备高性能和本地部署能力。其可定制性强,适用于虚拟助手、客服系统、自动化任务及专业领域应用,如医疗和法律咨询。 AI项目与工具 2025年06月12日 77 点赞 0 评论 378 浏览
TPO TPO(Test-Time Preference Optimization)是一种在推理阶段优化语言模型输出的框架,通过将奖励模型反馈转化为文本形式,实现对模型输出的动态调整。该方法无需更新模型参数,即可提升模型在多个基准测试中的性能,尤其在指令遵循、偏好对齐、安全性和数学推理等方面效果显著。TPO具备高效、轻量、可扩展的特点,适用于多种实际应用场景。 AI项目与工具 2025年06月12日 83 点赞 0 评论 441 浏览
Reka Flash 3 Reka Flash 3 是一款由 Reka AI 开发的开源推理模型,拥有 21 亿参数,支持多模态输入(文本、图像、视频、音频),并可处理最长 32k 个令牌的上下文。它具备高效的推理能力和多语言支持,适用于日常对话、编码辅助、指令执行等多种场景。模型可在本地部署,支持 4 位量化以降低资源占用,适合广泛的应用需求。 AI项目与工具 2025年06月12日 70 点赞 0 评论 173 浏览
UniToken UniToken 是一种面向多模态理解与生成任务的自回归模型,结合了离散与连续视觉表示,实现对图像语义与细节的全面捕捉。它支持图文理解、图像生成、多模态对话、复杂指令执行等多种任务,并具备细粒度视觉处理能力。适用于内容创作、智能客服、教育、医疗及自动驾驶等多个领域。 AI项目与工具 2025年06月11日 67 点赞 0 评论 122 浏览
MultiTalk MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题,并采用部分参数训练和多任务训练策略,保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及 AI项目与工具 2025年06月11日 11 点赞 0 评论 166 浏览