StreamBridge StreamBridge是一款由苹果与复旦大学联合开发的端侧视频大语言模型框架,支持实时视频流的理解与交互。通过内存缓冲区和轮次衰减压缩策略,实现长上下文处理与主动响应。项目配套发布Stream-IT数据集,包含60万样本,适用于多种视频理解任务,展现出在视频交互、自动驾驶、智能监控等领域的应用前景。 AI项目与工具 2025年06月11日 41 点赞 0 评论 368 浏览
Pixel Reasoner Pixel Reasoner是由多所高校联合开发的视觉语言模型,通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作,如放大区域或选择帧,以捕捉细节。采用两阶段训练方法,结合指令调优和好奇心驱动的强化学习,提升视觉推理性能。在多个基准测试中表现优异,适用于视觉问答、视频理解等任务,广泛应用于科研、教育、工业质检和内容创作等领域。 AI项目与工具 2025年06月11日 30 点赞 0 评论 272 浏览
Ming Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型,基于MoE架构,支持文本、图像、音频和视频等多种模态的输入输出,具备强大的理解和生成能力。模型在多个任务中表现优异,如图像识别、视频理解、语音问答等,适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性,为用户提供一体化智能体验。 AI项目与工具 2025年06月11日 79 点赞 0 评论 169 浏览
LINER AI Liner AI可以更智能、更快速地询问和学习任何事情。通过实时信息和参考资料即时获得答案。轻松消化任何网络文章和 YouTube 视频中的有用信息。 Ai办公效率 2025年06月05日 94 点赞 0 评论 486 浏览