V 创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力。 Ai平台模型 1970年01月01日 0 点赞 0 评论 4 浏览
MGIE MGIE 是苹果团队开源的一款 AI 图像编辑工具,它利用多模态大模型来增强图像编辑的指令引导能力。用户只需拍摄照片并输入文字指令,MGIE 便能够自动进行图像编辑,实现用户所需的... Ai绘画生成 1970年01月01日 0 点赞 0 评论 2 浏览
VideoPoet VideoPoet是一款基于大模型的AI视频生成工具,支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计,能够处理和转换不同类型的输入信号,无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应 AI项目与工具 2024年01月01日 98 点赞 0 评论 257 浏览
ChatEDU 多模态教育工具,通过借助生成式 AI成为学生的 “第二大脑”。提供包括知识图谱、动态知识档案和任务型学习代理三大核心功能。 教育学习 2025年06月05日 10 点赞 0 评论 314 浏览
CoGenAV CoGenAV是一种先进的多模态学习模型,专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能,适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。 AI项目与工具 2025年06月11日 80 点赞 0 评论 294 浏览
OpenVision OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列,具备从5.9M到632.1M参数的多种模型,适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略,训练效率比同类模型高2至3倍,在多模态任务中表现优异。支持可变大小patch输入,兼具灵活性与高效性,广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。 AI项目与工具 2025年06月11日 58 点赞 0 评论 222 浏览
Eagle 2.5 Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。 AI项目与工具 2025年06月11日 59 点赞 0 评论 135 浏览
GigaTok GigaTok 是一款基于语义正则化的高参数视觉分词器,支持自回归图像生成,具备优异的图像重建与生成能力。通过一维架构和非对称扩展策略,实现高效计算与稳定训练。适用于图像生成、编辑、数据增强及多模态应用,具有广泛的技术拓展性。 AI项目与工具 2025年06月11日 74 点赞 0 评论 485 浏览
AIMv2 AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型,通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练,支持多种参数规模,适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能,并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异,具备良好的可扩展性和零样本适应能力。 AI项目与工具 2025年06月12日 48 点赞 0 评论 329 浏览