多模态
《Manus没有秘密》70页PPT解读AI Agent(PDF文件)
本文详细解读了AI Agent技术从L1到L3的发展历程,涵盖了定义、实现原理、用户体验及未来趋势。文章以Manus为例,探讨了Agent技术的通用性、技术实现路径及用户感知变化,强调了提升通用性、性能和用户体验的重要性。同时,文章提出了对未来发展的期望和建议。
Skywork R1V
Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型,具备强大的视觉链式推理能力,可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法,在多项基准测试中表现优异。模型开源,适用于教育、医疗、科研、内容审核等多个领域,推动多模态人工智能的发展。
MagicAvatar
MagicAvatar由字节跳动开发,是一款主打多模态输入生成的多模态框架,可以将文本、视频和音频等不同输入方式转化为动作信号,从而生成和动画化一个虚拟人物。
