多模态
LongDocURL
LongDocURL是一个由中国科学院自动化研究所和阿里巴巴联合发布的多模态长文档理解基准数据集,包含2,325组问答对,覆盖33,000页文档,涉及20个子任务。该数据集专注于评估AI模型在长文档理解、数值推理、跨元素定位及多样化任务中的性能,支持文本、图像和表格等多种模式,具有高质量和多样性的特点。
InstructMove
InstructMove是由东京大学与Adobe合作开发的图像编辑模型,基于视频帧对变化学习如何根据指令进行图像操作。它能够执行非刚性编辑、视角调整和元素重排等任务,同时支持精确的局部编辑。该模型采用真实视频数据训练,提升编辑自然性与真实性,适用于影视、广告、设计等多个领域。其技术基于多模态语言模型和扩散模型,结合掩码和ControlNet等控制机制,实现灵活高效的图像编辑。
AddressCLIP
AddressCLIP 是一种基于 CLIP 技术的端到端图像地理定位模型,由中科院自动化所与阿里云联合开发。它通过图像与地址文本对齐和地理匹配技术,实现街道级别的精确定位,无需依赖 GPS。模型在多个数据集上表现优异,适用于城市管理、社交媒体、旅游导航等多个场景,具备良好的灵活性和多模态结合潜力。
CreatiLayout
CreatiLayout 是一种先进的布局到图像生成技术,由复旦大学与字节跳动联合开发。它基于大规模布局数据集 LayoutSAM,结合 SiamLayout 框架和 MM-DiT 架构,实现高质量、细粒度可控的图像生成。同时,其 LayoutDesigner 工具支持多种输入方式,帮助用户优化布局设计。适用于海报制作、室内设计、视觉创作及教学等多个领域。