多模态

MVoT

MVoT是一种多模态推理框架,通过生成图像形式的推理痕迹,增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制,有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域,具有广泛的应用潜力。

TaoAvatar

TaoAvatar是阿里巴巴推出的高保真、轻量级3D全身虚拟人技术,基于3D高斯溅射(3DGS)实现照片级真实感的虚拟形象生成。支持多模态驱动,具备高帧率实时渲染能力,适用于AR、移动设备及高清显示平台。其轻量级架构结合深度学习优化,提升了运行效率与交互自然度,广泛应用于电商直播、全息通信、虚拟会议、在线教育及娱乐等领域。

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

Mogao

Mogao是由字节跳动开发的多模态生成基础模型,结合双视觉编码器和先进位置嵌入技术,实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域,具备强大的跨模态处理能力和生成稳定性。

EMOVA

EMOVA是一款由多所高校与企业联合研发的多模态全能型AI助手,具备处理图像、文本和语音的能力,支持情感化语音对话,并通过轻量级情感控制模块增强了人机交互的自然性。其核心技术包括连续视觉编码器、语义-声学分离的语音分词器及全模态对齐机制,广泛应用于客户服务、教育辅助、智能家居控制等多个领域。

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型(VLM),结合了SigLIP-So400m视觉编码器与Gemma 2语言模型,支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现,在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务,包括图像字幕生成、视觉推理等,并支持量化和CPU推理以提高计算效率。

Talkie

Talkie是一款基于人工智能技术打造的虚拟伴侣应用,主打高度定制化虚拟角色和沉浸式互动体验。它支持用户通过文本、语音及图像与AI角色交流,并提供角色创建、卡牌收集、智能推荐等功能。自推出以来,Talkie迅速获得了全球用户的青睐,在个性化聊天、情感陪伴及沉浸式叙事方面展现出强大潜力。

阿里翻译

阿里翻译是由阿里巴巴提供的多语种在线实时AI翻译网站,由阿里巴巴达摩院机器智能技术实验室提供技术支持,多语言多场景覆盖的智能翻译解决方案。

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具,可生成高质量、自然的说话人头部视频。支持多信号控制(如音频、表情),采用并行 Mamba 结构和门控机制,实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异,适用于虚拟主播、远程会议、在线教育等多种场景。

MinerU

MinerU是一款开源智能数据提取工具,专注于复杂PDF文档的高效解析与提取。它能够将包含多种内容类型的PDF文档转换为结构化的Markdown格式,支持图像、公式、表格和文本等多种内容处理,保留原始文档结构和格式,支持公式识别与转换成LaTeX格式,自动删除页眉、页脚、脚注和页码等非内容元素,适用于学术、财务、法律等多个领域。