多模态

狸谱

狸谱是一款集AI图像处理与互动创作于一体的多功能工具,提供“灵魂提取器”功能用于生成物体相关人设形象,同时拥有AI壁纸漫画创作、跑团剧情互动及自定义画风等功能。狸谱凭借其多模态大模型技术和丰富的应用场景,满足用户在娱乐、创意、教育等多个领域的多样化需求。

Dust

Dust 是一款面向企业用户的 AI 代理构建平台,支持无代码开发,可快速部署定制化 AI 代理,实现业务流程自动化。其核心功能包括多平台集成、实时数据同步、语义搜索、多模态交互及团队协作等,适用于市场营销、销售、技术支持等多个应用场景,有效提升工作效率和数据利用率。

BALROG

BALROG是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏环境中推理能力的框架。它通过程序化生成的游戏环境,测试模型的规划、空间推理及探索能力,并提供细粒度的性能指标和公开排行榜,以促进AI技术的发展,适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

AddressCLIP

AddressCLIP 是一种基于 CLIP 技术的端到端图像地理定位模型,由中科院自动化所与阿里云联合开发。它通过图像与地址文本对齐和地理匹配技术,实现街道级别的精确定位,无需依赖 GPS。模型在多个数据集上表现优异,适用于城市管理、社交媒体、旅游导航等多个场景,具备良好的灵活性和多模态结合潜力。

QVQ

QVQ是一个基于Qwen2-VL-72B的开源多模态推理模型,擅长处理文本、图像等多模态数据,具备强大的视觉理解和复杂问题解决能力。它在数学和科学领域的视觉推理任务中表现出色,但在实际应用中仍需解决语言切换、递归推理及图像细节关注等问题。QVQ可广泛应用于教育、自动驾驶、医疗图像分析、安全监控及客户服务等领域。

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型(MLLM)。它通过整合视觉、语音和文本三种模态的信息,实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据,还支持流式文本-语音生成及跨模态信息交互,适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

POINTS 1.5

POINTS 1.5 是腾讯微信开发的多模态大模型,基于LLaVA架构设计,包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出,适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术,实现了跨模态任务的精准处理与高效输出。

ACE

ACE是一款基于扩散Transformer架构的多模态图像生成与编辑工具,通过长上下文条件单元(LCU)和统一条件格式实现自然语言指令的理解与执行。它支持图像生成、编辑、多轮交互等多种任务,适用于艺术创作、媒体制作、广告设计、教育培训等多个领域,提供高效且灵活的视觉内容解决方案。

InternVL3

InternVL3是上海人工智能实验室推出的多模态大型语言模型,具备文本、图像、视频等多模态数据处理能力。采用原生多模态预训练方法,提升语言与视觉理解效率,并支持工具使用、3D视觉、工业图像分析等复杂任务。模型可通过API部署,适用于智能交互、图像识别、视频分析及客服系统等多种场景。

Luma Ray2

Luma Ray2 是 Luma AI 推出的视频生成模型,基于多模态架构,支持文本和图像输入,生成高质量、连贯的视频内容。相较前代,视频时长从 5 秒提升至 1 分钟,支持电影级运镜和逼真特效,适用于影视制作、广告、游戏动画及教育等多个领域。