多模态

华藏通用大模型

华藏通用大模型是一个多功能的人工智能平台,它通过集成先进的算法和大量数据训练,为用户提供了一个强大的工具,以支持各种应用场景,从客户服务到专业咨询,再到数据分析和自动...

QLIP

QLIP是一种基于二进制球形量化(BSQ)的视觉标记化方法,具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略,QLIP可作为视觉编码器或图像标记器,广泛应用于多模态任务,如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率,为统一多模态模型的开发提供了新思路。

Story Flicks

一款开源的基于AI大模型的故事短视频生成工具。用户输入故事主题,就能够迅速生成包含AI生成图像、故事内容以及音频的视频。

TableGPT2

TableGPT2是一种由浙江大学开发的多模态人工智能模型,专注于结构化数据的处理与分析。它具备强大的表格数据理解能力,支持SQL查询执行、数据分析以及数据增删改查等功能。通过创新的表格编码器和双维注意力机制,TableGPT2在处理不规则表格和模糊查询方面表现优异。其应用场景广泛,涵盖商业智能、财务分析、市场研究及供应链管理等领域。

NoteLLM

NoteLLM 是一款基于多模态大型语言模型的笔记推荐框架,支持文本与图像信息的融合处理。通过自动生成标签、压缩嵌入、对比学习和指令微调等技术,提升推荐准确性与相关性。其升级版 NoteLLM-2 引入多模态上下文学习与晚期融合机制,增强视觉信息处理能力,适用于个性化推荐、冷启动优化及内容创作辅助等场景。

OpenAI o3

OpenAI o3是一款具备图像推理能力的AI模型,融合了神经符号学习与概率逻辑,支持多模态任务处理。它能够自主调用工具解决复杂问题,擅长编程、数学、科学等领域,同时在安全性方面进行了显著优化。o3在多基准测试中表现优异,提供透明的推理路径和高效的多任务处理能力。

ChatPDFLocal

一款专为Mac用户设计的本地PDF阅读和处理工具,它结合了原生 macOS 界面和强大的大型语言模型(LLM),能够快速、安全地处理 PDF 文件。

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。

interface.ai

interface.ai 是一款面向金融领域的AI解决方案平台,其核心产品 Sphere 提供多模态交互支持,涵盖文本、图像、音频及视频。Sphere 可自动化处理金融业务流程,实时分析对话内容,并为用户提供个性化产品推荐和升级销售建议,从而提升用户体验和机构运营效率。

LAM

LAM是由微软开发的大型行动模型,能够理解和执行真实世界中的操作任务。它不仅能解析用户输入,还能生成具体行动指令,如启动程序或控制设备。LAM在Office等Windows应用中表现出色,任务完成率高于GPT-4。具备多模态输入理解、动态规划、环境交互和自主执行能力,适用于办公自动化、智能家居、客户服务等多个场景,显著提升任务执行效率和智能化水平。