多模态

BioMedGPT

BioMedGPT-R1是由清华大学AI产业研究院与北京水木分子生物科技联合开发的多模态生物医药开源大模型。基于DeepSeek R1技术,实现生物模态(如分子、蛋白质)与自然语言的统一融合,支持跨模态问答与深度推理。该模型在药物分子理解、靶点挖掘等领域表现优异,适用于药物设计、临床前研究及医学文本分析等多种场景,具备较高的文本推理能力和多模态处理能力。

HiDream.ai

HiDream.ai是一家由前京东副总裁梅涛创立的AI初创公司,推出了名为Pixeling千象的多模态AI视觉平台。该平台支持AI图像、视频和3D生成,集成了先进的神经网络和深度学习技术,具备强大的推理和创造性思维能力,能够实现不同模态之间的无缝转换和互操作性,为用户提供丰富的视觉内容创作及高效的生产力解决方案。主要功能包括智能图片生成、视频创意制作、商品图生成、视频风格转换、3D模型生成、智能重

Responses API

Responses API 是 OpenAI 推出的 AI 代理开发核心接口,结合对话生成与工具调用能力,支持多轮交互与复杂任务处理。具备流式事件处理、统一 Item 结构设计、多态性简化等功能,内置网页搜索、文件搜索和计算机使用等工具。适用于智能客服、市场分析、内容创作等多个领域,提供灵活的定价模式,提升开发效率与用户体验。

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型,由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性,能在大量GPU上高效训练,无需梯度检查点。LongVILA通过五阶段训练流程,结合大规模数据集构建和高性能推理,显著提升了长视频字幕的准确性和处理效率。此外,它还支持多种应用场景,包括视频字幕生成、内容分析、视频问答系统等。

Insert Anything

Insert Anything是由多所高校联合开发的图像插入框架,支持多种场景下的对象无缝融合,如艺术创作、虚拟试穿和影视特效等。基于大规模数据集训练,具备高分辨率输出与语义一致性保障。用户可通过掩码或文本指令实现精准控制,适用于创意设计与数字内容生成领域。

VARGPT

VARGPT是一款多模态大语言模型,整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制,支持文本与图像的混合输入和输出,具备高效的视觉生成能力。模型采用三阶段训练策略,提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

Samsung Gauss2

Samsung Gauss2是一款由三星推出的第二代多模态生成式AI模型,具备处理文本、代码和图像等多类型数据的能力。它通过引入知识图谱技术和专家混合技术,实现了个性化服务和高效的任务执行。此外,该模型还支持多种语言及编程语言,并能在无网络环境下独立运行,广泛适用于智能手机、平板电脑、笔记本电脑以及企业级应用场景。

Looooooong Kimi

Looooooong Kimi 是一款专注于超长文本处理的智能工具,支持高达200万汉字的文本分析,具备文档上传与解析、多文件处理、网址阅读、实时搜索、语言翻译以及多模态信息识别等功能。该工具广泛应用于学术研究、法律分析、市场调研、教育辅导和技术支持等多个领域,能够高效提取和整理信息,满足用户对复杂文本处理的需求。

AgentScope

AgentScope是一个由阿里巴巴集团开源的多智能体开发平台,支持构建和部署复杂的多智能体应用。它提供易用的拖拽式界面、实时监控和丰富的开发资源,涵盖聊天、图像生成、文本嵌入等任务。AgentScope具备高鲁棒性、分布式支持及容错机制,同时支持多模态数据处理和外部知识库的整合,适用于智能助手、客户服务、软件工程、社会模拟和教育培训等多个应用场景。

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器,能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息,实现高精度的零样本检测,并支持图像描述生成与多模态任务优化,适用于多种实际应用场景。