多模态

书生·万象InternVL 2.5

书生·万象InternVL 2.5是一款开源多模态大型语言模型,基于InternVL 2.0升级而来。它涵盖了从1B到78B不同规模的模型,支持多种应用场景,包括图像和视频分析、视觉问答、文档理解和信息检索等。InternVL 2.5在多模态理解基准上表现优异,性能超越部分商业模型,并通过链式思考技术提升多模态推理能力。

阿帕斯大模型

阿帕斯大模型是APUS公司推出的以人工智能技术为核心的多模态大模型,它通过提供行业定制化的AI解决方案和创意工具,致力于帮助全球用户实现更优质的移动互联网使用体验和创造个性...

智谱AutoGLM Web

基于智谱开发的AutoGLM,是由智谱AI团队开发的先进AI智能体,它专为模拟人类操作手机和网页而设计,能够理解屏幕界面信息。

Augmented Physics

Augmented Physics是一款基于人工智能的教育工具,旨在通过计算机视觉技术和多模态语言模型,将物理教科书中的静态图表转化为动态交互式模拟,帮助学生更好地理解物理概念。它支持多种仿真类型,包括光学、运动学和电路等,并提供动态可视化和动画效果,同时无需编程技能即可创建仿真。

ChatPDFLocal

一款专为Mac用户设计的本地PDF阅读和处理工具,它结合了原生 macOS 界面和强大的大型语言模型(LLM),能够快速、安全地处理 PDF 文件。

NoteLLM

NoteLLM 是一款基于多模态大型语言模型的笔记推荐框架,支持文本与图像信息的融合处理。通过自动生成标签、压缩嵌入、对比学习和指令微调等技术,提升推荐准确性与相关性。其升级版 NoteLLM-2 引入多模态上下文学习与晚期融合机制,增强视觉信息处理能力,适用于个性化推荐、冷启动优化及内容创作辅助等场景。

interface.ai

interface.ai 是一款面向金融领域的AI解决方案平台,其核心产品 Sphere 提供多模态交互支持,涵盖文本、图像、音频及视频。Sphere 可自动化处理金融业务流程,实时分析对话内容,并为用户提供个性化产品推荐和升级销售建议,从而提升用户体验和机构运营效率。

Gemini 2.0 Flash

Gemini 2.0 Flash是Google推出的多模态AI模型,支持文本与图像生成及对话式编辑,能根据自然语言生成连贯图像,并保持上下文一致性。其在长文本渲染方面表现优异,适用于广告、社交媒体、教育等领域。开发者可通过Google AI Studio或Gemini API进行测试和集成,广泛应用于创意插图、互动故事、设计辅助等场景。

Learn About

Learn About是一款由谷歌开发的对话式AI学习助手,基于Gemini模型,通过问答形式为用户提供简明答案并引导深入学习。它具备知识点梳理、参考资料推荐、内容大纲生成等功能,覆盖多学科领域,支持多模态学习资源,旨在提升用户的理解深度和学习效率。适合学术研究、备考复习、技能学习、家庭教育及终身学习等多种应用场景。

TableGPT2

TableGPT2是一种由浙江大学开发的多模态人工智能模型,专注于结构化数据的处理与分析。它具备强大的表格数据理解能力,支持SQL查询执行、数据分析以及数据增删改查等功能。通过创新的表格编码器和双维注意力机制,TableGPT2在处理不规则表格和模糊查询方面表现优异。其应用场景广泛,涵盖商业智能、财务分析、市场研究及供应链管理等领域。