多模态

UNI

UNI-CourseHelper是一款基于AI技术的学习辅助工具,支持多模态问答、长文解析、思维链推理等功能,覆盖多个学科领域。通过Markdown格式展示答案,支持图片和文档提问,适用于学生、教师及研究人员,提升学习效率与理解深度。

Awesome GPT

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例,展示其强大的文本‑图像理解与创作能力。

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面(GUI)的智能代理模型,具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则,即可实现端到端的GUI任务自动化,适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术,支持高效的界面交互与精准的视觉定位。

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型,具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成,适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据,并从美学角度进行图像评价,适合需要高效图像处理和智能交互的应用场景。

ChatDZQ爱晚亭

基于大语言模型开发,提供“智能+个性微调+向量训练”(即CVP)服务,集成AI聊天、AI创作、AI绘画、AI海报及各种AI工具。

Seed Music

一个强大的音乐生成工具,它通过先进的技术手段,如自回归模型和扩散模型,为用户提供了从音乐创作到编辑再到声音转换的全方位服务。这套系统不仅能够生成高质量的音乐作品,还能...

逻辑智能

逻辑智能(InsiderX)是一款企业级AI工具平台,支持构建智能化工作流,具备多模态感知和自主决策能力,可处理文本、图像和语音数据,实现业务流程自动化。平台支持私有知识库构建、数据安全保障及内容审查,广泛应用于金融、法律、生物医药等行业,助力企业提升效率和降低成本。

MyShell

MyShell是一个全面的AI应用开发平台,提供了经典、开发和无代码三种模式,适合各种技能水平的用户。该平台支持创建AI原生应用,并通过AI代理商店提供多模态应用,涵盖效率工具、教育应用、游戏和客户服务等多个领域。平台还设有激励机制,鼓励创作者和用户参与,同时倡导使用开源模型,确保创作者和用户能够公平地分享收益。

GR00T N1

GR00T N1 是英伟达推出的开源人形机器人基础模型,支持多模态输入并具备复杂任务执行能力。采用双系统架构,结合视觉-语言模型与扩散变换器,实现精准动作控制。基于大规模数据训练,适应多种机器人形态和任务场景,广泛应用于物流、制造、医疗等领域,提升自动化水平与操作效率。

KuaiMod

KuaiMod 是快手开发的多模态大模型内容审核系统,能高效识别和过滤有害及低质量视频。它结合视觉语言模型(VLM)和链式推理(CoT)技术,支持动态策略更新和强化学习,提升审核准确性。系统在离线测试中准确率达92.4%,有效降低用户举报率,优化推荐体验,助力平台内容生态健康发展。