模型

MVoT

MVoT是一种多模态推理框架,通过生成图像形式的推理痕迹,增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制,有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域,具有广泛的应用潜力。

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

Rodin

Rodin是一款由影眸科技开发的AI驱动3D生成工具,专注于快速生成高质量的3D模型。它支持文本提示和图片输入生成3D资产,具备多视图融合、模型调整及材质生成等功能,适用于游戏开发、角色建模、虚拟现实等多种场景,同时兼顾生成效率与细节表现,但需进一步优化精度与数据集适应性。

Orpheus TTS

Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。

LEOPARD

LEOPARD是一款由腾讯AI Lab开发的视觉语言模型,专为处理包含大量文本的多图像任务而设计。它通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,实现对复杂视觉语言任务的高效处理,包括跨图像推理、高分辨率图像处理及动态视觉序列长度优化。LEOPARD在自动化文档理解、教育、商业智能等领域具有广泛应用潜力。

琅琊

琅琊是中国科学院海洋研究所推出的一款海洋人工智能大模型,专注于全球海洋状态变量的中短期高精度预报。它采用先进的机器学习技术与海洋科学知识相结合的方式,提供1至7天的温度、盐度和海流等关键指标的高分辨率预报,显著提高海洋预报的准确性与可靠性。未来版本将扩展至更多复杂海洋现象的预测,增强灾害预警能力。 ---

MathGPT

MathGPT,是国内首个专为数学打造的大模型。仅需要通过文字或图片上传数学题,即可得到对话式的解答反馈。另外,你也可以通过「随机来一题」的选项,随机生成数学题目并由系统给出解答。

Flex.2

Flex.2-preview是Ostris开发的开源文本到图像生成模型,具备80亿参数规模。支持长文本输入、图像修复和多模态控制输入,适用于创意设计、图像修复和内容生成等多种场景。模型基于扩散框架,采用多通道输入处理和高效推理算法,可通过ComfyUI或Diffusers库集成使用,适合实验性开发和个性化定制。

Find3D

Find3D是一款由加州理工学院开发的3D部件分割模型,通过自动化数据生成技术和对比学习方法,实现了高效且精准的3D对象分割。它能够在多个数据集上达到三倍于次优方法的性能提升,支持开放世界下的任意文本查询分割,广泛应用于机器人、虚拟现实、建筑设计等领域。

StreamBridge

StreamBridge是一款由苹果与复旦大学联合开发的端侧视频大语言模型框架,支持实时视频流的理解与交互。通过内存缓冲区和轮次衰减压缩策略,实现长上下文处理与主动响应。项目配套发布Stream-IT数据集,包含60万样本,适用于多种视频理解任务,展现出在视频交互、自动驾驶、智能监控等领域的应用前景。