计算

DynamicCity

DynamicCity是由上海AI Lab开发的大规模动态场景生成框架,支持高质量4D LiDAR场景的生成与重建,适用于自动驾驶、机器人导航、虚拟现实等多个领域。该框架基于VAE和DiT模型,实现高效的场景编码与生成,支持轨迹引导、指令驱动生成和动态修复等多种应用,展现出优异的性能和广泛的应用潜力。

PaliGemma 2 mix

PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型,支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项,适用于不同场景。其基于开源框架开发,易于扩展,可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。

OpenVision

OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列,具备从5.9M到632.1M参数的多种模型,适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略,训练效率比同类模型高2至3倍,在多模态任务中表现优异。支持可变大小patch输入,兼具灵活性与高效性,广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。

SmartEraser

SmartEraser是中科大与微软亚洲研究院联合开发的图像编辑工具,采用“掩码区域引导”技术实现精准对象移除,同时保留周围上下文。基于Syn4Removal数据集训练,支持多种掩码输入,适用于复杂场景,广泛应用于照片编辑、设计、文物修复及科研等领域。

Image to Music

Image to Music 是一款基于AI的图像转音乐工具,通过分析图像的颜色、形状和纹理等元素,生成多种风格的音乐。用户可直接上传图片并选择模型,快速获得钢琴、吉他、管弦乐等音乐作品。无需注册,无使用限制,适用于音乐创作、广告营销、教育及个性化礼物制作等多种场景,为艺术创作提供新思路。

Claude Computer Use

Claude Computer Use 是 Anthropic 公司推出的 AI 辅助工具,利用自然语言指令驱动 AI 模型执行计算机操作,包括屏幕阅读、文本输入、文件管理、网页浏览及软件操作等功能。该工具支持自动化脚本执行和代码编写调试,广泛适用于软件开发、数据处理、客户服务、教育等领域,具有高度智能化和灵活性的特点。

Claude 3.5 Haiku

Claude 3.5 Haiku 是 Anthropic 推出的高性能人工智能模型,具备强大的编码能力和低延迟特性,适合复杂推理与问题解决任务。它通过“Unstructured Generalization”算法优化非结构化数据处理,并引入“宪法 AI”确保行为符合道德规范。此外,该模型支持“计算机使用”功能,能够模拟人类与计算机交互,广泛应用于自动化桌面任务、虚拟助手构建、医疗决策支持、教育及客

百聆

百聆是一款开源语音对话系统,融合语音识别、语音活动检测、大语言模型和语音合成技术,实现自然流畅的语音交互。支持低延迟运行,无需GPU,适用于边缘设备。具备记忆、工具调用和任务管理等功能,适用于智能家居、个人助理、车载系统等多种场景,提供高效的语音交互解决方案。

AlphaGeometry2

AlphaGeometry2 是谷歌 DeepMind 开发的 AI 系统,专用于解决国际数学奥林匹克竞赛中的几何问题。结合神经网络与符号推理技术,能高效预测几何构造并进行逻辑验证,解题准确率达 84%。系统具备扩展语言、强化推理引擎和优化搜索算法,可处理复杂几何问题,适用于数学教育、研究及工程计算等领域。

Mathtutor on Groq

Mathtutor on Groq 是一款基于 Groq 架构的 AI 辅导工具,通过语音识别功能接收数学问题,结合强大的数学引擎提供实时解题过程与答案。其主要功能包括语音输入、LaTeX 公式渲染、高精度计算及自然语言处理支持,适用于代数、微积分等领域的学习与教学辅助。此外,它还集成了 xRx 框架、Whisper 和 Llama 模型,确保高效且精准的问题解决能力。Mathtutor on G