自然语言

VideoPhy

VideoPhy是一款由UCLA和谷歌研究院联合开发的基准测试工具,旨在评估视频生成模型的物理常识能力。它包含688条描述性字幕,通过人类和自动评估方式,衡量生成视频是否符合物理规则。VideoPhy不仅揭示了现有模型的不足,还推出了自动评估工具VideoCon-Physics,以推动模型性能的提升。其应用场景广泛,包括视频生成模型开发、计算机视觉研究、教育与培训以及娱乐产业等。

Taskade

Taskade是一个创新的AI驱动工作空间,它通过提供强大的自动化工具和协作功能,帮助现代团队提升工作效率。

AutoGLM

AutoGLM-Web是一款基于大型语言模型开发的AI浏览器助手,具备网页浏览、信息检索、内容总结及邮件自动回复等功能。它通过自进化在线课程强化学习框架不断优化性能,支持多场景应用,适用于办公自动化、学术研究、电商运营及客户服务等领域。

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统,基于增强型视频大型语言模型,实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准,支持对象识别、关系分析、推理预测及多模态交互等功能,适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。

Tesseract

Tesseract是一款开源的光学字符识别(OCR)引擎,支持多语言识别和多种图像格式。其具备高精度的文字识别能力,适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行,并提供丰富的编程接口和自定义训练功能,便于开发者集成和优化识别效果。

MyReport

一种自动化报告工具,通过自动化数据收集和引用,可帮助您根据数据创建和共享报表。MyReport由专门从事人工智能和数据分析的公司 alaba ai 提供支持。

Eko

Eko是一款由Fellou AI开发的JavaScript框架,基于自然语言处理技术,支持开发者创建从简单指令到复杂流程的智能代理。它具备跨平台兼容性、任务分解与调度能力,以及高度可干预性,适用于自动化测试、数据采集、系统管理等多种场景。其API设计简洁,文档完善,有助于提升开发效率和任务处理能力。

思必驰 DFM-2 大模型

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型,展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术,为用户提供了更加智能化和个性化的体验,推动了智能语...

BlenderMCP

BlenderMCP 是一款将 Blender 与 Claude AI 集成的工具,通过 socket 服务器实现双向通信,支持 3D 对象操作、材质控制、场景信息获取及 Python 代码执行。用户可通过自然语言指令高效完成建模任务,提升创作效率。工具由插件和服务器组成,采用 JSON 协议进行数据交互,适用于快速建模、场景优化及教育辅助等场景。

Socratic

Socratic是一款基于AI的多功能学习助手,支持多学科覆盖,涵盖科学、数学、文学和社会学等领域。它提供多样化的解答形式,如视频、文本和链接,并通过智能识别技术和详细解题步骤帮助用户深入理解问题。此外,其视觉化呈现方式和多样的输入选项(如拍照、语音和文本)增强了学习体验,适用于家庭作业辅导、课堂补充、考试复习及自学等多种场景。