自然语言

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统,基于增强型视频大型语言模型,实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准,支持对象识别、关系分析、推理预测及多模态交互等功能,适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。

匡优Excel

匡优Excel是一款基于自然语言交互的智能数据分析工具,支持多种Excel文件格式,可自动生成可视化图表并提供数据分析报告。用户可通过简单指令完成数据处理、趋势分析及商业洞察,适用于销售、财务、库存管理等多个领域,操作便捷且安全可靠。

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

Luma Photon

Luma Photon是一款由Luma AI开发的先进图像生成工具,具备高分辨率图像生成、自然语言理解及多图像参考等功能,支持个性化和多轮迭代操作。它能显著提升设计师、电影制作人等专业人士的创作效率,广泛应用于影视制作、游戏开发、广告设计等多个领域,同时保持较低的成本投入。

FlashMLA

FlashMLA 是 DeepSeek 开发的开源 MLA 解码内核,针对 NVIDIA Hopper 架构 GPU 优化,提升可变长度序列处理效率。支持 BF16 精度、页式 KV 缓存及分块调度,内存带宽达 3000 GB/s,算力达 580 TFLOPS。适用于大语言模型推理和 NLP 任务,具备高性能与低延迟特性,支持快速部署与性能验证。

VideoPhy

VideoPhy是一款由UCLA和谷歌研究院联合开发的基准测试工具,旨在评估视频生成模型的物理常识能力。它包含688条描述性字幕,通过人类和自动评估方式,衡量生成视频是否符合物理规则。VideoPhy不仅揭示了现有模型的不足,还推出了自动评估工具VideoCon-Physics,以推动模型性能的提升。其应用场景广泛,包括视频生成模型开发、计算机视觉研究、教育与培训以及娱乐产业等。

Eko

Eko是一款由Fellou AI开发的JavaScript框架,基于自然语言处理技术,支持开发者创建从简单指令到复杂流程的智能代理。它具备跨平台兼容性、任务分解与调度能力,以及高度可干预性,适用于自动化测试、数据采集、系统管理等多种场景。其API设计简洁,文档完善,有助于提升开发效率和任务处理能力。

AutoGLM

AutoGLM-Web是一款基于大型语言模型开发的AI浏览器助手,具备网页浏览、信息检索、内容总结及邮件自动回复等功能。它通过自进化在线课程强化学习框架不断优化性能,支持多场景应用,适用于办公自动化、学术研究、电商运营及客户服务等领域。

阿里云百炼

阿里云百炼是基于通义大模型、行业大模型以及三方大模型的一站式大模型开发平台。

ChatAnything.AI

一个基于AI提供与用户进行对话的能力的聊天平台。ChatAnything.AI可以回答问题、提供信息、协助解决问题或进行闲聊。无需繁琐的注册,不受地域限制困扰。