自然语言

FlashMLA

FlashMLA 是 DeepSeek 开发的开源 MLA 解码内核,针对 NVIDIA Hopper 架构 GPU 优化,提升可变长度序列处理效率。支持 BF16 精度、页式 KV 缓存及分块调度,内存带宽达 3000 GB/s,算力达 580 TFLOPS。适用于大语言模型推理和 NLP 任务,具备高性能与低延迟特性,支持快速部署与性能验证。

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

Eko

Eko是一款由Fellou AI开发的JavaScript框架,基于自然语言处理技术,支持开发者创建从简单指令到复杂流程的智能代理。它具备跨平台兼容性、任务分解与调度能力,以及高度可干预性,适用于自动化测试、数据采集、系统管理等多种场景。其API设计简洁,文档完善,有助于提升开发效率和任务处理能力。

即时AI

即时AI,通过自然语言描述快速生成可二次编辑的 UI 设计稿,以 AI-First 视角来构建下一代设计工具的开端。

Luma Photon

Luma Photon是一款由Luma AI开发的先进图像生成工具,具备高分辨率图像生成、自然语言理解及多图像参考等功能,支持个性化和多轮迭代操作。它能显著提升设计师、电影制作人等专业人士的创作效率,广泛应用于影视制作、游戏开发、广告设计等多个领域,同时保持较低的成本投入。

VideoPhy

VideoPhy是一款由UCLA和谷歌研究院联合开发的基准测试工具,旨在评估视频生成模型的物理常识能力。它包含688条描述性字幕,通过人类和自动评估方式,衡量生成视频是否符合物理规则。VideoPhy不仅揭示了现有模型的不足,还推出了自动评估工具VideoCon-Physics,以推动模型性能的提升。其应用场景广泛,包括视频生成模型开发、计算机视觉研究、教育与培训以及娱乐产业等。

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统,基于增强型视频大型语言模型,实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准,支持对象识别、关系分析、推理预测及多模态交互等功能,适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。

匡优Excel

匡优Excel是一款基于自然语言交互的智能数据分析工具,支持多种Excel文件格式,可自动生成可视化图表并提供数据分析报告。用户可通过简单指令完成数据处理、趋势分析及商业洞察,适用于销售、财务、库存管理等多个领域,操作便捷且安全可靠。

Chat2SVG

Chat2SVG 是一种基于大语言模型和图像扩散模型的文本到 SVG 生成工具,能够自动创建高质量矢量图形。通过多阶段处理流程,包括模板生成、细节增强和形状优化,确保图形在视觉质量和语义对齐方面达到较高标准。支持自然语言指令编辑,适用于设计原型、图标创作、教育演示及艺术创作等多种场景。

EasyAnimate

EasyAnimate是一款由阿里巴巴研发的AI视频生成工具,支持通过文本或图片生成视频。用户可以上传图片作为视频的起始和结束画面,增加视频编辑的灵活性。该工具最长可生成1分钟的视频,适用于内容创作、教育、营销等多个领域。用户可以通过简单的操作快速生成高质量的视频内容。