跨平台
EfficientTAM
EfficientTAM是一款由Meta AI研发的轻量级视频对象分割与跟踪模型,基于非层次化Vision Transformer(ViT)构建,通过引入高效记忆模块显著降低了计算复杂度。它能够实现高质量的视频对象分割与多目标跟踪,同时保持较低的延迟和较小的模型尺寸,特别适用于移动设备上的实时视频处理。该模型已在多个视频分割基准测试中表现出色,并支持多种应用场景,包括移动视频编辑、视频监控、增强现
Multimodal Live API
Multimodal Live API是谷歌推出的一种支持文本、音频和视频交互的AI接口,具备低延迟、实时双向通信和自然语言处理能力。它允许用户通过多种输入方式与AI互动,并支持会话记忆和外部功能调用,广泛应用于客户服务、在线教育、远程医疗、视频会议和娱乐等领域。
OpenAI 12天发布会内容全记录,一文快速捕捉亮点信息
OpenAI举办为期12天的系列发布活动,推出包括强化微调技术、Sora视频生成工具、ChatGPT Canvas和高级语音模式在内的多项创新功能,涵盖推理模型、搜索升级和跨平台集成,显著提升AI工具的性能与应用范围。