模型
Gemini Robotics
Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统,融合视觉-语言-动作模型,支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力,适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练,结合真实操作与多模态信息,实现高效、灵活的机器人控制。
Open NotebookLM
Open NotebookLM是一个开源工具,能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型,生成自然流畅的对话式音频,并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件,适用于教育、科研、商业分析等多个领域。
