多模态 - 智狐AI导航

PySpur

PySpur 是一款开源的轻量级可视化 AI 工作流构建工具，支持拖拽式界面，帮助用户快速构建、测试和迭代 AI 应用，无需编写复杂代码。其功能包括循环与记忆、文件处理、结构化输出、RAG 技术、多模态数据支持及与多个平台的集成。适用于智能对话系统、自动化任务管理、多模态数据分析等场景，适合非技术人员和开发者使用。

AI项目与工具 2025年06月12日 28 点赞 0 评论 647 浏览

Agent TARS

Agent TARS 是字节跳动推出的开源多模态 AI 代理工具，支持浏览器、命令行和文件系统的集成，实现复杂任务的自动化执行。其核心功能包括代理工作流、数据处理、代码生成与解释等。基于事件流和模型上下文协议（MCP），Agent TARS 能高效分解任务并实时反馈结果，适用于网页自动化、任务管理、数据分析和代码辅助等多种场景。目前支持 macOS 平台，处于技术预览阶段。

AI项目与工具 2025年06月12日 29 点赞 0 评论 647 浏览

Dola

Dola是一款基于人工智能的日历助手，它允许用户通过多种方式（包括文字、语音和图片）与主要的即时通讯软件交互，以高效地创建和管理日程事件。Dola具备自然语言理解和日历同步功能，能够自动识别并添加日程，支持跨平台同步，并在事件开始前发送提醒。此外，它还提供群组管理功能，适合团队和组织使用。Dola简化了日程管理流程，提升了个人和团队的工作效率。

AI项目与工具 2025年06月12日 93 点赞 0 评论 648 浏览

CogVideo

目前最大的通用领域文本生成视频预训练模型，含94亿参数。CogVideo将预训练文本到图像生成模型（CogView2）有效地利用到文本到视频生成模型，并使用了多帧率分层训练策略。

Ai平台模型 2025年06月05日 16 点赞 0 评论 648 浏览

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 649 浏览