多模态 - 智狐AI导航

DiTCtrl

DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具，能够利用多个文本提示生成连贯且高质量的视频内容，无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡，同时在MPVBench基准上表现出色，适用于电影、游戏、广告及新闻等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 656 浏览

阿里妈妈·智造字

阿里妈妈·智造字，以研习古今造字的脉络，跨越历史长河，传承汉字基因，探寻中华深层审美规律。

字体字库 2025年06月05日 34 点赞 0 评论 655 浏览

九歌

九歌是清华大学研发的AI诗歌生成系统，基于深度学习技术，可生成符合古诗格律的多种体裁作品。支持关键词、文本及图片输入，操作便捷，无需登录即可使用。适用于诗词创作辅助、文化教育、艺术融合及个人娱乐等多个场景，助力中华传统文化的传承与创新。

AI项目与工具 2025年06月11日 73 点赞 0 评论 653 浏览

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 648 浏览

法大猫

法大猫，AI法律顾问服务平台，您的随身AI法律顾问。

AI服务商 2025年06月05日 77 点赞 0 评论 647 浏览

Agent TARS

Agent TARS 是字节跳动推出的开源多模态 AI 代理工具，支持浏览器、命令行和文件系统的集成，实现复杂任务的自动化执行。其核心功能包括代理工作流、数据处理、代码生成与解释等。基于事件流和模型上下文协议（MCP），Agent TARS 能高效分解任务并实时反馈结果，适用于网页自动化、任务管理、数据分析和代码辅助等多种场景。目前支持 macOS 平台，处于技术预览阶段。

AI项目与工具 2025年06月12日 29 点赞 0 评论 647 浏览

CogVideo

目前最大的通用领域文本生成视频预训练模型，含94亿参数。CogVideo将预训练文本到图像生成模型（CogView2）有效地利用到文本到视频生成模型，并使用了多帧率分层训练策略。

Ai平台模型 2025年06月05日 16 点赞 0 评论 646 浏览

讯飞星火PC版

讯飞星火PC版是科大讯飞推出的一款桌面级AI工具，集成了强大的跨领域知识理解和语言处理能力。它支持自然对话方式，涵盖写作、搜索、问答、翻译、PPT生成、图像生成等功能，并新增了深度搜索与多模态交互能力，可广泛应用于办公、教育、内容创作和技术开发等领域，提供高效便捷的智能服务。

AI项目与工具 2024年10月29日 65 点赞 0 评论 645 浏览

OCTAVE

OCTAVE是一款由Hume AI研发的语音语言处理工具，融合了多种领先AI技术，具备强大的个性化语音生成能力，支持从文字到语音的即时转化，并能精准模仿不同说话者的声线与情感表达。其主要功能包括多角色对话生成、复杂指令理解与响应，以及实时语音处理等。此外，OCTAVE可应用于客户服务、虚拟助手、教育培训、娱乐游戏等多个领域，为用户带来更加自然、生动的交互体验。

AI项目与工具 2025年06月12日 14 点赞 0 评论 645 浏览

Dola

Dola是一款基于人工智能的日历助手，它允许用户通过多种方式（包括文字、语音和图片）与主要的即时通讯软件交互，以高效地创建和管理日程事件。Dola具备自然语言理解和日历同步功能，能够自动识别并添加日程，支持跨平台同步，并在事件开始前发送提醒。此外，它还提供群组管理功能，适合团队和组织使用。Dola简化了日程管理流程，提升了个人和团队的工作效率。

AI项目与工具 2025年06月12日 93 点赞 0 评论 645 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期