ORM - 智狐AI导航

豆包Seaweed

豆包Seaweed是一款基于Transformer架构的AI视频生成工具，支持文生视频和图生视频模式，能够生成高逼真度、细节丰富的视频内容，广泛应用于电商、文旅、教育等领域，大幅降低视频制作门槛，提升创作效率。

AI项目与工具 2025年06月12日 59 点赞 0 评论 467 浏览

豆包AI视频模型

豆包AI视频模型包括PixelDance和Seaweed两款工具，分别基于DiT和Transformer架构。PixelDance擅长处理复杂指令和多主体互动，适合制作情节丰富的短片；Seaweed支持多分辨率输出，生成高质量、高逼真的视频，适用于商业领域。两者均提供多样化的风格选择和输出格式，满足不同场景需求。 ---

AI项目与工具 2025年06月12日 45 点赞 0 评论 596 浏览

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型，融合了语音识别、自然语言处理、情感理解和对话管理等功能，具备实时性和端到端交互特性。它通过深度学习技术和离散表示法，实现从语音输入到语音输出的全流程自动化，生成自然流畅的语音回应，并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

AI项目与工具 2025年06月12日 91 点赞 0 评论 641 浏览

Emu3

Emu3是一款由北京智源人工智能研究院开发的原生多模态世界模型，结合了多模态自回归技术和单一Transformer架构，能够在图像、视频和文本之间实现无缝转换。它不仅能够根据文本生成高质量图像，还能预测视频发展并理解图文内容，广泛应用于内容创作、广告营销、教育、娱乐等多个领域。

AI项目与工具 2025年06月12日 58 点赞 0 评论 640 浏览

AMD

AMD-135M是一款由AMD开发的小型语言模型，基于LLaMA2架构，具有文本生成、代码生成、自然语言理解和多平台兼容性等特点。该模型通过推测解码技术提高了推理速度，降低了内存占用，并在多项自然语言处理任务中表现出色。适用于聊天机器人、内容创作、编程辅助、语言翻译和文本摘要等多种应用场景。

AI项目与工具 2025年06月12日 100 点赞 0 评论 739 浏览

CDial

CDial-GPT是一项由清华大学研发的基于大型中文对话数据集LCCC的预训练对话生成模型。该模型提供LCCC-base和LCCC-large两个版本的数据集，并具备预训练、微调、多模态学习等功能，能够生成高质量的对话回应。其应用场景涵盖客户服务、智能助手、在线教育等多个领域。

AI项目与工具 2025年06月12日 63 点赞 0 评论 673 浏览

PixWizard

PixWizard是一款基于自然语言指令的多功能图像处理工具，支持图像生成、编辑、翻译、修复等任务。通过基于流的Diffusion Transformer（DiT）模型及结构感知与语义感知指导，PixWizard能够高效处理各种视觉任务，并展现出强大的生成能力和泛化性能。

AI项目与工具 2025年06月12日 78 点赞 0 评论 500 浏览

Fluid

Fluid是一种基于连续标记和随机生成顺序的文本到图像生成模型，具有卓越的视觉表现力和全局结构捕捉能力。它通过自回归架构和Transformer模型，逐步预测序列中的下一个元素，构建与文本提示相匹配的高质量图像。Fluid在多个基准测试中取得了优异成绩，并广泛应用于艺术创作、媒体娱乐、广告营销等领域。

AI项目与工具 2025年06月12日 47 点赞 0 评论 485 浏览

Janus

Janus是一种由DeepSeek AI开发的自回归框架，专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能，支持多种输入模态如图像、文本等，并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力，适用于图像创作、自动标注、视觉问答等多个领域。

AI项目与工具 2025年06月12日 45 点赞 0 评论 662 浏览

Mellum

Mellum 是 JetBrains 推出的一款专为开发者设计的大型语言模型（LLM），通过深度集成 JetBrains IDE，提供低延迟、高精度的代码补全服务，支持多种编程语言，显著提升开发效率。其训练数据仅限于公开可用且许可宽松的代码，保障用户隐私。

AI项目与工具 2025年06月12日 85 点赞 0 评论 557 浏览

ORM

首页

ORM

列表

默认

浏览次数

发布日期