多模态输入

GaussianAnything

GaussianAnything 是一款基于多模态输入的 3D 内容生成框架，支持点云、文本和图像等多种输入方式，能够生成高精度且可编辑的 3D 模型。其核心技术包括点云结构化潜空间和级联扩散模型，具备几何与纹理解耦特性，适用于游戏开发、影视制作、VR/AR、工业设计等多个场景。该工具在生成质量和一致性方面表现优异，为 3D 内容创作提供了高效解决方案。

AI项目与工具 2025年06月12日 41 点赞 0 评论 858 浏览

Neo

Neo-1 是 VantAI 开发的全球首个整合从头分子生成与原子级结构预测的 AI 模型，支持多模态输入，提升药物设计效率与准确性。该模型基于大规模训练和定制数据集，具备精准生成分子和预测结构的能力，适用于分子胶设计、蛋白质复合物预测及抗体发现等多个领域，推动结构生物学发展。

AI项目与工具 2025年06月12日 76 点赞 0 评论 652 浏览

Augment Agent

Augment Agent 是一款 AI 编程助手，支持 VS Code 和 JetBrains，具备强大上下文处理能力（最高 20 万 tokens），可自动学习用户编码风格并保持一致性。支持多模态输入、代码检查点、终端命令及跨平台协作，适用于复杂代码库开发和日常编程任务，性能在基准测试中表现优异。

AI项目与工具 2025年06月12日 88 点赞 0 评论 644 浏览

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架，结合大型语言模型与视频扩散模型，实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入，精确控制摄像机运动轨迹，具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果，并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域，提高视频创作效率与质量。

AI项目与工具 2025年06月12日 18 点赞 0 评论 760 浏览

九歌

九歌是清华大学研发的AI诗歌生成系统，基于深度学习技术，可生成符合古诗格律的多种体裁作品。支持关键词、文本及图片输入，操作便捷，无需登录即可使用。适用于诗词创作辅助、文化教育、艺术融合及个人娱乐等多个场景，助力中华传统文化的传承与创新。

AI项目与工具 2025年06月11日 73 点赞 0 评论 735 浏览

Fluig

Fluig 是一款基于 AI 的图表生成工具，可将文字、文档或代码快速转化为多种专业图表，如思维导图、流程图等。支持多模态输入和智能格式转换，操作简便，适合无设计背景的用户使用。提供实时协作功能，适用于教育、商业、研究等多个场景，提升信息可视化与团队协作效率。

AI项目与工具 2025年06月11日 35 点赞 0 评论 613 浏览

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型，能够将静态图像转化为动态视频，具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构，支持多模态输入，包括中文文本提示和参考图像，实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首，生成高清 1080P 视频，优化时间一致性与运动规律性，适用于广告、影视、游戏开发和内容创作等多个领域。

AI项目与工具 2025年06月11日 95 点赞 0 评论 601 浏览

Augment Code

一家专注于为大型代码库提供AI编程辅助工具的公司，通过上下文感知开发、个性化代码补全、跨文件编辑等功能，帮助开发团队提升效率，特别是擅长处理复杂代码库的维护和重构。

Ai编程建站 2025年06月05日 59 点赞 0 评论 614 浏览

PixVerse AI

PixVerse是一个强大的生成式AI模型，仅需几分钟时间，就可以轻松地将多模态输入转化为令人惊叹的视频。

Ai视频生成 2025年06月05日 58 点赞 0 评论 845 浏览

多模态输入

首页

多模态输入

列表

默认

浏览次数

发布日期