模型 - 智狐AI导航

AndroidGen

AndroidGen 是一个基于大语言模型（LLM）的智能代理框架，专注于提升 Agent 在数据稀缺环境下的任务执行能力。它通过无监督方式收集用户操作轨迹并进行训练，结合 ExpSearch、ReflectPlan、AutoCheck 和 StepCritic 四个核心模块，增强任务规划、执行和评估能力。该框架在 AndroidWorld 和 AitW 基准测试中表现出色，适用于自动化任务处理、

AI项目与工具 2025年06月12日 31 点赞 0 评论 977 浏览

TechGPT-东北大学

TechGPT是一个强大的垂直领域大语言模型，具备处理专业领域文本的能力，并在信息抽取、智能问答和序列生成等方面表现出色。

Ai平台模型 2026年07月28日 0 点赞 0 评论 977 浏览

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统，融合视觉-语言-动作模型，支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力，适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练，结合真实操作与多模态信息，实现高效、灵活的机器人控制。

AI项目与工具 2025年06月12日 17 点赞 0 评论 978 浏览

FinRobot

FinRobot是一款开源的AI代理平台，专注于金融领域的应用，基于大型语言模型（LLMs）构建能够执行复杂分析和决策的专业金融AI代理。平台通过金融思维链（CoT）提示功能提升分析能力，并通过开源方式促进AI在金融决策中的广泛应用。架构涵盖金融AI代理层、金融LLM算法层、LLMOps和DataOps层以及多源LLM基础模型层，支持市场预测、文档分析及交易策略等多种金融专业AI代理。

AI项目与工具 2025年06月12日 74 点赞 0 评论 979 浏览

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架，支持文本到图像、文本到视频、图像到视频等多种任务，兼容多种生成模型与奖励机制。其通过强化学习优化生成过程，提升视觉内容质量与一致性，降低显存压力，提高训练效率与稳定性，适用于视频生成和多模态内容创作。

AI项目与工具 2025年06月11日 45 点赞 0 评论 979 浏览

JoyVASA

JoyVASA是一个基于扩散模型的音频驱动数字人头项目，能够生成与音频同步的面部动态和头部运动。其主要功能包括唇形同步、表情控制及动物面部动画生成，支持多语言和跨物种动画化。项目采用两阶段训练方法，结合解耦面部表示与扩散模型技术，生成高质量动画视频，广泛应用于虚拟助手、娱乐媒体、教育、广告等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 980 浏览

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术，通过提取响度、亮度和音高概率等控制信号，结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架，同时赋予声音设计师更强的表达力与可控性，广泛适用于电影、游戏、音乐制作及教育等多个领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 980 浏览

Llama 4

Llama 4 是 Meta 推出的多模态 AI 模型系列，采用混合专家（MoE）架构，提升计算效率。包含 Scout 和 Maverick 两个版本，分别适用于不同场景。Scout 支持 1000 万 token 上下文，Maverick 在图像理解和创意写作方面表现优异。Llama 4 支持 200 种语言，具备强大的语言生成与多模态处理能力，适用于对话系统、文本生成、代码辅助、图像分析等多个

AI项目与工具 2025年06月12日 46 点赞 0 评论 981 浏览

美图Whee

美图Whee是美图旗下AI绘画平台，提供文生图和图生图功能，你只需要输入提示词，AI就能根据提示词画出对应的图象，也可以导入一张照片，Al会生成多种风格的绘画。

Ai绘画生成 2025年06月05日 51 点赞 0 评论 981 浏览

Zero123

一种从单个图像到一致的多视图扩散基础模型，旨在使用单视图输入生成 3D 一致的多视图图像。

Ai开源项目 2025年06月05日 19 点赞 0 评论 981 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期