模型

文心智能体平台

百度推出的一个基于文心大模型的AI智能体(Agent)平台,文心智能体平台旨在支持广大开发者根据自身行业领域、应用场景,选取不同类型的开发方式,打造大模型时代的产品能力。

AIOOTD

AIOOTD是一款基于AI技术的时装生成平台,专注于将上传的服装照片转换为不同风格的AI时装图像,包括动漫、插画和写实风格。它支持图片上传、编辑、批量处理以及个性化定制,可直接适配社交媒体平台。该工具广泛应用于时装品牌推广、设计师作品展示、社交媒体内容创作及电商销售等领域,助力提升品牌形象和产品吸引力。

DNA

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库,它为广泛的研究任务提供了丰富的数据和高质量的注释。

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型(VLM),结合了SigLIP-So400m视觉编码器与Gemma 2语言模型,支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现,在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务,包括图像字幕生成、视觉推理等,并支持量化和CPU推理以提高计算效率。

LongCite

LongCite是清华大学研发的一项旨在提升大型语言模型在长文本问答中可信度和可验证性的项目。它通过生成细粒度的句子级引用,帮助用户验证模型回答的准确性。LongCite包含LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集,以及基于该数据集训练的模型。这些模型能够处理长文本内容,提供准确的问答服务,并附带可追溯的引用,增强信息的透明度和可靠性。

Pixel3DMM

Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架,基于DINOv2模型,能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态,支持身份和表情的解耦,并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。

MeshifAI

MeshifAI 是一款 AI 驱动的文本转 3D 模型生成工具,支持创建基础模型和 PBR 纹理模型,输出格式为 .glb,兼容多种 3D 软件和应用。用户可通过参数调整模型的创意性与质量,适合游戏开发、应用设计及网站展示等场景。

Awesome GPT

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例,展示其强大的文本‑图像理解与创作能力。

Perception

Perception-as-Control是由阿里巴巴通义实验室开发的图像动画框架,支持对相机和物体运动的细粒度控制。它基于3D感知运动表示,结合U-Net架构的扩散模型,实现多种运动相关的视频合成任务,如运动生成、运动克隆、转移和编辑。通过三阶段训练策略,提升运动控制精度和稳定性,适用于影视、游戏、VR/AR、广告及教育等多个领域。