admin的文章

TokenFD

TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型，专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐，支持Token级图文交互，提升了多模态任务性能。其基于自研的TokenIT数据集进行训练，涵盖2000万张图像和18亿高质量Token-Mask对，覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域，具有广泛的适用性和

657 0

UniFluid

UniFluid是由谷歌DeepMind与麻省理工学院联合开发的统一自回归框架，支持图像生成与视觉理解任务。它通过连续视觉标记处理多模态输入，结合Gemma模型和VAE技术，实现高质量图像生成与强大视觉理解能力。该框架在图像编辑、视觉问答和图像描述等任务中表现出色，具备良好的下游任务迁移能力，适用于创意设计、内容创作等多个领域。

687 0

Multi

Multi-Speaker 是 AudioShake 推出的高分辨率多说话人分离工具，支持将音频中不同说话人的语音精准分离至独立轨道，适用于广播级音频处理。它具备高保真音频处理能力，支持高采样率，能处理长达数小时的录音，在复杂场景下仍能保持稳定效果。广泛应用于影视、播客、无障碍服务及内容创作等领域，提升音频编辑效率与质量。

828 0

UniAct

UniAct是一款面向具身智能的通用行为建模框架，旨在解决机器人行为异构性问题。通过向量量化构建通用动作空间，UniAct将不同机器人的原子行为统一表示，实现跨平台共享。其轻量架构（如0.5B模型）具备高效性能与快速适应能力，仅需少量数据即可微调，并通过异构解码器适配多种机器人。适用于自动驾驶、医疗、工业及家庭服务等多个领域，提供一致且高效的控制方案。

696 0

ReCamMaster

ReCamMaster 是由浙江大学与快手科技联合开发的视频重渲染框架，支持根据用户指定的相机轨迹生成新视角视频。采用预训练模型与帧维度条件机制，实现视频视角、运动轨迹的灵活调整。具备视频稳定化、超分辨率、外扩等功能，适用于视频创作、后期制作、自动驾驶和虚拟现实等领域，提升视频内容的表现力与质量。

617 0

AiSlides.chat

AiSlides.chat 是一款基于AI的PPT制作工具，支持自然语言输入和实时对话式编辑，自动生成大纲和页面设计。提供智能图表、图片管理、主题设置及多格式导出功能，适用于企业汇报、学术展示、产品推广等场景，提升演示文稿的制作效率与专业度。

739 0

Stable Virtual Camera

Stable Virtual Camera 是 Stability AI 推出的 AI 工具，能够将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可通过自定义相机轨迹生成多种宽高比的视频，支持最长 1000 帧的高质量输出。其核心技术包括生成式 AI、神经渲染和多视图一致性优化，确保视频在不同视角间过渡自然且保持 3D 一致性。适用于广告、内容创作及教育等多个领域。

674 0

wcplusPro

wcplusPro 是一款支持多平台的微信公众号数据采集与分析工具，可采集文章、阅读数据等信息，并支持百万级数据管理与快速检索。提供多种数据导出格式，适用于 AI 训练、内容分析、市场研究等场景。具备数据报告、全文搜索、任务管理等功能，满足不同用户的多样化需求。

574 0

Instella

Instella是AMD推出的30亿参数开源语言模型，基于自回归Transformer架构，支持4096标记序列，具备强大的自然语言理解、指令跟随和多轮对话能力。通过多阶段训练和高效优化技术，Instella在多个任务中表现优异，适用于智能客服、内容创作、教育辅导、编程辅助和企业知识管理等多个场景。AMD全面开放了模型资源，促进AI技术发展与社区合作。

693 0