AI项目与工具

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

ComicsMaker

ComicsMaker是一款基于人工智能技术的在线漫画创作平台,提供页面设计、漫画风格生成、图像处理、姿势创建、图片修复等功能,支持高清画质输出及多种漫画风格选择,适用于个人创作、教学辅助及商业用途,助力用户快速实现漫画创作目标。

AgentMarket

AgentMarket是一款由清华大学深圳国际研究生院的Agentland实验室开发的线上社交小游戏,它结合了模拟经营和AI捏人技术,允许玩家通过AI帮助创建个性化的Agent角色,并在虚拟集市中进行交流和交易。游戏特色包括AI捏人、AI大富翁模式、留言和卡片系统,为玩家提供了高度互动性和沉浸式的社交体验。玩家可以创建独特的角色,与其他Agent进行自由交流,推销商品,解锁更多交流功能,同时还可以

The Matrix

The Matrix是一款基于AI的世界模拟器,能够生成高保真度、无限时长的视频流,支持实时交互控制。它融合了3A游戏数据与真实世界视频,具备零样本泛化能力。核心技术包括交互模块、移窗去噪过程模型和流一致性模型,适用于游戏开发、影视制作、虚拟现实、教育模拟及城市规划等多个领域。

Amazon Bedrock

Amazon Bedrock是一款由AWS推出的完全托管型AI服务平台,集成了多家顶级AI公司的基础模型,支持企业通过单一API访问高性能模型。它提供了从基础模型接入、微调到代理构建的一系列功能,包括检索增强生成(RAG)、自动推理检查及多Agent协作等特性。此外,其模型蒸馏技术能够有效提升效率并降低运行成本,广泛适用于文本生成、虚拟助手、图像生成等多种应用场景。

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。

Style AI

Style AI 是一款支持图像、视频生成与编辑的 AI 工具,能够将照片转换为各种艺术风格,如古典绘画或现代数字艺术,同时保留图像核心元素。用户可通过自然语言指令轻松编辑图像,支持无缝合并多张照片,生成集体照或新场景,并能根据文字描述直接生成图像和视频。该工具提供高效、精准的解决方案,适用于艺术创作、创意设计、视频制作、照片编辑及虚拟场景合成等多种场景。

腾讯混元Turbo S

腾讯混元Turbo S是腾讯推出的高效AI模型,采用Hybrid-Mamba-Transformer架构,提升推理效率并降低计算成本。支持快速响应、多领域推理、内容创作及多模态生成,适用于对话、代码、逻辑推理等场景。兼具短思维链与长思维链能力,性能对标行业领先模型。

幻舟AI

幻舟AI是一站式AI短片创作平台,支持批量生成广告片、宣传片、动画片等。基于Midjourney、Runway等全球领先的AI模型,提供剧本创作、角色设计、分镜生成及视频制作的全流程服务。平台支持多种模型切换,满足不同风格和场景需求,简化操作流程,提升创作效率,是影视创作者的有力工具。

E2B

E2B 是一款面向 AI 开发者的工具平台,专注于构建自动化云环境,支持多种大型语言模型和 AI 框架。它提供代码解释与执行、沙箱环境、多代理支持等功能,旨在助力开发者高效构建生产级 AI 应用程序,涵盖代码生成、推理和数据分析等领域。