模型

MultiTalk

MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题,并采用部分参数训练和多任务训练策略,保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及

豆包爱学

豆包爱学是一款基于“豆包”大模型的AI教育应用,主要面向学生提供个性化学习支持。它集成了拍照搜题、AI讲题、作文指导、作业批改等功能,帮助学生解决学习难题、提升写作能力,并通过情感陪伴增强学习体验。此外,该工具设有家长验证机制,鼓励学生自主学习,确保AI作为辅助工具发挥作用。

TimesFM 2.0

TimesFM 2.0是谷歌推出的开源时间序列预测模型,采用仅解码器架构,支持处理长达2048个时间点的单变量序列,具备灵活的预测频率选择与分位头预测功能。模型通过大规模自监督预训练,覆盖多个领域,具有优秀的泛化能力。适用于零售、金融、交通、环境监测等多个场景,为数据分析与决策提供支持。

混元图像2.0

混元图像2.0是腾讯开发的AI图像生成工具,支持文本、语音、草图等多种输入方式,具备实时生成能力。其采用单双流DiT架构和多模态大语言模型,生成图像写实性强、细节丰富,且响应速度快,适用于创意设计、广告营销、教育、游戏等多个领域。用户可通过网页端直接操作,实现高效的图像创作体验。

PromptLoop

Promptloop 是一个帮助您编写更好文本的网站。它使用人工智能来生成改进您的写作风格、语法、词汇和内容的建议。

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器,允许图像生成模型生成任意分辨率和宽高比的图像,同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm,ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

Open Notebook

Open Notebook是一款开源、注重隐私的笔记管理工具,支持多笔记本和多AI模型(如Open AI、Anthropic)。它具备播客生成器、内容集成、AI驱动笔记、集成搜索等核心功能,适用于学术研究、教育、企业知识管理和个人知识整理等多个场景,通过自然语言处理和搜索技术提升信息处理效率。

xAI Grok-2

xAI的Grok-2代表了语言模型技术的新进展,特别是其推理能力,为处理复杂的数据分析和自然语言理解任务提供了强大的工具。

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型,利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务,如音乐创作、声音效果设计及语音合成,并可通过ComposableART技术实现对声音属性的精细调控。此外,Fugatto擅长生成动态变化的声音景观,广泛应用于音乐创作、声音设计及广告音频制作等领域。

WebDreamer

WebDreamer是一款基于大型语言模型的网络智能体,专注于通过模拟和预测网络交互结果来进行高效的任务规划与决策。它具备模拟函数、评分函数以及候选动作生成等功能,能够显著提升网络任务执行的效率与安全性,同时支持多种应用场景,包括网页自动化、智能搜索、客户服务等领域。