模型

Dezgo

Dezgo是一款集文本到图像生成、图像编辑与多模型支持于一体的AI艺术工具,支持用户通过输入文本描述快速生成高质量图像。其主要功能包括文本到图像生成、图像到图像调整、自定义纵横比及图像编辑,广泛应用于艺术创作、营销材料、内容创作、教育研究、游戏开发及影视制作等领域。

novelcrafter

Novelcrafter是一款面向小说作者的AI辅助写作工具,集成了角色设定、情节规划、灵感捕捉等功能,同时支持AI交互式对话与大纲细化,助力从创意萌芽到最终成稿的全流程。具备高度灵活性和隐私保障,适合各类写作需求。

谷歌DeepMind推出V2A技术,可为无声视频添加逼真音效

DeepMind推出的V2A(Video-to-Audio)模型能够将视频内容与文本提示相结合,生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作,还能与其他视频生成模型,如Sora、可灵或Gen 3等,进行集成,从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

Dream

Dream-7B是由香港大学与华为诺亚方舟实验室联合开发的开源扩散模型,支持文本、数学和代码生成,具备双向上下文建模能力和灵活的生成控制。其在通用任务、数学推理和编程方面表现优异,适用于文本创作、数学求解、编程辅助及复杂任务规划等多种场景,提供高效且高质量的生成服务。

OpenRouter

OpenRouter是一个提供统一接口访问多种AI语言模型的服务平台,支持GPT-4、Claude和开源模型等热门模型。用户能够通过单一API与多个模型进行交互,获得多样化的回答,并通过交互式游乐场测试不同模型的表现。OpenRouter还支持与各种应用程序和框架的集成,简化开发人员将AI功能融入项目的过程。其主要功能包括模型路由、多提供商支持、性能与成本优化、用户反馈学习及开发者工具。

Skyvern

Skyvern是一款基于开源的浏览器自动化工具,集成了大型语言模型和计算机视觉技术,用于实现网页内容解析、交互计划生成及执行。其主要功能涵盖CAPTCHA解决、双因素认证支持、代理网络配置、可解释AI操作以及数据提取等,适用于网站数据抓取、表单填写、网页测试等多种应用场景。

幻方AI

成立于2019年12月,专注于人工智能(AI)领域的算法与基础应用研究。公司致力于通过前沿科技的研发,激发创造力和想象力,推动人类梦想的实现。

VALL

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为 VALL-E),并将 TTS 视为...

TimesFM 2.0

TimesFM 2.0是谷歌推出的开源时间序列预测模型,采用仅解码器架构,支持处理长达2048个时间点的单变量序列,具备灵活的预测频率选择与分位头预测功能。模型通过大规模自监督预训练,覆盖多个领域,具有优秀的泛化能力。适用于零售、金融、交通、环境监测等多个场景,为数据分析与决策提供支持。

MedGemma

MedGemma是谷歌推出的开源AI模型,专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告,27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署,适用于医疗诊断、患者分诊、临床决策辅助等场景,提升医疗服务效率与准确性。