应用

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

码哩写作

码哩写作是一款利用生成式AI技术辅助小说创作的工具,支持从故事设定到成品发布的全流程管理,涵盖超短篇、短篇及长篇小说创作,提供故事要素生成、大纲制定、章节细化及正文输出等功能,生成内容自然流畅且风格统一。

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型,基于 Qwen2.5-VL 架构,结合强化学习优化技术,具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析,支持自然语言指令定位图像目标,并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

SynthLight

SynthLight是由耶鲁大学与Adobe Research联合开发的基于扩散模型的人像重照明工具,通过物理渲染引擎生成合成数据并结合多任务训练策略,实现高质量的光照效果生成。它能够根据环境光照图重新渲染人像,生成自然的高光、阴影和漫反射效果,并适用于摄影后期、虚拟场景、游戏开发及广告设计等多个领域,具备良好的泛化能力和实用性。

Genius Sheets

Genius Sheets是一款基于人工智能的工具,可以根据文本提示提供即时分析。它允许用户从现有的Excel或谷歌Sheets工作簿中生成报告和财务模型,从而使用户能够以全新的方式与数据交互。

FastVLM

FastVLM是一款高效的视觉语言模型,采用FastViTHD混合视觉编码器,显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时,降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务,具备良好的实用性和扩展性。

AI觉醒社区

AI觉醒社区,是集AI导航,AI社区圈子,AI快资讯,AI供求关系,AI问答平台,AI小店的一站式AIGC平台。

Cobra

Cobra是由清华大学、香港中文大学和腾讯ARC实验室联合开发的漫画线稿上色框架,采用因果稀疏注意力机制和局部可复用位置编码技术,实现高精度、高效率的自动上色。支持颜色提示调整,提升灵活性与个性化。适用于漫画、动画、插画等多种场景,具有高效的推理能力和良好的扩展性。项目已开源,包含技术论文与模型资源。

Magnific AI

Magnific AI,一个基于生成式AI的图像超分辨率增强工具,不仅可以实现图片的分辨率提升,更可以依靠自然语言提示和“创意”滑块等控制参数,让AI主动增加和“猜想”更多细节信息。

Banger

Banger是一款基于AI技术的音乐创作工具,支持用户对现有歌曲进行翻唱创作。它提供无缝人声替换、丰富语音库、个性化设置等功能,适用于个人创作、音乐教学、社交媒体分享等多种场景。用户可选择内置模板或上传原声,生成高质量翻唱作品并进行分享。Banger简化了音乐制作流程,降低了创作门槛,适合各类音乐爱好者和创作者使用。