多模态

CogSound

CogSound是一款基于AI的音效生成工具,能够为无声视频添加与内容匹配的高质量音效,涵盖多种复杂场景。该工具通过先进的音视频特征匹配技术和优化的生成算法,提升了视频的沉浸感和真实感,广泛应用于视频创作、广告制作及影视后期等多个领域。

The Language of Motion

The Language of Motion是一款由斯坦福大学李飞飞团队开发的多模态语言模型,能够处理文本、语音和动作数据,生成对应的输出模态。该模型在共同语音手势生成任务上表现出色,且支持情感预测等创新任务。它采用编码器-解码器架构,并通过端到端训练实现跨模态信息对齐。The Language of Motion广泛应用于游戏开发、电影制作、虚拟现实、增强现实及社交机器人等领域,推动了虚拟角色自

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架,基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动,适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构,提升生成效果与稳定性,广泛应用于影视、游戏、教育、广告等领域。

AI Now

AI Now是一款由联想推出的个人AI助手,内置Meta Llama 3等本地大型语言模型,支持自然语言交互、内容生成、设备管理和跨设备数据传输等功能。它注重数据安全与隐私保护,通过本地加密和个人知识库实现全面的数据控制。AI Now适用于个人助理、教育辅导、办公自动化、内容创作以及客户服务等多种应用场景,旨在提高用户的工作效率和生活质量。

Paper2Poster

Paper2Poster是由加拿大滑铁卢大学、新加坡国立大学等机构推出的学术框架,基于多模态自动化技术从科学论文生成海报。它通过Parser、Planner和Painter–Commenter系统实现内容压缩、布局优化和视觉质量提升,支持将长篇论文转化为结构化视觉海报。Paper2Poster引入PaperQuiz评估方法,确保海报有效传达核心内容,提高生成效率,适用于学术会议、报告、科研展示及教

SwiftChat

一款基于React Native开发的快速、安全、跨平台聊天应用,支持实时流式聊天功能和Markdown语法,还可以生成AI图像,兼容DeepSeek、Amazon Bedrock、Ollama和OpenAI等模型。

LangBot

LangBot 是一款开源的多平台即时通讯机器人,支持多种主流通信工具及大语言模型。具备多模态交互、多轮对话、插件扩展和安全管理等功能,适用于企业客服、个人助理、社区管理、教育辅导和内容创作等场景,提供灵活、安全的自动化服务。

HuggingSnap

HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用,采用轻量级多模态模型 SmolVLM2,支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能,适用于旅行、日常辅助、医疗及零售等场景,确保用户数据安全。

Jina AI

一家一家专注于神经搜索技术的商业开源软件公司,Jina AI致力于通过深度学习技术简化非结构化数据的搜索,提供高效、准确的搜索解决方案。

Mistral OCR

Mistral OCR 是 Mistral AI 推出的高效 OCR 工具,支持多语言、多格式文档处理,准确率高达 99.02%。具备结构化输出、高速处理、多模态识别及 Doc-as-prompt 功能,适用于科研、文化遗产保护及企业文档管理等场景。