多模态处理

觅果·Migo

觅果·Migo 是一款基于 AI 技术的学习与研究平台，支持多模态内容处理，涵盖文本、图像和数据。提供智能问答、网页辅读、文献分析、学术写作、化学辅助等功能，适用于科研、学习与内容创作。用户可通过云端访问，实现多设备无缝切换，提升信息处理与知识管理效率。

AI项目与工具 2025年06月11日 45 点赞 0 评论 508 浏览

Amazon Nova Premier

Amazon Nova Premier 是亚马逊推出的多模态 AI 模型，支持文本、图像和视频输入，具备超长上下文处理能力（最高达 100 万 token），适用于复杂任务处理、多步骤规划与跨数据源执行。可通过模型蒸馏生成轻量级版本，优化生产部署。支持多语言，具备安全控制机制，广泛应用于金融、法律、软件开发等领域。

AI项目与工具 2025年06月11日 39 点赞 0 评论 583 浏览

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架，通过引入SAGI和SALQ注意力控制策略及主体定位模块，提升图像生成质量与一致性。支持零样本图像生成，适用于主体特征保持、背景一致性维护等多种任务，广泛应用于数字内容创作、广告设计、艺术创作等领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 528 浏览

DICE

DICE-Talk是由复旦大学与腾讯优图实验室联合开发的动态肖像生成框架，能够根据音频和参考图像生成具有情感表达的高质量视频。其核心在于情感与身份的解耦建模，结合情感关联增强和判别机制，确保生成内容的情感一致性与视觉质量。该工具支持多模态输入，具备良好的泛化能力和用户自定义功能，适用于数字人、影视制作、VR/AR、教育及心理健康等多个领域。

AI项目与工具 2025年06月11日 87 点赞 0 评论 646 浏览

II

II-Agent 是一个开源的 Agent 框架，通过与大型语言模型（LLM）交互，简化和提升跨领域的工作流程。其核心功能包括研究与事实核查、内容生成、数据分析与可视化、软件开发、工作流自动化及问题解决等。具备动态上下文提示、智能 token 管理、规划与反思能力、多模态处理以及实时通信等功能。支持 CLI 和 WebSocket 接口，适用于智能客服、金融投顾、医疗诊断和教育辅导等多种场景。

AI项目与工具 2025年06月11日 67 点赞 0 评论 541 浏览

SmolVLA

SmolVLA是Hugging Face开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，可在CPU上运行，单个消费级GPU即可训练，适合在MacBook上部署。它能够处理多模态输入，生成动作序列，并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。

AI项目与工具 2025年06月11日 34 点赞 0 评论 659 浏览

智谱AutoGLM Web

基于智谱开发的AutoGLM，是由智谱AI团队开发的先进AI智能体，它专为模拟人类操作手机和网页而设计，能够理解屏幕界面信息。

GPTs应用 2025年06月05日 21 点赞 0 评论 807 浏览

Jina AI

一家一家专注于神经搜索技术的商业开源软件公司，Jina AI致力于通过深度学习技术简化非结构化数据的搜索，提供高效、准确的搜索解决方案。

AI搜索问答 2025年06月05日 80 点赞 0 评论 610 浏览

多模态处理

首页

多模态处理

列表

默认

浏览次数

发布日期