模型

unsloth

Unsloth 是一款高效开源的LLM微调工具,通过优化计算流程和GPU内核设计,大幅提升训练速度并降低内存占用。支持多种主流大模型,提供动态量化、长上下文支持等功能,适用于学术研究、企业应用及资源受限环境中的模型优化。

Animate Anyone

Animate Anyone是一款由阿里巴巴智能计算研究院开发的开源框架,旨在将静态图像中的角色或人物动态化。它采用扩散模型,结合ReferenceNet、Pose Guider姿态引导器和时序生成模块等技术,确保输出的动态视频具有高度一致性和稳定性。该框架支持多种应用,包括角色动态化、时尚视频合成及人类舞蹈生成,用户可通过GitHub或Hugging Face社区轻松体验。

START

START是由阿里巴巴集团与中科大联合研发的工具增强型推理模型,通过集成外部工具(如Python代码执行器)提升大型语言模型的推理能力。其核心在于“Hint-infer”和“Hint-RFT”技术,结合长链推理与工具调用,显著提高复杂数学、科学问题及编程任务的准确性和效率。该模型具备自我调试、多策略探索和自学习能力,适用于科研、教育、编程等多个领域,是首个开源的长链推理与工具集成模型。

SigLIP 2

SigLIP 2 是 Google DeepMind 开发的多语言视觉-语言模型,具有强大的图像与文本对齐能力。它支持多种语言输入,具备零样本分类、图像-文本检索等功能,并通过 Sigmoid 损失函数和自监督学习技术提升训练效率与模型性能。其支持多种分辨率的变体,适用于文档理解、视觉问答及开放词汇任务。该模型基于 Vision Transformer 架构,具备良好的兼容性。

MLE

MLE-Agent是一款面向机器学习工程师和研究人员的智能助手,具备自动化基线创建、智能调试、文件系统集成、工具集成和交互式命令行界面等功能。它通过集成大型语言模型(LLM)、自动化机器学习(AutoML)、代码生成和检索(Code Generation and Retrieval)以及智能调试(Smart Debugging)等技术,提供无缝的AI工程和研究体验。MLE-Agent支持与多个AI

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

FinRobot

FinRobot是一款开源的AI代理平台,专注于金融领域的应用,基于大型语言模型(LLMs)构建能够执行复杂分析和决策的专业金融AI代理。平台通过金融思维链(CoT)提示功能提升分析能力,并通过开源方式促进AI在金融决策中的广泛应用。架构涵盖金融AI代理层、金融LLM算法层、LLMOps和DataOps层以及多源LLM基础模型层,支持市场预测、文档分析及交易策略等多种金融专业AI代理。

Lobe Vidol

Lobe Vidol是一个开源的数字人创作平台,支持用户轻松创建和定制虚拟偶像。它具备流畅的对话交互、背景设定、动作库、角色编辑功能,还支持MMD舞蹈和PMX舞台加载。通过TTS与STT技术,Lobe Vidol实现了语音与文本的双向转换,提供沉浸式用户体验。 ---

UI

UI-TARS是由字节跳动开发的图形用户界面代理模型,支持通过自然语言实现桌面、移动端和网页的自动化交互。具备多模态感知、跨平台操作、视觉识别、任务规划与记忆管理等功能,适用于自动化任务执行和复杂交互场景。支持云端与本地部署,提供丰富的开发接口,便于集成与扩展。

Kokoro

Kokoro-TTS是一款由hexgrad开发的轻量级文本转语音工具,基于StyleTTS 2与ISTFTNet架构,支持多种语音风格和自然语调,具备实时处理能力。支持美式与英式英语,提供10种语音包,适用于教育、游戏、客服等多种场景。支持本地部署与API集成,确保数据安全与高效运行。