admin的文章

字节跳动发布“豆包MarsCode”智能开发工具，面向国内开发者免费

豆包MarsCode是一款由字节跳动开发的免费AI编程工具，提供AI驱动的云端集成开发环境（IDE）和智能编程扩展。其主要功能包括代码补全、生成、优化、注释生成、代码解释和错误修复等。MarsCode支持云函数开发，集成API测试、存储和部署工具，并能自动生成JSON Schema。此外，MarsCode扩展支持多种编程语言和IDE，涵盖从代码编辑到单元测试生成的多个辅助功能，显著提升了编码效率和

831 0

CriticGPT

CriticGPT是一种基于GPT-4架构的人工智能模型，专注于审查和识别由大型语言模型生成的代码中的错误。它利用人类反馈强化学习（RLHF）技术，显著提高了代码审查的准确性和效率。CriticGPT具备代码审核、错误识别、安全漏洞分析、反馈生成、性能评估和辅助学习等功能。它通过记录人类评估员故意插入的错误，生成训练数据，并使用近端策略优化（PPO）算法和强制采样波束搜索（FSBS）技术，生成详细

580 0

Gemma 2

Gemma 2是一款由谷歌DeepMind开发的开源人工智能模型，提供90亿和270亿参数版本。它具有卓越的性能、高效的推理速度和广泛的硬件兼容性，适用于各种应用场景。Gemma 2不仅支持多种AI框架，还提供了丰富的资源和工具，以支持开发者和研究人员负责任地构建和部署AI。

831 0

MimicMotion

MimicMotion是一款由腾讯研究团队开发的高质量人类动作视频生成框架。该框架利用置信度感知的姿态引导技术，确保视频帧的高质量和时间上的平滑过渡。通过区域损失放大和手部区域增强，显著减少了图像失真，增强了手部动作的细节表现。该框架还支持长视频生成，通过渐进式潜在融合策略，确保视频生成时的时间连贯性和细节丰富度。

523 0

FreeAskInternet

FreeAskInternet是一款免费开源的本地AI搜索引擎，集成了先进的大型语言模型和元搜索引擎，支持本地化搜索聚合和智能答案生成。它确保用户数据的私密性和安全性，无需GPU支持即可运行，并提供自定义的大型语言模型选项。此外，FreeAskInternet具备友好的用户界面，可通过简单的部署流程快速搭建。

696 0

Fish Speech

Fish Speech是一款开源的文本到语音（TTS）工具，支持中文、英文和日文。它通过大约15万小时的多语种数据训练，实现了接近人类水平的语音合成效果。该工具的特点包括低显存需求（仅需4GB）、快速推理速度、高自定义性和灵活性。Fish Speech支持多种语音生成模型，如VITS2、Bert-VITS2等，适用于智能助手、自动客服、语言学习等多个领域。

763 0

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型，具备听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语，主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

834 0

Kimi浏览器插件

Kimi浏览器插件是一款集成即时问答、全文摘要和划线互动功能的工具，支持用户通过划线提问获取上下文相关答案，并可一键生成文章摘要，提高阅读效率。划线互动功能还允许用户查看其他用户对特定文本的疑问和解答，增强社区互动。插件兼容多种浏览器，提供简洁的用户体验，适用于学术研究、资料查询、学习新知识、专业信息检索、内容创作等多个应用场景。

850 0

EchoMimic

EchoMimic是一款由阿里蚂蚁集团开发的AI数字人开源项目，通过深度学习模型结合音频和面部标志点，创造出高度逼真的动态肖像视频。该工具支持音频同步动画、面部特征融合、多模态学习和跨语言能力，适用于娱乐、教育和虚拟现实等领域。其独特的技术原理包括音频特征提取、面部标志点定位、面部动画生成和多模态学习，使用了卷积神经网络（CNN）、循环神经网络（RNN）和生成对抗网络（GAN）等深度学习模型，实现

920 0

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目，包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识，支持超过50种语言；CosyVoice则专注于自然语音生成，支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景，其相关模型和代码已公开发布。

680 0

admin

TA的文章