阿里巴巴深夜开源80B编程模型!揭示智能代理专家周敬仁、林俊阳的最新成果

智动智作者、编辑李水清新源智东西2月4日报道,阿里巴巴今天凌晨开放了专为本地开发和编程代理设计的小型混合专家模型Qwen3-Coder-Next。该模型共有 80B 个参数,只有 3B 个激活参数。它在著名的 SWE-Bench Verified 基准上实现了超过 70% 的问题解决率,其性能可与激活参数大 10 至 20 倍的密集模型相媲美。 Qwen3-Coder-Next的主要改进有: 1.高效的MoE架构:仅需激活3B个参数,即可达到与10倍至20倍激活参数的模型相当的性能,例如37B激活参数的DeepSeek-V3.2和32B激活参数的Kimi K2.5,降低了对显存和计算能力的要求。 2. 强大的代理能力:goodIt在长期推理、复杂工具的使用以及从e中恢复方面表现出色执行失败,为动态编程任务提供强大的性能。 3.与现实IDE的多样化集成:上下文长度为256k,适应各种脚手架模板,可以与OpenClaw、Qwen Code、Claude Code、Web开发、浏览器使用、Cline等各种CLI/IDE平台无缝集成,支持各种开发环境。在实际开发中,Qwen3-Coder-Next可以理解需求、编写代码、与环境交互来完成任务。它可以自动生成可玩的网页游戏、部署服务并测试它们,无需人工干预。阿里巴巴正在不断推进智能代理编程。就在昨天,阿里云技术总监周敬仁与阿里钱文大模型技术总监林杰在Arxiv平台上发布了Unyang签署的文件,为加速下一代调度农业的发展提供了新的资源和可靠的方法。恩特。简而言之,他们提出了 SWE-Universe,这是一个可扩展且高效的框架,用于从 GitHub 拉取请求自动构建可验证的现实世界软件工程环境 (SWE)。该团队使用构建代理将现实世界的多语言 SWE 环境的数量扩展到近 100 万个 (807,693)。最后,团队将该技术应用到了Qwen3-Max-Thinking上,在SWE-Bench Verified测试中取得了75.3%的高分。 ▲文章截图 文章地址:https://www.arxiv.org/abs/2602.02361 回到为业界发布的新模型,团队正式开放了 Qwen3-Coder-Next (Base) 和 Qwen3-Coder-Next (Instruct) 两个版本,以支持它们的各种研究、评估和商业应用场景。 Qwen3-Coder-Next一经发布就引起了广泛关注,有网友在社交平台上发帖。 ▲先生社交平台评论脸地址:https://huggingface.co/collections/Qwen/qwen3-coder-next GitHub地址:https://github.com/QwenLM/Qwen3-Coder 技术报告地址:http://qwen.ai/blog?id=qwen3-coder-next 1. 实际测量结果为 10-20,激活参数相当于密度模型加倍并放一天。深度搜索。尽管激活参数规模较小,但 Qwen3-Coder-Next 在多智能体评估方面可以匹配或超越一些大型开源模型。该模型在 SWE-Bench、Terminal Bench 2.0、Aider 等传统调度代理的多个基准上的性能如下: ▲ Qwen3-Coder-Next 实测性能 使用 SWE-Agent 框架,Qwen3-Coder-Next 在 SWE-Bench Viewified 上取得了 70% 以上的成绩,超越 DeepSeek-V3.2,接近 GLM-4.7 和 MiniMax M2.1。即使在多语言设置和最困难的 SWE-Bench-Pro 基准测试中,Qwen3-Coder-Next 的性能也优于 DeepSeek-V3.2,并且显着优于 GLM-4.7 和 MiniMax M2.1。在效率方面,Qwen3-Coder-Next与SWE中的同类模型进行了比较-Bench-Pro 基准测试。虽然每次推理仅激活 3B 参数,但我们可以实现与具有 10 倍到 20 倍激活参数的模型相当的基准性能,例如具有 37B 激活参数的 DeepSeek-V3.2、具有 32B 激活参数的 GLM-4.7 和具有 32B 激活参数的 Kimi K2.5。虽然其自己的全注意力模型在绝对性能方面仍然领先,但 Qwen3-Coder-Next 可以实现更好的 Pareto。低成本代理实施的应用场景中效率与性能的权衡。 ▲ Qwen3-Coder-Next 的性能测量 2. 智能体训练的创新方程:强化智能体训练的信号 Qwen3-Coder-Next 模型建立在 Qwen3-Next-80B-A3B-Base 之上,使用新的混合注意力架构和 MoE。大规模合成可执行任务,与环境交互,利用强化学习来训练智能体,提高智能体的调度和能力,同时减少推理成本。 Qwen3-Coder-Next 专注于扩展代理训练信号,而不是仅仅依赖于参数规模扩展。该团队使用大规模可测试的编程任务和执行环境进行训练,使模型能够直接从环境反馈中学习,而不是仅仅依赖静态文本。训练过程主要包括: 1、持续预训练:围绕代码和智能体在大规模数据上进行。 2. 监督调优:基于高质量的智能体交互轨迹优化模型行为。 3. 领域专家培训:培养软件工程、问答、Web/UX 等特定领域的专家技能。 4. 经验提炼:最终,27 位专家的能力被组合成一个轻量级、可部署的模型。这套“秘诀”的主要目标是教授模型长期推理、熟练使用工具以及从执行错误中有效恢复。这些是实际调度所需的主要功能代理人。 3. 多功能下游应用集成、游戏生成和测试,无需人工干预。 Qwen3-Coder-Next的价值还体现在其较低的采用门槛和应用体验上。得益于仅有3B的激活参数,它的开发用户可以灵活地将其融入到各种场景中。作为本地 IDE 插件提供自动修复和代码生成。创建命令行代理(CLI 代理)以与终端交互并通过自然语言管理您的项目。将其部署到您的企业内联网环境中,以创建响应灵敏的私有化调度支持系统。 “激活小、响应快、功能强大”为调度代理的大规模部署提供了一条更加可行的路径。该模型采用OpenClaw、Qwen Code、Claude,可以集成到多种下游应用中,涵盖代码、Web开发、基于浏览器、Cline等多种开发环境。结论:通过研发和实施的双重投入,阿里巴巴提升了编程智能。编程智能正在成为阿里巴巴统一钱文团队的强势攻坚领域。 Qwen3-Coder-Next在调度代理基准测试中表现出了优异的性能,展示了该技术在实际场景中的应用价值。周敬仁和林俊阳签署的新文件代表了编程代理新领域的推进,塑造了加速开发和部署的趋势。展望未来,该团队认为,强大的代理能力,例如自主使用工具、解决难题、管理复杂任务等,是改善代理调度的关键。接下来,团队计划提升模型的推理和决策能力,支持更多任务,并根据使用反馈快速迭代更新。
特别提示:以上内容(包括图片和视频,如有)均为上传发布由自有资金平台“网易账户”的用户编辑。本平台仅提供信息存储服务。
注:以上内容(包括这些照片和视频,如有)由仅提供数据存储服务的社交媒体平台网易号用户上传和发布。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部