大模型编程能力评估：算法与工程的全面对比

🎯 引言

随着大语言模型（LLM）的迅速发展，越来越多的模型被用于辅助甚至主导编程任务。然而，大模型究竟在代码能力方面达到了怎样的水平？它们是否适合实际的软件工程场景？哪些模型更适合算法问题，哪些则在工程实现方面更为擅长？

本文围绕大模型的编程能力评估展开，结合两个具有代表性的公开评测榜单（LiveCodeBench 和 SWE-Bench），并以两个自构造的典型测试样例（小球物理模拟 + Triton 算子实现）作为补充，实测多个主流大模型的表现，包括 GPT-4o、Claude Sonnet 4、Gemini 2.5 Pro、Kimi K2、DeepSeek R1、豆包、Qwen3-235B 等。

📊 了解大模型的代码能力

🏆 LiveCodeBench: 测试算法能力

LiveCodeBench 是由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发的先进评测基准。通过从 LeetCode、AtCoder 和 CodeForces 等竞赛平台实时收集新发布的编程问题，确保评测的无污染性（仅使用模型训练截止日期之后发布的问题），并涵盖代码生成、代码自修复（基于反馈调试代码）、代码执行以及测试输出预测等多种代码相关能力。

Leaderboards 网址： https://livecodebench.github.io/leaderboard.html

7/1/2024 - 2/1/2025 榜单

LiveCodeBench 2024年7月至2025年2月榜单排名

8/1/2024 - 5/1/2025 榜单

LiveCodeBench 2024年8月至2025年5月榜单排名

🔧 SWE-Bench: 测试工程能力

SWE-Bench（Software Engineering Benchmark）是由普林斯顿大学 NLP 团队于 2023 年 10 月提出，旨在评估大语言模型（LLM）解决真实软件工程问题（如 bug 修复和功能改进）的能力，而非传统算法题解决能力。

从 12 个流行的开源 Python 仓库中收集了 2,294 个任务实例，每个任务基于 GitHub issue 和对应 Pull Request（PR），要求模型生成代码补丁以解决问题，并通过仓库测试套件验证补丁的正确性
SWE-Bench 被认为是最具挑战性的编程基准之一，因为它模拟了真实软件开发中的复杂场景

Leaderboards 网址： https://www.swebench.com/index.html

📈 Claude 的功能能力很强

Claude 在 SWE-Bench 上的优异表现

📉 开源模型仍有差距

开源模型距离闭源模型还有一定差距

🧪 自测样例

⚽ 经典小球测试样例

该样例可以方便测试人员肉眼观察代码实现效果，不需要懂代码的人也能通过代码运行结果来直观体会到模型的代码撰写能力。不过注意这个测试样例主要是用于简单验证大模型的代码编程能力，只能作为初步判断，不一定能完全体现出模型的能力。

🎯 测试Prompt：

编写一个 html 代码，模拟一个小球在匀速旋转的六边形内部弹跳的物理效果（包括重力、碰撞反作用力、摩擦力等）。球应该受到重力，在碰到六边形的内壁后会回弹，受到碰撞反作用力、摩擦力的影响。注意球的初始化位置在六边形内部的中心。

⚠️ 注意事项：

这里所有测试都取第一次的结果，不代表模型能达到的最优效果。比如 Kimi K2 模型在第一次运行失败，第二次运行成功
这个测试样例比较经典，不排除有部分模型会针对这个测试样例专门进行优化，所以能完成这个测试样例不代表模型能力一定很强，只能说至少应该是在基本能用的水平以上

Claude Sonnet 4

基本合理，还额外增加了一些功能，比如增加小球和去掉小球

Claude Sonnet 4 - 基本合理，功能丰富

✅ 优秀

GPT-4o

完全错了，小球跳出了六边形

GPT-4o - 小球跳出六边形

❌ 失败

GPT o4-mini-high

基本合理

GPT o4-mini-high - 基本合理

✅ 良好

Grok 4

完全错了，六边形都没有成功画出来

Grok 4 - 六边形绘制失败

❌ 失败

Gemini 2.5 Pro

六边形正确生成，但是没有生成小球

Gemini 2.5 Pro - 缺少小球

❌ 未生成小球

Kimi K2

物理规律还行，不过六边形没有旋转。再给 kimi 一次机会，可以正确做对

Kimi K2 第一次 - 六边形未旋转

Kimi K2 第二次 - 成功

✅ 良好（需重试）

DeepSeek R1

物理规律还行，不过后面小球跳出六边形还是算失败了。给 deepseek 第二次机会，物理规律依然还不错，但是球还是跳出六边形了

DeepSeek R1 第一次 - 小球跳出

DeepSeek R1 第二次 - 仍然跳出

❌ 物理出界

豆包

基本符合预期

豆包第一次 - 基本合理

豆包第二次 - 持续稳定

✅ 良好

⚡ Triton 算子编写测试案例

🎯 测试Prompt：

请你用 Triton 从零实现一个与 torch.nn.functional.layer_norm 完全等价的前向算子，并编写相应的测试与基准验证脚本。

实现 layernorm_triton(x, weight, bias, eps=1e-5)，与 torch.nn.functional.layer_norm(x, [x.size(-1)], weight, bias, eps) 在数值上逐元素一致（CUDA 张量输入／输出）
主函数中测试多组输入形状 (使用 [32,1024]、[64,4096]、[8,16384]）及三种数据类型：float32、float16、bfloat16，打印绝对误差和相对误差，判断实现是否正确（验证 max_abs_error < 2e-2，mean_abs_error < 1e-2）
主函数中同时测量在形状 [64,4096] 输入下，分别调用 Triton 实现与 PyTorch 原生 layer_norm 各 100 次的平均耗时（使用 torch.cuda.Event）
所有代码写到一个脚本里，结果打印尽量简洁

GPT o4-mini-high

生成代码完成度（算子实现、测试样例）和正确性都符合预期。（毕竟 Triton 是 OpenAI 开发的，要是这都写不出来就有点尴尬了...）

GPT o4-mini-high - Triton实现成功

✅ 优秀