AI Coding能撑起一个多大的叙事?

AICoding是一个我很感兴趣的方向。

还是得说到Cursor，这是一个给我带来惊喜的产品，作为曾经学计算机的二把刀选手，已经很久没碰代码了，用Cursor生成代码，还是能让我构建一个demo，一下就能运行起来，这种简单和顺畅的体感非常真切。我也发现身边的开发者，用Cursor的越来越多。

我和做AICoding的从业者讨论过，如果用自动化程度来看AICoding的进展的话，一个美好又科幻的展望是这样的：

L1：给程序员用的工具，Copilot。（当下大家在使用的产品，GitGubCopilot、Cursor）

L2：从idea到demo，通过自然语言，建立产品demo，做到业务能力和代码能力分离。这一阶段只能交付demo，不能交付实用产品。

L3：AI程序员，AutoPilot，能端到端的完成编程任务，不需要程序员介入。（融了很多钱的Poolside、Magic做这个，产品还是期货状态，效果如何是个开放问题。）

L4：从一个idea到一个实用产品，多个AI角色协作完成任务，包括AI产品经理+AI程序员+AI测试员+AI运维等。（这个还比较科幻，当下模型能力相差甚远，听听就好。）

L5：AI接管App工厂中的多个职能，除了编程，还包括AI投放、AI收集用户反馈、自动迭代、AI尝试商业化。（更科幻了，先当故事听听。）

从L1到L5，能走到哪一步不好说，这取决于模型能力的提升。

一种思考方式：手写代码是螺丝刀，AIcoding是电动螺丝刀，AICoding这个工具有多大的市场规模？这是比较现实的角度。

一种思考方式：随着摄影机的提升和普及，乃至手机拍摄，视频内容出现了什么新形式？出现了什么新平台？同样，随着AICoding的提升，应用产品会有哪些变化？有什么增量机会？这是叙事的角度。

所以，AICoding能撑起一个多大的叙事？

美国老牌VCGreylock写过一篇文章《CodeSmarter，NotHarder》，系统梳理了三类AICoding创业公司，现状如何，遇到的难题是什么。可能是目前对AICoding分析最系统的一篇文章了，我翻译分享给大家。

CodeSmarter，NotHarder

AICoding是一个巨大的机遇：解锁高保证、可靠的AI，进行代码生成和重塑工作流程。

编程这项工作非常适合AI增强或替代，原因如下：

1.编码本质上要求工程师将问题分解成更小、更易管理的任务；

2.有大量现有的训练数据；

3.任务需要判断力和基于规则的工作相结合；

4.解决方案利用可组合的模块（比如开源软件库等）；

5.在某些情况下，工作成果可以通过经验测试其正确性。这意味着可靠的AI编码工具可以提供可量化的价值。

过去一年里，AICoding工具爆发式增长。最终，是希望这些编码工具做到和人类工程师一样好，甚至超越，但仍有很多悬而未决的问题。

我们看到了做AICoding的三种方法，这三种方法对应三个挑战：

1.如何创造更强的上下文感知能力？

2.如何让AIAgent在端到端编码任务中做得更好？

3.有人押注于编码模型，这能否带来长期的差异化？

市场现状

在过去的一年里，我们看到初创公司采取了三种方法：

1.AICopilots和Chat界面，做副驾驶，辅助工程师，提升他的编程能力。

2.AIAgent，做主驾，替代掉工程师，能端到端的完成任务。

3.构建编程模型，用特定的代码数据训练一个专有模型，并与应用垂直整合。

这三条道路上各有一批公司，我们来看看行业地图。

1.增强现有工作流程

如今，大多数AICoding创业公司的切入点是Copilot，在IDE中嵌入Chat界面，来增强工作流程。

虽然像Tabnine这样的公司研发代码助手多年，但AICoding的重要时刻是2021年GitHubCopilot发布：工程师开始使用GitHubCopilot写代码，市场上出现大量AICoding项目。

这类产品能有很好的验证，是因为：

产出代码是工程师的核心工作；

这类产品只要相对较少的上下文即可奏效；

多数情况下，它们可以在单一平台内捆绑；

因为，将输出直接放在用户面前（即在IDE中）允许他们负责所需的任何更正。

显而易见，这类产品最大的挑战是GitHubCopilot，GitHubCopilot已经占据了相当的市场份额。初创公司试图通过差异化来解决这个问题，找到立足点。比如，Codeium优先做企业客户，而Codium从代码测试和审查开始，从这一切入点拓展。

我们也相信，针对代码重构、代码审查和软件架构等任务的工具有很大机会。这些可能更复杂，因为它们不仅需要对代码有更广泛的理解，还需要理解不同文件之间的知识图谱、外部库、业务背景、软件的使用模式、以及复杂工具的选择。

无论切入点如何，这类产品统一的挑战是——如何更好地获取上下文，来完成代码库中更广更深的任务。

这是一个开放性问题，我们放在最后讨论。

2.AICodingAgent

如果增强工作流程有价值，那么更大的机会是取代某些工作流程。

能端到端执行任务的AICoding产品——工程师在做事情时，Agent同时在后台工作——将创造全新的生产力和创新模式。AICopilot是卖生产工具，AIAgent更进一步，在卖AI工程师。在一个AIcodingAgent很好用的世界里，一个人类可以同时监督多个“AI工程师”。

AIAgent的基本能力不仅仅是预测代码行中的下一个词。它需要将这种能力与执行复杂任务的能力结合起来，这种任务可能多达数十个步骤，并且像工程师一样从用户的角度考虑产品。

比如修复一个bug，它需要知道bug的位置、问题性质、它对产品的影响、修复bug可能会导致的任何上下游变化，等诸多问题，然后才能采取第一个行动。上下文必须来自像摄取Jira票据、更大块的代码库块、和其他信息源。能够编写详细的代码规范和准确的代码规划将成为AI工程师的核心。

我们在这一领域看到的产品包括：Devin、Factory、CodeGen、SWE-Agent、OpenDevin、AutoCodeRover、Trunk等。

那么，问题来了：为了让Agent能端到端的完成更多任务，我们需要做什么？这个问题我们留在后面回答。

3.代码模型公司

一些创始人认为，为了在AICoding应用层建立长期的差异化，需要拥有一个专门的代码模型。

听着似乎有道理，这是一条资本密集的道路，似乎有些问题阻碍创业公司走这条路：专门的代码模型更好？还是基础模型层持续进步，并超越代码模型？这个问题还不清楚。我将在开放问题部分进一步讨论这个话题。

首先，让我们回顾一下，大多数基础LLM并不是专门在代码上训练的，许多用于代码的模型，如CodeLlama和AlphaCode，是基于LLM基础模型做的，给它数百万个公开可用的代码点，然后针对编程需求微调来创建的。

注：时间线仅显示了部分代码模型和用于编码的LLM

如今，像Magic、Poolside和Augment这样的创业公司试图更进一步，正在训练自己的代码模型，通过生成自己的代码数据和人类对编程示例的反馈来训练模型（Poolside称之为“基于代码执行反馈的强化学习”）。他们的观点是，这样能带来更好的输出，减少对GPT-4或其他LLM的依赖，tp钱包并最终创建最持久的护城河。

核心技术问题是，一个新团队能否超越前沿模型的改进速度。基础模型发展如此之快，如果你试图深入研究代码专用模型，你会面临一个风险——在你的新模型训练完之前，一个更好的基础模型出现，并超越你的模型。模型训练是个资本密集的活儿，如果你在这个问题上判断失误，将会浪费大量的时间和金钱。

我知道一些团队正在采取（非常吸引人的）方法，即在基础模型上对特定任务进行特定微调，这样既可以受益于基础模型的进步，又能提高编程能力。我将在开放问题部分讨论这个问题。

开放问题

无论采取哪种方法，都需要解决一些技术挑战，来解锁更可靠的AIcoding工具，更低延迟，更好的用户体验：

如何创造更强大的上下文感知能力？（contextawareness）

如何让AIAgent在端到端任务中变现更好？

拥有代码模型这一基础设施，是否能带来具有长期差异化的产品？

开放问题1：如何创造更强大的上下文感知能力？

上下文问题的关键在于，某些编码任务需要正在工作的文件之外的信息和上下文，这些信息不能简单通过增加上下文窗口来访问。

从代码库的不同部分（甚至外部）检索这些信息是有挑战的，还可能增加延迟，这在即时完成的世界中是致命的。

这个问题也带来了创业机会，谁能准确和安全的找到所需的上下文？

目前，有两种方法可以做到：

持续微调：我听到客户说过“我希望一家公司能在我的代码库上安全地微调他们的模型”。虽然理论上对自己的代码库进行模型微调有用，但实际上有一个问题：一旦你调整了模型，它就变得静态的，除非你进行持续的预训练（这很昂贵，并且可能还是有幻觉）。如果做不到持续预训练，它可能在一段时间内变现很好，但没有随着代码库的演变而学习。

确实，微调变得越来越容易，所以定期对你的代码库进行模型微调是可行的。例如，Codeium提供“客户特定的微调”，但他们明确表示谨慎使用，因为最好的方法是上下文感知RAG。

上下文感知RAG：RAG也许是目前提高上下文的最佳方法，通过检索代码库中的相关片段。这里的挑战是，在很大的代码库中，检索排名问题非常复杂。

像AgenticRAG和RAG微调这样的概念正在普及，这是更好地利用上下文的有效方法。例如，Codeium在博客文章中分享了他们如何使用教科书式的RAG，并辅以更复杂的检索逻辑，爬取导入和目录结构，并把用户意图（比如你过去打开的文件）作为上下文。初创公司如果能把这些细节做好，将成为护城河。

开放问题2：如何让AIAgent在端到端的任务中变现更好？

尽管我们离完美的AI工程师还有一段路要走，但像Cognition、Factory、Codegen、SWE-Agent、OpenDevin和AutoCodeRover这样的公司正在取得进展。

SWEBench评估显示，大多数基础模型只能修复4%的问题，SWE-Agent达到12%，Cognition达到14%，OpenDevin高达21%。

一个有趣的想法（由AndrejKarpathy提出）是flow-engineering，它超越了single-prompt或Chain-of-ThoughtPrompt，专注于代码的迭代生成和测试。确实，PromptEngineering无需训练模型，就可以提高性能，但对一家公司来说，这在长期能有多大的护城河尚不清楚。

注意，这种测量方法有一定的局限性：就上下文而言，SWE-bench由Github的问题和拉取请求配对组成，因此当模型在它上面进行测试时，它只会得到代码库的一小部分（这是一种提示，同时也引入了偏差），而不是给予整个代码库并让它们自行解决。尽管如此，我认为SWE-Bench是一个很好的衡量标准，可以开始理解这些Agent。

代码规划将在AIAgent中扮演核心角色，我很期待看到更多公司专注于生成代码规范，这些规范可以帮助Agent建立目标、规划功能、定义实现方式、和定义架构。多步骤Agent推理仍是一个悬而未决的问题，据传闻这是OpenAI下一个代模型的重点课题。

事实上，一些人（如JimFan）会认为，AICodingAgent的护城河并不来自“套壳”，而是LLM本身及“解决现实世界软件工程问题的能力，具有人类级别的工具访问能力，比如搜索StackOverflow、阅读文档、自我反思、自我纠正，并执行长期一致的计划”。

这就引出了最后一个开放问题，也是最大的问题。

开放问题3：构建代码模型能否带来长期差异化的产品？

这是一个价值十亿美元的问题，初创公司是应该依赖现有LLM模型（无论是直接调用LLM的API，还是微调模型）？还是构建自己的代码模型？——即使用高质量的代码数据，从头做预训练，经历资本密集型的过程。

实际上，我们不知道代码模型是否会比下一代LLM有更好的结果。

这个问题可以归结为以下未知要素：

一个较小的代码模型能否胜过一个大得多的基础模型？

基于代码预训练模型，需要炼到什么程度才能看到显著改进？

是否有足够的高质量代码数据可供训练？

基础模型的大规模推理能力是否压倒一切？

Poolside、Magic和Augment的假设是，拥有底层模型，并在代码上训练它，可以显著提升代码生成质量。这种潜在优势在竞争中是有意义的：据我所知，GitHubCopilot并没有从头训练模型，而是运行在一个较小、经过大量代码微调的GPT模型上。

我猜这些公司不会构建一个基础级尺寸的模型，而是构建更小、更专业的模型。根据我与AICoding领域的人的交流，我的结论是，在结果发布之前，我们仍不知道这种方法能带来多大的改进。（Poolside、Magic等都未发布产品，虽然融了很多钱。）

也有人反驳代码模型：现有成功的AICodingCopilot，如Cursor和Devin，都是建立在GPT模型上，而不是基于代码模型。

据报道，DBRXInstruct的表现优于专门训练的CodeLLaMA-70B。如果用代码数据训练有助于推理，那么前沿模型肯定会在未来的模型中包括代码执行反馈，从而使它们更适合代码生成。与此同时，主要在语言上训练的大型模型可能具有足够的上下文信息，使其推理能力胜过对代码数据的需求——毕竟，这就是人类的工作方式。

关键问题是，是基础模型的改进速度更快？还是代码模型的性能提升更快？我认为，大多数Copilot公司会使用前沿的基础模型，并在自己的数据上微调——例如，使用Llama3-8b，通过代码执行反馈进行强化学习——这允许公司从基础模型的发展中受益，同时使模型偏向于代码性能。

结论

构建用于代码生成和工程工作流的AI工具，是当下最令人兴奋和值得投入的事业之一。持续提升编码能力，甚至最终完全自动化编码，将开启一个巨大的市场，远大于历史上出现过的开发者工具。虽然需要克服众多技术障碍，但这个市场的上升空间是无限的。

我们正继续寻找这三个领域的创始人合作，这个领域足够大，可以容纳很多公司开发Copilot、Agent和模型。

作者介绍：吴炳见，心资本SoulCapital合伙人，前某大厂mobile产品经理+战略分析，之前就职于险峰和联想之星。参与投资过多个大模型和AI应用项目。关键词LLM、AINative、AIinfra、Robotics。