
Loop Engineering 是 Harness 的局部命名
最近一个词在 AI 圈被反复提起:Loop Engineering,循环工程。01Coder(小木头)做了一期视频把这件事讲了一遍,原视频在文末。我看完顺手对了一下自己手里这一年的笔记,想说一句直接点的:它没那么新,但 Boris Cher...

LLM 评测的下一步是一张二维矩阵
过去十几年,工程师调 bug 看的是 stack trace。stack trace 是”代码的执行路径”,每一帧是确定的、可重放的,错了往上翻几层就能定位。 最近两年,工程师开始调 agent。agent 没有 s...

Claude Code 合租,4 人车 400 一个月,KYC 封号都不用你管
官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。

Loops 是 AI 编程的新词,不是新东西
过去一周,”loop”这个词在 AI 编程圈被反复提起。OpenAI 的 Peter Steinberger 在 X 上写了一句”你不该再 prompt 编程 agent,你该设计 prompt agen...

embeddings 是 cached compute
最近 Twitter 上的「RAG 已死」和 Google 上「RAG」的搜索曲线,方向是反的。前者一年比一年响,后者在 2025 年中段创了新高。两条线对不上,要么是社交媒体放大了少数派意见,要么是「RAG」这个词被两边人各说各话。 Tu...

大模型周刊 第 34 期:两份招股书、一脚刹车和一次降价
作者:toy | 覆盖周期:2026.6.6 – 2026.6.12 这一周的主线是”交卷”。6 月 8 日,OpenAI 把保密版 S-1 递给 SEC,距 Anthropic 递交正好一周——AI 第一梯队的两家...

Prompt Learning 的两个反馈圈
最近半年,业界几乎所有团队都在抱怨 agent 不可靠。模型选了最贵的,工具调用接全了,上下文也尽量塞满,可输出依然时好时坏。换一个模型也救不回来。问题出在哪里? Arize 的 SallyAnn DeLucia 和 Fuad Ali 在 ...

让 AI 代码审查工具不能再瞎引证
最近读了一个叫 Clawpatch 的开源项目源码,写一点感想。 本来没打算细看。它是个自动审代码的命令行工具——扫一遍仓库、找 bug、跑测试、顺手给个修复方案。这类工具 GitHub 上一搜几十个,听起来没什么特别。 读着读着我停下来了...

NVIDIA 给 3 万人 RAG 助手装了一个数据飞轮
10 月底,NVIDIA 一个 12 人小组在 arxiv 挂了一篇论文(编号 2510.27051),题目叫《Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent ...

Cowork 五条规则背后的同一件事
最近这半年,Anthropic 在做一件不太显眼但方向很清楚的事:把原本只有开发者会写的 CLAUDE.md、MEMORY.md、skills 这一整套工程化写法,整体搬到 Web 端给非开发者用。这个新产品叫 Claude Cowork,...

Codex 在自己的执行历史里找补丁
最近社区在传一个”自我蒸馏”的提示词,源头是 OpenAI Codex 团队成员 @VB。意思是让 Codex 回看你最近 30 天的执行记录,把里面反复出现的工作流打包成 Skill,把固定角色封成 Sub-age...

LLM 排行榜的另一条轴
你打开任何一个 LLM 编码排行榜,看到的都是一排数字:82、84、86。看上去越高越好,对吧? 但如果你真把”得分最高”的那个模型搬进公司里写代码,运维很可能在周末打电话骂你。因为榜单只回答了”能不能跑...

大模型周刊 第 33 期:开源开始正面交锋,Anthropic 把招股书递了
作者:toy | 覆盖周期:2026.5.30 – 2026.6.5 这一周的关键词是”上场”。MiniMax 在 6 月 1 日把 M3 拍在桌上,1M 上下文、原生多模态、开源权重,SWE-Bench Pro 5...

构建 Agent 和写软件,是两种工程
写了十年代码的工程师,上手 AI Agent 时常常比新人还别扭。不是能力问题,是直觉问题——越熟练的旧直觉,越容易在 agent 面前变成包袱。 Google DeepMind 的 Philipp Schmid 在 AI Engineer...

Agent Harness 不是要安装的软件包
做生产级 Agent,很多人第一反应是挑一个框架、看一眼文档、运行一下 Hello World,然后觉得大事已定。 Mike Piccolo 的文章 How to Build Your Own Agent Harness 直接拆穿了这个幻觉...

Claude Code Routines:把 Agent 从等待模式变成主动干活
去年,Anthropic 的文档工程师 Sarah 遇到了一个没法靠加班解决的问题:Claude Code 团队的 PR 合并量比年初增加了 200%,但维护文档的人只有她一个。每次有代码改动,她都要手动比对源码和文档有没有偏差,再开 PR...

GPT-5.5 的提示词,从流程控制变成了结果验收
我注意到一件有意思的事:同样是用 GPT-5.5 或者 Codex,有的人能稳定跑完复杂任务,有的人则反复拿到跑偏的结果。差距不在模型能力,在于提示词的写法有没有跟上模型的进化方向。 灵姐(灵姐说AI)最近结合 OpenAI 官方的 Pro...

把 Agent 送上生产:RAG、工程、安全、评测
作者:toy 一、为什么最后一篇要把这四件事放在一起 这个系列到了第九篇,前八篇依次拆解了 Agent 的基础理论、规划推理、开发框架、工具调用、记忆模块、微调方案、推理服务、显存优化。每一篇都可以单独成立,但如果你真的要把 Agent 推...

榨干每块显存:LLM 底层显存优化
作者:toy GPU 显存是 LLM 推理与训练的硬约束,不是软性资源。当一个 70B 参数模型以 BF16 格式加载时,光是参数本身就需要约 140GB,单张 H100 的 80GB 显存根本装不下。工程师的任务不是抱怨硬件贵,而是理解显...

让 Agent 跑得快:LLM 推理服务
作者:toy 一个 Agent 工作流,最终的性能瓶颈往往不在路由逻辑、工具调用,而在 LLM 推理本身。同样的模型,同样的硬件,不同的推理框架可以带来 10 倍以上的吞吐差距。这篇文章讨论推理服务的底层机制,以及三个主流框架:vLLM、S...

把模型练成你的 Agent:微调方案
作者:toy 一、为什么需要微调 Prompt Engineering 的三类失效 用 Prompt 调教通用模型,是大多数 Agent 项目的第一站。这条路走得顺时,能省掉大量工程复杂度。但在三类场景下,它会系统性失效。 第一类是领域术语...







AI周刊:大模型、智能体与产业动态追踪
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战