云聚 AI Token Plan 满 199 减 35 元

AI编程 · 架构思考 · 技术人生

DigitalOcean 开发者云
ReClaude Claude Code 合租 4 人车 400/月
腾讯云轻量上云福利 · 新用户首年 79 元/年
GLM Claude Code 国产平替 · 稳定不封号
免费、开放、可编程的智能路由方案,让你的服务随时随地在线。
腾讯云 4核4G 38元/年起 · OpenClaw 镜像
一行命令,启用你的智能开发时代。
阿里云函数计算 一键部署 AI 大模型
Loop Engineering 是 Harness 的局部命名-Toy's Tech Notes

Loop Engineering 是 Harness 的局部命名

最近一个词在 AI 圈被反复提起:Loop Engineering,循环工程。01Coder(小木头)做了一期视频把这件事讲了一遍,原视频在文末。我看完顺手对了一下自己手里这一年的笔记,想说一句直接点的:它没那么新,但 Boris Cher...

赞(0)ToyToy架构 阅读()
LLM 评测的下一步是一张二维矩阵-Toy's Tech Notes

LLM 评测的下一步是一张二维矩阵

过去十几年,工程师调 bug 看的是 stack trace。stack trace 是”代码的执行路径”,每一帧是确定的、可重放的,错了往上翻几层就能定位。 最近两年,工程师开始调 agent。agent 没有 s...

赞(0)ToyToy架构 阅读()
Claude Code 合租,4 人车 400 一个月,KYC 封号都不用你管

Claude Code 合租,4 人车 400 一个月,KYC 封号都不用你管

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。

embeddings 是 cached compute-Toy's Tech Notes

embeddings 是 cached compute

最近 Twitter 上的「RAG 已死」和 Google 上「RAG」的搜索曲线,方向是反的。前者一年比一年响,后者在 2025 年中段创了新高。两条线对不上,要么是社交媒体放大了少数派意见,要么是「RAG」这个词被两边人各说各话。 Tu...

赞(0)ToyToy架构 阅读()
Prompt Learning 的两个反馈圈-Toy's Tech Notes

Prompt Learning 的两个反馈圈

最近半年,业界几乎所有团队都在抱怨 agent 不可靠。模型选了最贵的,工具调用接全了,上下文也尽量塞满,可输出依然时好时坏。换一个模型也救不回来。问题出在哪里? Arize 的 SallyAnn DeLucia 和 Fuad Ali 在 ...

赞(0)ToyToy架构 阅读()
让 AI 代码审查工具不能再瞎引证-Toy's Tech Notes

让 AI 代码审查工具不能再瞎引证

最近读了一个叫 Clawpatch 的开源项目源码,写一点感想。 本来没打算细看。它是个自动审代码的命令行工具——扫一遍仓库、找 bug、跑测试、顺手给个修复方案。这类工具 GitHub 上一搜几十个,听起来没什么特别。 读着读着我停下来了...

赞(0)ToyToy架构 阅读()
Cowork 五条规则背后的同一件事-Toy's Tech Notes

Cowork 五条规则背后的同一件事

最近这半年,Anthropic 在做一件不太显眼但方向很清楚的事:把原本只有开发者会写的 CLAUDE.md、MEMORY.md、skills 这一整套工程化写法,整体搬到 Web 端给非开发者用。这个新产品叫 Claude Cowork,...

赞(0)ToyToyAI 阅读()
Codex 在自己的执行历史里找补丁-Toy's Tech Notes

Codex 在自己的执行历史里找补丁

最近社区在传一个”自我蒸馏”的提示词,源头是 OpenAI Codex 团队成员 @VB。意思是让 Codex 回看你最近 30 天的执行记录,把里面反复出现的工作流打包成 Skill,把固定角色封成 Sub-age...

赞(0)ToyToyAI 阅读()
LLM 排行榜的另一条轴-Toy's Tech Notes

LLM 排行榜的另一条轴

你打开任何一个 LLM 编码排行榜,看到的都是一排数字:82、84、86。看上去越高越好,对吧? 但如果你真把”得分最高”的那个模型搬进公司里写代码,运维很可能在周末打电话骂你。因为榜单只回答了”能不能跑...

赞(0)ToyToyAI 阅读()
构建 Agent 和写软件,是两种工程-Toy's Tech Notes

构建 Agent 和写软件,是两种工程

写了十年代码的工程师,上手 AI Agent 时常常比新人还别扭。不是能力问题,是直觉问题——越熟练的旧直觉,越容易在 agent 面前变成包袱。 Google DeepMind 的 Philipp Schmid 在 AI Engineer...

赞(0)ToyToy架构 阅读()
Agent Harness 不是要安装的软件包-Toy's Tech Notes

Agent Harness 不是要安装的软件包

做生产级 Agent,很多人第一反应是挑一个框架、看一眼文档、运行一下 Hello World,然后觉得大事已定。 Mike Piccolo 的文章 How to Build Your Own Agent Harness 直接拆穿了这个幻觉...

赞(0)ToyToy架构 阅读()
GPT-5.5 的提示词,从流程控制变成了结果验收-Toy's Tech Notes

GPT-5.5 的提示词,从流程控制变成了结果验收

我注意到一件有意思的事:同样是用 GPT-5.5 或者 Codex,有的人能稳定跑完复杂任务,有的人则反复拿到跑偏的结果。差距不在模型能力,在于提示词的写法有没有跟上模型的进化方向。 灵姐(灵姐说AI)最近结合 OpenAI 官方的 Pro...

赞(0)ToyToyAI 阅读()
把 Agent 送上生产:RAG、工程、安全、评测-Toy's Tech Notes

把 Agent 送上生产:RAG、工程、安全、评测

作者:toy 一、为什么最后一篇要把这四件事放在一起 这个系列到了第九篇,前八篇依次拆解了 Agent 的基础理论、规划推理、开发框架、工具调用、记忆模块、微调方案、推理服务、显存优化。每一篇都可以单独成立,但如果你真的要把 Agent 推...

赞(0)ToyToyAI 阅读()
榨干每块显存:LLM 底层显存优化-Toy's Tech Notes

榨干每块显存:LLM 底层显存优化

作者:toy GPU 显存是 LLM 推理与训练的硬约束,不是软性资源。当一个 70B 参数模型以 BF16 格式加载时,光是参数本身就需要约 140GB,单张 H100 的 80GB 显存根本装不下。工程师的任务不是抱怨硬件贵,而是理解显...

赞(0)ToyToyAI 阅读()
让 Agent 跑得快:LLM 推理服务-Toy's Tech Notes

让 Agent 跑得快:LLM 推理服务

作者:toy 一个 Agent 工作流,最终的性能瓶颈往往不在路由逻辑、工具调用,而在 LLM 推理本身。同样的模型,同样的硬件,不同的推理框架可以带来 10 倍以上的吞吐差距。这篇文章讨论推理服务的底层机制,以及三个主流框架:vLLM、S...

赞(0)ToyToyAI 阅读()
把模型练成你的 Agent:微调方案-Toy's Tech Notes

把模型练成你的 Agent:微调方案

作者:toy 一、为什么需要微调 Prompt Engineering 的三类失效 用 Prompt 调教通用模型,是大多数 Agent 项目的第一站。这条路走得顺时,能省掉大量工程复杂度。但在三类场景下,它会系统性失效。 第一类是领域术语...

赞(0)ToyToyAI 阅读()
阿里云 ECS 分钟级部署 Hermes / OpenClaw

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐