port:80 AI Junkie — 80aj | Toy Zhang 的工程笔记本

今日观点：大模型周刊 38｜价格战、开源权重和 Agent 落地同时加速

2026 年 7 月最后一周，大模型行业的主线很清楚：美国头部厂商用降价和生态补强防守，中国开源阵营继续用权重开放和性价比抢开发者心智，Agent 与具身智能开始从概念走向生产场景。

Claude API · 烧 token 实录

73 活跃日 · 最爱 claude-opus-4-8

$8.73k

花费

8.19B

tokens

64,431

messages

13天

连续

少多

claude-opus-4-8 · 45% claude-opus-4-7 · 37.6% claude-fable-5 · 11.3% claude-opus-4-6 · 1.9% claude-sonnet-5 · 1.9% claude-sonnet-4-6 · 1.7% claude-haiku-4-5-20251001 · 0.6%

大模型周刊 38｜价格战、开源权重和 Agent 落地同时加速

赞(0)

Toy2026-07-31AI 阅读(34)

FreeModel.dev 实测: Claude Code 中转站接入、套餐与验真

有人在搜索框里反复打 freemodel 这个词。需求还是那个老需求：想用 Claude Code，但官方订阅要美区信用卡，价格也压手，于是去找中转站。 FreeModel.dev 是最近冒出来的一个，口号喊得很大——”One ...

赞(0)

Toy2026-07-25AI 阅读(118)

阿里云全线云产品特惠 · 一站采购

ECS / OSS / CDN / 云数据库一站采购,常用云资源集中选配;新用户与续费均有专场优惠,适合个人开发者与小团队长期使用。

2026-08-03

大模型周刊 37：越狱、算力与开源反击

2026 年 7 月 18 日到 7 月 24 日，大模型圈的关键词不是单纯的跑分，而是安全事故、算力约束和开源模型的反击。OpenAI 内部测试引发的 Hugging Face 安全事件，把能力与护栏的矛盾推到了台前；Kimi K3、GLM-5.2、Gemini、Anthropic 和开源 Agent 的动向，也让基

赞(0)

Toy2026-07-24AI 阅读(55)

代码写作快免费了，软件工程反而更难了

Google DeepMind 研究副总裁 Benoit Schillings 在 AI Engineer 的这场分享里说了一句很狠的话：代码已经结束了，但还有大量事情要做。本文整理这场演讲，并结合我自己的 AI 编程 / Harness 笔记，讨论为什么未来的瓶颈不再是写代码，而是规格、验证、安全、架构和新型软件语言

赞(0)

Toy2026-07-21AI 阅读(83)

企业 Agent 失败，不是因为模型不够大

Tesla 机器学习工程师 Ishita Daga 在这段 12 分钟分享里，把企业数据 Agent 的失败原因压到三个词：歧义、腐败、偏好。本文结合我自己的 Harness / 企业记忆笔记，讨论为什么加模型、加上下文、加知识库都不是根治方案。原视频：https://www.youtube.com/watch?v=B

赞(0)

Toy2026-07-20AI 阅读(54)

别再裸奔发布 Skill：Google DeepMind 这场 21 分钟演讲讲透了 eval 为什么是准入门槛

本文整理自 Google DeepMind 工程师 Philipp Schmid 在 AI Engineer 的演讲。核心问题不是 Skill 有没有用，而是没有 eval 的 Skill 无法判断何时该触发、何时该退休，也无法证明它真的让 Agent 变好。原视频：https://www.youtube.com/wa

赞(0)

Toy2026-07-19AI 阅读(70)

大模型周刊第37期：Kimi K3 把“DeepSeek 时刻”又推回来

第37期大模型周报，记录2026年7月11日至17日这一周的几个关键信号：OpenAI把GPT-5.6推向企业代理，Anthropic继续押注开发者生态，Google走企业集成路线，中国开源模型则用Kimi K3和GLM系列把成本压力重新打到牌桌中央。本周最值得看的，不是某一家又发了一个更大的模型。真正的变化是：美国

赞(0)

Toy2026-07-18AI 阅读(113)

Kimi K3 不再是便宜替代品：开源 Coding 模型开始逼近前沿

本文整理自 BridgeMind 对 Kimi K3 的一次上手测试：它不再只是便宜替代品，而是开始在 UI 设计、全栈应用生成和真实 agentic coding 任务里挑战闭源前沿模型。原视频：https://www.youtube.com/watch?v=MG-uS684uc0 这期视频真正有价值的地方，不是“某

赞(0)

Toy2026-07-18AI 阅读(93)

ChatGPT 从聊天框变成个人操作系统：Peter Yang 的 GPT-5.6 完整实践

Peter Yang 这期视频展示了 GPT-5.6 发布后，ChatGPT 桌面端如何从聊天工具变成管理邮件、日历、播客准备和网站发布的个人操作系统。这不只是一个工具教程，更是一套 AI 时代工作方式的落地样本。 Peter Yang 这期视频发布于 GPT-5.6 上线后不久。ChatGPT 桌面端每天新增一百万用

赞(0)

Toy2026-07-16AI 阅读(95)

大模型周刊第 36 期：出厂前多了一道政府闸门

作者：toy　|　覆盖周期：2026.6.29 – 2026.7.10 这一周 OpenAI 和 Anthropic 都把自己最强的模型放了出来，但两家都不是自己说了算。GPT-5.6 等联邦机构做完安全基准评估才全球开放；Anthropi...

赞(0)

Toy2026-07-10AI 阅读(107)

AI 产品经理自学路线: 从大模型原理到 Agent 的 12 课

这是一套面向产品经理的大模型技术自学课。它回答一个具体的问题：一个不写代码的产品经理，需要懂多少技术，才能在 AI 项目里做出靠谱的判断。答案是十二课的量——从 Token 和上下文窗口讲起，一路走到智能体、工作流、RAG、Function...

赞(0)

Toy2026-07-10AI 阅读(150)

大模型核心术语: 产品经理够用的概念地图

这一课解决一个很具体的问题：评审会上工程师说”上下文不够、要上 RAG、温度调低点”，你能不能在三秒内明白他在说什么层面的事，并判断这话说得对不对。学完这课，你手里会有一张按”模型层、生成控制层、工程层、...

赞(0)

Toy2026-07-10AI 阅读(76)

大模型微调入门: SFT、LoRA 与何时不该微调

这一课解决一个非常具体的问题：当工程师或供应商对你说”这个需求得微调”时，你能判断这句话是对是错。学完你会知道大模型微调到底改了模型的什么、SFT 和 LoRA 是什么关系、哪三类场景值得花这个钱、哪三类场景微调纯属...

赞(0)

Toy2026-07-10AI 阅读(81)

MCP 协议入门: 大模型连接外部工具的统一接口

上一课讲 Function Calling 时留了一个尾巴：各家 API 的工具定义互不相通，工具一多，集成工作量就爆炸。这一课要讲的 MCP（Model Context Protocol，模型上下文协议）就是冲着这个问题来的——它是 An...

赞(0)

Toy2026-07-10AI 阅读(88)

Function Calling 入门: 让大模型学会调用外部工具

大模型只会聊天，不会办事——这是很多产品经理对 LLM 的第一印象，也是 Function Calling（函数调用，也常叫工具调用）要打破的那堵墙。学完这一课，你能回答三个问题：模型”调用工具”时到底发生了什么；一...

赞(0)

Toy2026-07-10AI 阅读(85)

Agentic RAG 入门: 智能体驱动的知识库检索架构

第 07 课我们搭好了朴素 RAG——把文档切块、向量化、检索出最相关的几段、塞进 prompt 让模型回答。demo 阶段它表现得很好，但一接真实用户就开始翻车：用户换个说法就检索不到，问题稍微复杂一点答案就一本正经地错。问题往往不在模型...

赞(0)

Toy2026-07-10AI 阅读(75)

RAG 入门: 知识库分块、向量检索与增强生成

“把公司知识库接进 AI”几乎是每个 AI 产品经理都会接到的第一单需求: 智能客服要懂产品手册, 内部助手要懂规章制度, 销售工具要懂最新报价单。但模型本身不认识你公司的任何一份文档, 让它”认识...

赞(0)

Toy2026-07-10AI 阅读(58)

工作流和智能体的区别: 什么时候用流程, 什么时候放权

第05课我们拆完了 AI 工作流, 再往前的第04课讲了智能体。两个概念单独看都不难, 难的是放在一起做选择: 手上这个需求, 到底该做成工作流, 还是做成智能体? 这是 AI 产品经理在方案评审会上最容易被问住的问题, 也是这一课要解决的...

赞(0)

Toy2026-07-10AI 阅读(43)

AI 工作流入门: 环节拆分与分步实施的自动生产线

这一课解决一个非常具体的问题：你想让 AI 稳定地干一件复杂的活——比如每天产出一篇合格的公众号文章——但你发现，把所有要求塞进一段超长提示词里，结果时好时坏，坏了还不知道坏在哪。学完这一课，你会掌握”工作流”这个解...

赞(0)

Toy2026-07-10AI 阅读(62)

智能体入门: 用一段提示词构建最简 AI Agent

这一课解决三个问题: 智能体(AI Agent)到底是什么, 为什么一段写得好的提示词就能构建出一个最简版本, 以及这种”纯提示词智能体”的能力边界画在哪里。学完你可以自己动手做一个能用的智能体——不写一行代码。很...

赞(0)

Toy2026-07-10AI 阅读(64)

1
2
3
4
...
下一页
共 34 页

事件分析

此次针对AI模型“性格”的对比测试，深刻揭示了不同厂商在模型价值观对齐（Alignment）技术路线上的本质区别。Claude和GPT的回避性回答，是西方主流大模型经过高强度安全微调和RLHF训练后的典型特征，它们被设计为严格遵守预设的道德与安全规范，宁可拒绝回答也不愿产生潜在风险，但这往往导致了交互体验的机械化甚至“说教感”。DeepSeek的“直球”回答则暗示其在模型训练时，可能更侧重于捕捉自然语境下的用户意图，而非生硬地套用防御性模板。这种差异反映出大模型竞争已从单纯的技术参数比拼，转向了更细颗粒度的“人格化”体验竞争。用户对DeepSeek的认可，说明市场对于打破“过度政治正确”或“过度礼貌”的AI有着强烈需求。技术上，如何平衡模型的合规性与拟人化、如何让AI在保持安全的同时具备更高的“情商”，将成为未来大模型优化的关键赛道。

💡 核心观点：大模型的竞争已从智商比拼转向“性格”体验，DeepSeek的出圈印证了用户对打破西方AI“过度安全”枷锁与说教感的真实渴望。

事件分析

此次涨价事件揭示了AI算力军备竞赛对消费电子市场的深刻反噬效应。随着大模型训练和推理需求的爆发，数据中心对高带宽内存（HBM）及高性能存储颗粒的采购优先级远超消费电子产品，导致全球内存产能向AI产业严重倾斜。这造成了传统消费级DRAM和NAND闪存供应紧缺，价格暴涨，迫使像微软这样的硬件厂商不得不通过大幅提价或削减配置（如取消2TB型号）来维持供应链平衡。与索尼宣称库存充足不同，微软的激进定价策略表明，在AI资源挤兑下，消费电子硬件市场正面临严峻的成本结构重塑。

💡 核心观点：算力需求的爆发已重塑半导体供应链格局，AI行业对内存资源的“虹吸效应”正迫使传统消费电子硬件在涨价与减配之间艰难求生。

事件分析

从产业与技术发展的角度分析，此类社区驱动的免费 API 聚合服务，本质上是对官方算力分发渠道的一种有益补充。在当前的 AI 开发者生态中，大模型推理成本与网络通达性是阻碍创新的主要痛点。Linux.do 作为一个聚集了极客与开源贡献者的社区，其成员自发搭建“云酒馆”此类项目，反映了市场对低成本、低门槛获取前沿模型能力的强烈需求。虽然此类公益服务的稳定性与并发处理能力可能无法与企业级商业 API 相提并论，但在 Prompt Engineering（提示词工程）验证、Agent 开发原型测试以及轻量级应用构建等场景中，其价值不言而喻。这种模式有效降低了开发者探索新技术的试错成本，有利于促进技术在社区层面的快速迭代与传播。

💡 核心观点：社区聚合服务有效消除了区域网络限制与高昂费用带来的开发壁垒，成为开发者低成本验证前沿大模型能力的关键基础设施。

事件分析

从技术视角看，本文揭示了软件工程从“确定性构建”向“概率性生成”转型过程中的阵痛。AI Agent 的引入打破了传统 IDE 和静态分析工具的边界，使得代码产出的不确定性激增。产业层面上，这种转变导致质量控制压力从“编码端”向“验证端”剧烈转移，传统的代码审查机制在面对海量 LLM 生成的代码时显得力不从心。未来的趋势将不再是追求代码生成的绝对速度，而是转向构建能够有效管理“上下文记忆”和“隐性知识”的基础设施，以及制定针对非确定性输出的工程验证标准。

💡 核心观点：当代码生成的边际成本归零，工程管理的核心挑战将从如何“写代码”转变为如何在一个充满不确定性的非确定性系统中建立可靠的信任机制。

事件分析

此次模型性格对比实验，本质上是不同技术路线在用户交互侧的直观投射。Claude 的严谨源于 Anthropic 对 Constitutional AI 的坚持，使其在生成内容时倾向于更高的安全审查和逻辑自洽，这在代码重构中表现为高冗余度。ChatGPT 的“圆滑”体现了大规模对话数据微调后的 Sycophancy（谄媚）倾向，虽经调整但仍保留了较强的对话顺从性。DeepSeek 的“莽撞”则反映了其在安全护栏设置上的相对宽松，以及结合 MoE 和 FP8 等技术带来的高推理效率。对于开发者而言，这种“性格”差异对应了不同的工作流场景：Claude 适合作为负责任的架构师，DeepSeek 适合作为高效的执行者，而 ChatGPT 更适合作为产品经理进行发散构思。选择模型已不再是单纯比较参数量，而是选择协作伙伴的交互风格。

💡 核心观点：大模型的“性格”差异实为RLHF目标与安全策略的具象化，开发者应依据任务属性（严谨重构或快速执行）选择匹配的AI协作范式。

事件分析

远程桌面市场长期由ToDesk、向日葵等厂商占据，主流模式多为免费版限速、付费版解锁高性能。网易UU远程的入局利用了其在游戏加速领域的网络传输技术积累，以“真免费”和高画质为切入点，试图打破现有的付费壁垒。技术层面上，该产品最大的差异化在于对CLI命令行和端口映射的原生支持，这使其从单纯的图形化办公工具扩展为适应开发者和运维人员的生产力工具。特别是在AI开发与服务器运维场景中，能够直接通过远控终端运行Claude Code或管理本地服务，这一功能点切中了技术人群的痛点。虽然Linux缺失和权限管理的短板限制了其在纯服务器环境的部署，但其商业化路径清晰，即通过免费基础功能引流，结合云游戏电脑等增值服务变现。

💡 核心观点：网易凭借游戏加速技术栈切入远控市场，原生支持CLI与内网穿透填补了同类竞品在AI开发与运维场景的空白。

AI 产品经理课：大模型、Agent 与产品实战

AI Engineer World 2026

Claude Code 订阅生存指南

AI 模型横评

AI Agent 框架

Codex CLI 深度

最新发布

置顶推荐

前沿哨所

实测三大AI“性格”差异：DeepSeek毒舌出圈，GPT与Claude难逃安全围栏

事件分析

受AI行业内存需求挤压，微软Xbox全系涨价高达43%

事件分析

Linux.do 社区项目“云酒馆”上线免费 Gemini 模型接入服务

事件分析

信任危机与效率悖论：AI 编程时代开发者如何重塑工具依赖

事件分析

三大模型“性格”实测：Claude 谨慎、GPT 圆滑、DeepSeek 莽撞

事件分析

网易推免费远程控制新方案：UU远程支持CLI与AI Agent开发场景

事件分析

最新文章

热门专题

热门标签

网站统计