今日观点:大型多模态模型的真正捷径,是给冻住的语言模型接一根线
过去三年,做”语言+图像”的人几乎都在重复一个动作:拿一个已经训得很大的语言模型,死死冻住它,然后在它前面接一个很小的转接头,把图像、视频、传感器数据翻译成它认识的”词”。听起来像凑合,但这条...
过去三年,做”语言+图像”的人几乎都在重复一个动作:拿一个已经训得很大的语言模型,死死冻住它,然后在它前面接一个很小的转接头,把图像、视频、传感器数据翻译成它认识的”词”。听起来像凑合,但这条...
claude-opus-4-7
过去三年,做”语言+图像”的人几乎都在重复一个动作:拿一个已经训得很大的语言模型,死死冻住它,然后在它前面接一个很小的转接头,把图像、视频、传感器数据翻译成它认识的”词”。听起来像凑合,但这条...

Paul 这一讲一开场就先打了个预防针:今天讲的是高度浓缩版的内容,MIT 隔壁的 ALP 那门课才是正经讲大模型,这里只是个高空俯瞰。听到一半我反而觉得,这种”俯瞰”才是真正值钱的。他把一个被无数公众号、技术博客、...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。

一门课的最后一讲,最能看出讲者真正在想什么。前面 11 讲是在搭骨架,数据、架构、对齐、融合、跨模态迁移、基础模型、强化学习,一块一块拼上去。到最后一讲,Paul Liang 不再讲新算法,而是退一步问:这些东西攒齐了,下一步应该长成什么样...

监督学习像一次考试,你答一道题,老师立刻给分。强化学习不是。强化学习是你下一整盘棋,走了几十步,最后才知道这盘赢没赢,而且没人告诉你哪一步是关键的。这个差别看起来只是”反馈给得晚一点”,但它把整套训练范式都拧到了另一...

做机器人的人都熟悉一种处境:你想训一个新传感器上的模型,真实数据只有几千条,但同一个场景下,摄像头数据有几百万条、激光雷达数据有几千万条。你眼睁睁看着隔壁模态躺着金山,自己手里却只有沙子。 这不是你一个人的问题。医疗数据、生理传感器、嗅觉信...

机器人圈有句老话:传感器加一个,问题加十个。同事最初听到这话总觉得是抱怨,做久了才明白,它说的是一个具体的工程现象:你给机器人加一颗 IMU、一颗超声、一颗深度相机,它的感知能力并没有按”加法”涨,而是按”...

1976 年,一个叫 David McGurk 的心理学家做过一个实验。他给受试者放两段视频,画面里两个人在说话,音轨完全一样,但其中一个人的嘴型是发”ba”,另一个是发”fa”。受试者听到的...

机器学习入门课的常见教法是:一周讲一个模型,线性回归、SVM、CNN、RNN、Transformer、GNN,一周一个,讲到学期末。学生记住了一堆名字,但下次拿到一个新数据集,还是不知道该选哪个,更不用说自己设计一个。 Paul Liang...

第 4 讲是这门课第一次把人按到键盘前面。前三讲讲原则、讲研究、讲数据本身的结构,从这一讲开始,Paul Liang 把麦克风让给两位 TA:David 和 Chanaka,带大家在 Colab 里把一个分类模型从头跑通。 听上去像一节教 ...

机器学习课的常见开场是讲算法:第一周线性回归,第二周决策树,第三周神经网络。Paul Liang 这一讲反着来。他先讲数据,而且讲了整整一节课,模型一个字没提。他给的理由很简单:你手里那摊数据长什么样,基本上已经决定了模型该长什么样,反过来...

我以前一直觉得”做研究”是个挺玄的事:你得有灵感,得有品位,得在某天洗澡的时候突然冒出一个别人没想到的想法。后来在工程里摸爬几年,慢慢意识到大部分研究并不长这样。它更像一台机器,你按一个流程一圈一圈地转,转得快、转得...

MIT 媒体实验室有个延续多年的传统,叫 “how to … almost anything”。最早是 how to make almost anything(怎么造几乎任何东西),后来有了 how to...

最近一个词在 AI 圈被反复提起:Loop Engineering,循环工程。01Coder(小木头)做了一期视频把这件事讲了一遍,原视频在文末。我看完顺手对了一下自己手里这一年的笔记,想说一句直接点的:它没那么新,但 Boris Cher...

过去十几年,工程师调 bug 看的是 stack trace。stack trace 是”代码的执行路径”,每一帧是确定的、可重放的,错了往上翻几层就能定位。 最近两年,工程师开始调 agent。agent 没有 s...

过去一周,”loop”这个词在 AI 编程圈被反复提起。OpenAI 的 Peter Steinberger 在 X 上写了一句”你不该再 prompt 编程 agent,你该设计 prompt agen...

最近 Twitter 上的「RAG 已死」和 Google 上「RAG」的搜索曲线,方向是反的。前者一年比一年响,后者在 2025 年中段创了新高。两条线对不上,要么是社交媒体放大了少数派意见,要么是「RAG」这个词被两边人各说各话。 Tu...

作者:toy | 覆盖周期:2026.6.6 – 2026.6.12 这一周的主线是”交卷”。6 月 8 日,OpenAI 把保密版 S-1 递给 SEC,距 Anthropic 递交正好一周——AI 第一梯队的两家...

最近半年,业界几乎所有团队都在抱怨 agent 不可靠。模型选了最贵的,工具调用接全了,上下文也尽量塞满,可输出依然时好时坏。换一个模型也救不回来。问题出在哪里? Arize 的 SallyAnn DeLucia 和 Fuad Ali 在 ...

最近读了一个叫 Clawpatch 的开源项目源码,写一点感想。 本来没打算细看。它是个自动审代码的命令行工具——扫一遍仓库、找 bug、跑测试、顺手给个修复方案。这类工具 GitHub 上一搜几十个,听起来没什么特别。 读着读着我停下来了...

10 月底,NVIDIA 一个 12 人小组在 arxiv 挂了一篇论文(编号 2510.27051),题目叫《Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent ...