两年后，我捡起Karpathy的旧点子，用一招搞定视频转博客

两年前，看到Karpathy那条想把教学视频自动转成博客的推文，我当场就热血上头——这不就是我天天干的苦力活嘛！听完一段两小时的讲课，还得手动截图、誊字幕、配图……想想就头大。当时的方案听起来挺美：Whisper转文字→切成图文块→LLM改写成文章→导出加链接。结果呢？每一步都在丢信息。ASR把语气、停顿全丢了，LLM只读文字看不到PPT上的架构图，配图又要另找人挑帧。说白了，就像让三个人各修一段路，最后拼起来发现路根本不通。

最近受邀试了豆包Seed2.0-lite，我第一时间把老家伙翻出来重做。这次不一样了——多模态模型能同时看画面、听声音、读文字，相当于一个能全程盯着视频做笔记的靠谱助教。我写了个叫doubao-multimodal的Skill，封装了下载、切片、并发调用、结果合并这些破事，Agent自己就能跑完整条流水线。实测下来，它不光能还原讲者说了什么，还能识别幻灯片翻了哪页、代码高亮了哪几行、demo背后有没有翻车——这些靠传统ASR根本无法获取。

你应该也遇到过类似痛点：听过一场精彩的技术分享，回头想写笔记却发现只记得个大概。别担心，现在有更聪明的办法了。把视频扔给这个Agent，它就像个认真的编辑，自动提炼出核心观点，配上关键截图，写成一段能读、能搜、能复用的博客。这套工作流其实不难搭，关键是用对模型——多模态比单模态强太多，速度快成本低，适合高频使用。

试试看，两年前的遗憾，今天就能变成日常效率工具。我是王树义，欢迎在评论区留言聊聊你的尝试。