两年前,看到Karpathy那条想把教学视频自动转成博客的推文,我当场就热血上头——这不就是我天天干的苦力活嘛!听完一段两小时的讲课,还得手动截图、誊字幕、配图……想想就头大。当时的方案听起来挺美:Whisper转文字→切成图文块→LLM改写成文章→导出加链接。结果呢?每一步都在丢信息。ASR把语气、停顿全丢了,LLM只读文字看不到PPT上的架构图,配图又要另找人挑帧。说白了,就像让三个人各修一段路,最后拼起来发现路根本不通。
最近受邀试了豆包Seed2.0-lite,我第一时间把老家伙翻出来重做。这次不一样了——多模态模型能同时看画面、听声音、读文字,相当于一个能全程盯着视频做笔记的靠谱助教。我写了个叫doubao-multimodal的Skill,封装了下载、切片、并发调用、结果合并这些破事,Agent自己就能跑完整条流水线。实测下来,它不光能还原讲者说了什么,还能识别幻灯片翻了哪页、代码高亮了哪几行、demo背后有没有翻车——这些靠传统ASR根本无法获取。
你应该也遇到过类似痛点:听过一场精彩的技术分享,回头想写笔记却发现只记得个大概。别担心,现在有更聪明的办法了。把视频扔给这个Agent,它就像个认真的编辑,自动提炼出核心观点,配上关键截图,写成一段能读、能搜、能复用的博客。这套工作流其实不难搭,关键是用对模型——多模态比单模态强太多,速度快成本低,适合高频使用。
试试看,两年前的遗憾,今天就能变成日常效率工具。我是王树义,欢迎在评论区留言聊聊你的尝试。