C
ChaoBro

CutClaw:一个 AI Agent 看完你的素材,配好音乐,然后自己剪出一条视频

CutClaw:一个 AI Agent 看完你的素材,配好音乐,然后自己剪出一条视频

痛点:视频剪辑是 AI 自动化的下一个硬骨头

AI 在文本生成、代码编写、图片创作上已经跑得很快了,但视频剪辑依然是 AI 的短板。原因很直接:

  • 视频是多模态的(画面 + 音频 + 时间轴)
  • 好剪辑需要”节奏感”——对音乐、叙事、情感的综合把握
  • 现有 AI 视频工具要么做片段生成,要么做简单裁剪,缺少端到端的叙事能力

CutClaw 试图用Agent 循环来解决这个问题。


它是怎么工作的

CutClaw 不是简单的”AI 自动剪辑”——它是一个完整的代理系统(agentic system)

输入:原始素材 + 音乐轨道

   ┌─ Agent Loop ─┐
   │  1. 分析素材  │ → 识别场景、人脸、情绪、运动
   │  2. 理解音乐  │ → 检测节拍、情绪曲线、高潮段落
   │  3. 规划剪辑  │ → 像编剧一样设计叙事节奏
   │  4. 执行剪辑  │ → 对齐音乐节拍,生成时间轴
   │  5. 自我审核  │ → 检查连贯性、节奏感,必要时重做
   └───────────────┘

   输出:完整剪辑视频

关键区别在于规划阶段。CutClaw 不是简单地把素材按音乐节拍切段——它先理解素材的情感走向,再理解音乐的情绪曲线,然后像编剧一样规划”哪里该紧张、哪里该舒缓、哪里该给特写”。


与传统 AI 视频工具的对比

能力CutClawRunway/Pika剪映AI
端到端剪辑❌(片段生成)⚠️(模板化)
音乐节奏对齐
叙事规划✅(Agent 循环)
素材智能筛选⚠️(基于标签)
自我审核修正
开源

技术栈

CutClaw 的核心技术组件:

  • 视觉理解:使用多模态模型分析视频内容(场景、人物、动作、情绪)
  • 音频分析:检测音乐节拍、BPM、情绪变化
  • Agent 编排:多步骤循环,每步可以回退重做
  • 渲染引擎:基于 FFmpeg 的视频合成

整个流程是开源的,这意味着你可以:

  • 替换其中的任何组件(比如用你自己的视觉模型)
  • 自定义 Agent 的规划策略
  • 针对特定视频类型优化(vlog、教程、宣传片)

上手指南

基本用法

# 克隆项目
git clone https://github.com/cutclaw/cutclaw.git
cd cutclaw

# 安装依赖
pip install -r requirements.txt

# 运行剪辑 Agent
python cutclaw.py \
  --footage ./raw_footage/ \
  --music ./background_music.mp3 \
  --output ./finished_video.mp4

高级用法

# 指定风格预设
python cutclaw.py \
  --footage ./raw/ \
  --music ./track.mp3 \
  --style "cinematic" \
  --output ./cinematic_cut.mp4

# 自定义 Agent 循环次数
python cutclaw.py \
  --footage ./raw/ \
  --music ./track.mp3 \
  --max-iterations 5 \
  --output ./refined_cut.mp4

适用场景

  • Vlog 创作者:把一天的素材丢进去,自动剪成节奏感强的 vlog
  • 活动记录:会议、婚礼、演出的海量素材,快速生成精华版
  • 社交媒体:自动生成适配短视频平台节奏的内容
  • 教学视频:将录屏素材自动剪辑为有节奏感的教程

局限性

CutClaw 毕竟是早期项目,有几个需要注意的点:

  1. 音乐质量决定上限。如果输入的音乐本身节奏平淡,Agent 的”节奏感”也会打折扣。
  2. 长视频处理慢。Agent 循环意味着每一步都要调用多模态模型,1 小时素材可能需要数小时处理。
  3. 创意边界有限。Agent 擅长执行已知模式,但不太可能产出”出人意料”的创意剪辑——它更像是一个高效的执行者,而不是一个有灵感的导演。

总结

CutClaw 代表了一个趋势:AI Agent 正在从”回答问题”走向”完成复杂任务”。视频剪辑是一个需要多模态理解、时间线规划和审美判断的复杂任务,而 CutClaw 用 Agent 循环的方式把它拆解成了可执行的步骤。

对于个人创作者来说,它可能还不足以替代专业剪辑师——但对于需要快速产出”可用”而非”完美”视频的场景,它已经是一个值得尝试的工具。