本目录包含 Dify 平台的高级多模态工作流模板,均可通过 Dify 的导入功能直接使用。
场景: 短视频/Reels/TikTok 自动化内容生产
流程: 用户输入主题 → LLM 生成脚本+分镜 → 并行生成每个分镜的图片 → 图片转视频片段 → LLM 生成配乐描述 → AI 生成背景音乐 → 汇总输出
涉及服务: LLM (GPT-4o) → Seedream (图片) → Luma (图生视频) → Suno (AI 音乐)
场景: 电商运营一键生成产品全套营销物料
流程: 上传产品图 → LLM 分析产品特征 → 并行生成:社媒文案(多平台) + 产品宣传图(多风格) + 15s 产品视频 + 产品宣传曲
涉及服务: LLM (分析+文案) → Flux (产品图变体) → Kling (产品视频) → Suno (广告曲)
场景: 深度调研某个主题并自动生成带图文视频的多媒体报告
流程: 输入研究课题 → SERP 搜索多轮信息 → LLM 分析整合 → 生成报告大纲 → 为每个章节生成配图 → 生成视频摘要 → 组装完整报告
涉及服务: Google SERP (搜索) → LLM (分析/写作) → Midjourney (配图) → Veo (视频摘要)
场景: 从一个主题/情绪出发,自动创作歌曲+配套 MV
流程: 输入主题/情绪 → LLM 生成歌词 → Suno 生成音乐 → LLM 根据歌词分镜 → 为每句歌词生成画面 → 画面转视频片段 → 输出完整 MV 素材包
涉及服务: LLM (歌词+分镜) → Suno (音乐) → Seedream (画面) → Seedance (画面转视频)
场景: 咨询/SaaS 销售场景,根据客户描述自动生成包含可视化效果图的商业方案
流程: 客户描述需求 → LLM 分类需求类型 → 搜索行业案例 → LLM 生成方案 → 生成方案效果图 → 生成演示视频 → 输出完整提案
涉及服务: LLM (分析+写作) → SERP (行业搜索) → NanoBanana (效果图) → Hailuo (演示视频)
场景: 内容出海,一键将内容本地化为多语言+多文化适配版本
流程: 输入原始内容 → LLM 提取核心信息 → 并行翻译为 N 种语言 → 为每种语言/文化生成适配的视觉素材 → 汇总所有本地化版本
涉及服务: LLM (翻译+文化适配) → Flux (文化适配配图) → Iteration (并行多语言)
- 打开 Dify 控制台 → 创建应用 → 选择「工作流」
- 点击右上角「导入 DSL」
- 选择或粘贴对应的
.yml文件内容 - 安装缺失的插件依赖(会自动提示)
- 配置 AceDataCloud API Token
- 运行测试
- 所有工具输出都是 URL:图片/视频/音频均返回 CDN 链接,可直接串联
- Iteration 节点用于并行处理数组(如多个分镜、多种语言)
- Code 节点用于 JSON 解析和数据转换
- If-Else 节点用于条件路由(如根据内容类型选择不同生成策略)
- LLM 节点的 structured output 能力用于生成可解析的 JSON,便于下游节点使用