
使用AEC-STEP生产AI音乐
AI音乐
目前市面上涌现了多款强大的AI音乐生成工具,它们在功能上各有侧重:
Suno: 被广泛认为是行业的标杆产品。其最新版本(如V5)能够生成长达8分钟、结构完整、音乐性极强的歌曲,在旋律、人声和编曲方面都达到了很高的专业水准,被许多创作者视为重要的分界点。
昆仑万维 Mureka: 国产AI音乐的代表之一。其V8版本主打“可发布级”的音乐质量,在音乐性、人声表现力和编曲层次上都有显著提升,并已开始与太合音乐等主流唱片公司合作,探索AI音乐的商业化路径。
MiniMax Music: 近期发布了新一代模型Music 2.6,特点是生成速度极快(首包响应在20秒内),并且在创作的可控性上表现出色,能精准锁定节拍、调性和歌曲结构。它还为全球创作者提供了限时的免费体验机会。
ACE-Step:这是一个由 阶跃星辰(StepFun) 与 ACE Studio 联合发布的开源音乐生成大模型。
它被视为 AI 音乐领域的“Stable Diffusion 时刻”,因为它不仅开源免费,而且在生成速度、音质和控制力上达到了非常高的水准,特别适合开发者和内容创作者本地部署使用。
今天的主角ACE-Step
- 极速生成(15倍加速)
相比传统模型,ACE-Step 采用了 Flow-Matching(流匹配) 和 DCAE(深度压缩自编码器) 技术,生成速度极快。
实测表现:在 A100 GPU 上,生成 4 分钟的高品质音乐仅需约 20 秒;在消费级显卡(如 RTX 4090)上也能流畅运行,显存占用低至 10GB 即可启动。
- 高质量与强可控性
多语言支持:原生支持中文、英文、日文、韩文、西班牙文、俄文等 19 种语言 的歌曲生成,中文咬字尤其自然。
精准控制:支持通过标签(Tags)控制风格(如 pop, rock, cyberpunk),通过歌词结构标签([verse], [chorus])控制段落,甚至支持 MIDI 旋律引导 和 人声克隆。
编辑功能:支持“重绘”(Repaint)和“重录”(Retake),可以只修改歌曲的某一段落(如只改副歌),而不影响整体结构。
- 完全开源与商用友好
采用 Apache-2.0 许可证,允许免费商用。
代码、模型权重和训练流程全部开放,开发者可以基于它进行 LoRA 微调或集成到自己的应用中。
comfyui 工作流生产音乐

- 安装插件
推荐使用第三方封装较好的插件,体验更佳:
插件名称:ComfyUI_ACE-Step
安装方式:在 ComfyUI Manager 中搜索 ACE-Step 直接安装,或手动从 GitHub 克隆到 custom_nodes 目录。
- 下载模型
示例:
模型文件:acestep-v1.5_trubo.safetensors
存放路径:通常放置在 models/checkpoints/ 目录下(具体路径请参考插件的说明,不同插件可能略有差异)。
- 基础工作流
在 ComfyUI 中,ACE-Step 的节点逻辑非常直观:
Prompt (Tags):输入风格描述,例如 electronic, pop, energetic, 128 BPM。
Lyrics:输入歌词。
参考工作流
音乐效果
[verse]
徽墨研开 晕染了流年
宣纸轻展 绘不出永远
窗外芭蕉 惹来了思念
滴答滴答 敲打着心弦
[verse]
乌篷船头 渔火正明灭
烟雨楼台 谁在轻声叹
一壶浊酒 饮尽了悲欢
半阙宋词 唱不完遗憾
[chorus]
我提笔 欲言又止
心事如 青花隐逝
你回眸 浅笑一瞬
定格成 永恒的诗
[verse]
青石板路 印下了足迹
油纸伞下 藏不住秘密
风过竹林 吹乱了思绪
月落乌啼 惊扰了梦境
[chorus]
我提笔 欲言又止
心事如 青花隐逝
你回眸 浅笑一瞬
定格成 永恒的诗
[bridge]
缘分如墨 浓淡总不由人
情字难书 落笔已是黄昏
那年的你 如今又在何处
是否还记得 那首未完的歌
[chorus]
我提笔 欲言又止
心事如 青花隐逝
你回眸 浅笑一瞬
定格成 永恒的诗
[outro]
墨色染流年 故事已成烟
而你 依旧在 那幅画里面