构建多模态音乐数据库,实现数据标准化处理:
数据源:整合中英文歌曲(含多轨分离文件)、民族乐器样本库(20 + 种传统乐器)、方言演唱素材及古典诗词语料。
核心模块:
音伴分离:采用基于 Transformer 的分离模型,获取人声、伴奏立轨道;
特征标注:自动提取调式、BPM、情感标签(能量值 0-100)、乐理结构(前奏 / 主歌 / 副歌);方言适配:针对粤语、闽南语等添加声调标注与韵律规则库。
2. 生成模型层(核心)
采用 “Codec+LM+FM” 三模块协同架构,参数量控制在 3B 级以平衡性能与速度:
Music Codec(1B 参数):实现低比特率编解码,在 25Hz 码率、0.35kbps 比特率下还原 48kHz 双通道音乐,设计混合轨道(人声伴奏统一建模)与双轨道(立建模)两种模式。
Music LM(2B 参数):基于 Transformer 架构,支持:
多模态输入:文本描述(如 “激昂 国风 古筝”)、参考音频(10 秒以上风格跟随)、歌词(含平仄 / 押韵校验);
多类别 Token 并行预测:先预测混合 Token 确保人声与伴奏和谐,再生成双轨 Token 优化细节,解决传统方法的不和谐问题。
风格适配引擎:
通用曲风:基于预训练模型支持流行、摇滚等基础风格;
本土化风格:集成五声音阶模型(国风)、方言韵律引擎(粤语 / 川语等),通过 BERT 模型捕捉古诗词平仄规则。
