讲在前面:
1.工具的具体使用教程阿婆就不在这里放了,可以直接在B站搜阿婆给出的关键词,会搜出来一堆,挑适合自己的看就可以啦~
2.做这个分享是看到群里有很多小伙伴自己也在做视频,也在询问阿婆的制作工具,所以就把阿婆是怎么做的、用了什么工具,统一写出来方便大家看~祝每位太太都能产出自己满意的粮~
3.所有非在线类的、需要下载的AI工具,都需要:①有电脑②配置还过得去。至于什么样的配置可行,可以看对应工具整合包下面的评论或搜索“工具名称+低配置”。
4.有一些在线类的AI工具,如果上不去、找不到入口,请搜索B站”工具名称+如何“,按照教程进行操作,或直接搜索平替工具。
5.阿婆自己也在“想法提出——实践验证——理论确定——新想法提出”的实验中,会有思考不全面、偏重和忽视的地方,有建议&想法&需求都可以跟阿婆提哦~
6.交流群:749712497~欢迎来玩~
1.确定选题
▼方向一:
核心词:新&热
使用工具:Copilot(原NewBing)
每天可以没事问一下Copilot最近B站(或者你想关注&发展的平台)的新趋势&热点是什么,也可以让它预测一下下周或下个月的趋势可能是什么。
工具替代:
可以用ChatGPT替代,但ChatGPT在联网上的反应比较钝,不如Copilot好用。
或者用国内的一些AI工具替代,搜“AI导航”应该能出来一堆。
也可以不使用工具,加社群(比如B站创作交流群),会有一些讨论和流行趋势的简单预测。
关于搜索:
搜索引擎阿婆也比较爱必应,搜出来的质量都比较高,不会出现不需要的杂七杂八的东西。(国内版的比较好用,国外版的效果不如直接问Copilot来的快。)
▼方向二:
核心词:兴趣
使用工具:笔记类APP
另外一种方式呢,就是从自己的兴趣着手,为爱发电,总会有一批小伙伴跟你的兴趣相似~
不过这个方向就比较随缘,需要看创意点+创作环境+运气&贵人+多变尝试,天时地利人和缺一不可~
关于灵感:
阿婆自己不想被困在枯燥乏味的重复里,对于阿婆来说重复=兴趣丧失=无动力=低产出,所以发现新东西很重要。
阿婆的灵感大多来自于接触到的新事物、新东西,游戏里的、生活上的、甚至梦中,有了灵感就随时记下来,即使当时碍于条件无法实验,过后也能翻出来记起来。灵感就像养鱼人撒了一把鱼食,抢到就赚了。积累的多了就可以形成自己的灵感池,想要什么从中间挑就可以。
关于笔记:
应用程序&APP推荐Notion。
①虽然现在很多文档&笔记类应用都在仿照Notion的形式,可以做文件套文件,而非传统文件夹形式了,但Notion是最早的也是最知名的。
②稳定性较好,不用担心突然变形式,或者放弃某种功能。
③直接内容搜索+双端同步,比较适合做个人知识库&资料库。
④缺点就是官方只有纯英文版。以及可能受到社会环境影响,网络会不太稳定。而且现在已经禁止俄罗斯用户使用,下一步环境再升级我们也有可能会受到影响。(就像GPT的api调用禁止一样)
关于脑图:
思维导图类的,之前冲着可以多端同步用过幕布,但现在还是改用回了经典Xmind。原因在于脑图类的操作还是电脑端更方便,而手机端的需求,可能只用一张图就能满足。
2.确定形式
核心词:借鉴
使用工具:视频类APP
构思视频的形式大多会遇到的状况:想到了但不知道怎么实现,知道怎么实现但能力不足,能力足够了但成本(人力、资金、时间)太高。
所以最方便有用的方式,就是:
①整合自己现阶段的能力和资源。
②刷各类视频的时候,可以多思考根据自己现在的情况,能不能实现(理论)、如何实现(实操)、怎么玩花样(创新)。
③计算成本投入,是否需要学习提升、是否有长时间消耗、如何权衡时间与质量。
④行动起来。
试剪:是否确实可行,中途遇到了哪些困难,怎么解决的,时间安排是否合理。
试发布:有什么样的反馈、前辈的建议,可以优化的部分,需要长期学习的地方。
这些都会成为经验,为下一个视频做准备。
⑤总结优化。就是老生常谈的复盘和调整啦~
但是注意:一两次的尝试可能会遇到存在一些你并不了解的底层规则在运作,或是遇到一些非常态的运气与巧合,或者可能是遇到了贵人或小人。只有长期稳定的尝试才能看出效果~
3.台词&文案确定
核心词:修改
使用工具:ChatGPT
工具替代:
一切能生成质量比较高的内容的AI产品(比如Claude),同样可以搜“AI导航”去找。
阿婆具体的使用步骤是这样的:
①自己写核心主题和大纲。
②自己当甲方,把主题、大纲和要求交给ChatGPT,让它生成基础内容。(比如告诉它形式、应用场景、人物性格、台词风格、主要情节)。
③如果生成的不理想,找参考丢给它,或搜索合适的GPTs使用。
④如果有涉及到对话的挑出来,自己写。
⑤交给ChatGPT(要求它根据人设)润色,挑选合适的词句替换,洗掉自己的语言习惯。
注意:
目前ChatGPT在直接生成人物对话方面并不能达到理想的效果(即使有参考),所以如果仅仅指望它生成对话,那结果很可能就是一坨。但它非常擅长加字数和加很多细节描写废话文学,也非常擅长修改措辞,所以还是让它做擅长的事吧。
另一种用法就是,可以让它找灵感。(比如你想在这里加一个场景,但不知道要加什么互动,可以让它多给你几个方案,从中挑一个你比较喜欢的互动,然后自己写对话丢给它润色。)
当然,如果你有更适合自己的使用方式也不需要按照这个步骤来,比如阿婆的一位朋友就习惯先自己通篇写完再让AI来润色。理解,尊重。
(另外,ChatGPT不能瑟瑟,但可以告诉它多用双关语和暗示。)
这4步做完,可以达到80%的效果。
这时候如果并不着急出视频,还有一些时间,那就开始磨本子。阿婆自己写对话类的,会把人物和情节放在脑子里,没事儿就翻出来想一想,他在这种场景下会怎么说,哪里还可以优化,更符合他本人的性格一点。
4.语音生成
核心词:测试
使用工具:GPT-SoVITS(v2)
工具替代:
这个暂时无可替代。
用FunAudioLLM(CosyVoice)语调会更接近常人,但音色、语气会有很大差别。
(比如小鱼的声音特点在于独特的发音和咬字方式,这个不训练模型暂时无法复刻。)
使用GPT-SoVITS的简易步骤:
①下载安装
B站搜“花儿不哭”,可以直接下载大佬的整合包。
教程可以搜“GPT-SoVITS”按最多播放排序,大佬讲的很清晰易懂。
②收集语音素材
可以自己在电脑端下一个安卓模拟器,从游戏里关掉BGM和音效,用Bandicam录制。因为是直接内录所以音质会好很多。
也可以在B站找一个其他up发的去BGM版视频下载,不会下载可以搜下载方法,也可以用Bandicam录制。
如果找不到无BGM版(比如秘密时光),可以在录制完成后使用UVR5来提取人声,只不过这样会损失一点音质,后续还需要在Au里处理一下。
录完的视频用随便一个视频剪辑软件(必剪)or音频编辑软件(Au)or格式工厂or在线转换,转成mp3或者wav格式。
这里说一下:
挑选的音频对模型最终呈现的效果非常重要!如果有特别的定向需求(比如耳语、战斗、夸张语气),最好单独练一个模型。这里拿恋与深空举例。
想要日常说话的,每个卡的声线、语气、风格可能都不太一样,喜欢哪个卡的说话方式,就选哪张卡做音源,也可以选多张卡,音色会混合一下。
如果想要定向需求的,那么大约一半的音频是这个需求,一半的音频是稳定的日常语音,训练出来的模型基本不会有太大问题,是至少可以一用的。
如果偷懒全混在一起做成Mix,会导致音色辨识度降低,定向需求也不会特别理想。
③音频前置处理
用Au调整响度,有底噪可以降噪,简单提升一下音质。(非必须,可跳过)
用集成的语音切分工具切分语音、ASR、打标校对。具体操作可以看GPT-SoVITS教程。
④训练模型
改模型名,调几个参数,开始训练。具体操作可以看GPT-SoVITS教程。
⑤测试模型
TTS推理,拖入同一段参考音频,用训练出来的几个模型逐一对比测试。有时候最高的训练步数和批次不一定是效果最好的,要多测试。
⑥生成语音
如果对语气有要求,或者心中有理想的语气,最好几句几句的生成,长篇幅的表现不佳。
想要偷懒,可以先生成一长段,然后单独生成需要改动的句子。
即便是同样的参考音频,语气、说话方式的生成也是具有随机性的,需要多抽卡,保存对比,选取最优。
注意:
参考音频的选取也对最后的呈现效果非常重要!可以根据视频需要的语气,挑选①语气最接近的②测试出来音色最稳定的③语速适合的。多试试这三种不同的参考音频投放比例,找到一个当前场景下最适合的参考音频搭配方案记下来,以后只要用到这个场景就可以用这个配比。
另外,调语速可能会导致电音出现,所以理想状态是通过参考音频来控制语速。
⑦语音处理
这里是阿婆的处理步骤(用的Au):
把卡面的气息(包含笑、叹气、呼吸)单独剪出来存好——把语音拖进来排好——选择合适的气息插入——调整节奏——混缩——做3d环绕(用的插件是Panorama5)——混缩导出整段音频。
左右声道偷懒的话可以直接用剪映里的环绕音,只不过那个无法控制具体位置。
5.画面生成
核心词:挑选
使用工具:ChatGPT&Midjourney&ComfyUI
工具替代:
FLUX,可以完美替代Midjourney的免费本地AI工具。
Pony Diffusion,稳定、兼容性强,CivitAI上衍生的lora比较多(比如恋与深空四位的lora)。
Stable Diffusion,知名、国内生态好。国内模型站liblib。
Midjourney是收费的、在线的,可以用FLUX替代。而且用FLUX并不是平替,生成质量不差。
阿婆用Midjourney,一是因为比较熟悉用得顺手,二是钱都花了佛一点吧~
以下是阿婆的步骤:
①Midjourney生图
把人物原图、风格参考图发进discord。
找一个Midjourney提词生成的GPTs,把基本需求丢给它(比如:发型发色、瞳色、性别、动作、服装、背景、风格),复制生成的提词代码。(可以自己改提词,推荐的翻译工具是DeepL。)
把代码粘贴进discord。用cref控制人物,cw控制人物权重;用sref控制风格,sw控制风格权重。阿婆一般cw在30~60,sw在10~30。
开始抽卡。选择相中的风格&动作,继续抽卡。
挑选最后相中的几张图。(不用看脸像不像,只看动作、背景、氛围,以及Glint写真能不能摆个类似的脸的朝向让你拍。)
另外,手的问题依然存在,修手非常麻烦,所以最好不要让手出现。
②换脸
拉进Ps,用Glint写真里拍到的相似的角度脸,蒙版换头,调色调跟背景融一点。
或者拉进ComfyUI&WebUI,用IP-Adapter换脸。
或者用现成的Lora换脸。
还觉得突兀可以拉进ComfyUI里,重绘幅度调低跑一下,让模型把不能融合的部分更融合一点。
③高清放大
Midjourney默认生成的图分辨率都不会很高,本地的那一堆电脑配置低了太大的图也跑不了,所以基本流程都是先生成小图,然后再高清放大。
阿婆自己用WebUI放大到4K就会爆显存,所以这里用了ComfyUI。放大模型用的4X-UltraSharp。
另外,由于现下的AI视频效果都不太理想,所以不做推荐了。
6.视频剪辑&发布
核心词:调整
使用工具:视频剪辑工具&ChatGPT
有素材需要调的丢Ae&Ps里调一下。
素材都导进来,挑BGM,调节奏,导出,审片,制作封面,发布。
阿婆剪视频的时候一般都是最嗨的时候,因为到这里已经能看出成效了,而且BGM一加就不枯燥了()
告诉ChatGPT发布的场景,它可以帮忙想一个吸引人的名字,也可以给你提供一些标签,也可以给你写简介。(虽然这个阿婆比较习惯自己来)复盘的时候把数据发给ChatGPT,它也会给你提供一些建议。