讲在前面:

1.工具的具体使用教程阿婆就不在这里放了,可以直接在B站搜阿婆给出的关键词,会搜出来一堆,挑适合自己的看就可以啦~

2.做这个分享是看到群里有很多小伙伴自己也在做视频,也在询问阿婆的制作工具,所以就把阿婆是怎么做的、用了什么工具,统一写出来方便大家看~祝每位太太都能产出自己满意的粮~

3.所有非在线类的、需要下载的AI工具,都需要:①有电脑②配置还过得去。至于什么样的配置可行,可以看对应工具整合包下面的评论或搜索“工具名称+低配置”。

4.有一些在线类的AI工具,如果上不去、找不到入口,请搜索B站”工具名称+如何“,按照教程进行操作,或直接搜索平替工具。

5.阿婆自己也在“想法提出——实践验证——理论确定——新想法提出”的实验中,会有思考不全面、偏重和忽视的地方,有建议&想法&需求都可以跟阿婆提哦~

6.交流群:749712497~欢迎来玩~

cut-off

1.确定选题

▼方向一:

核心词:新&热

使用工具:Copilot(原NewBing)

每天可以没事问一下Copilot最近B站(或者你想关注&发展的平台)的新趋势&热点是什么,也可以让它预测一下下周或下个月的趋势可能是什么。

工具替代:

可以用ChatGPT替代,但ChatGPT在联网上的反应比较钝,不如Copilot好用。

或者用国内的一些AI工具替代,搜“AI导航”应该能出来一堆。

也可以不使用工具,加社群(比如B站创作交流群),会有一些讨论和流行趋势的简单预测。

关于搜索:

搜索引擎阿婆也比较爱必应,搜出来的质量都比较高,不会出现不需要的杂七杂八的东西。(国内版的比较好用,国外版的效果不如直接问Copilot来的快。)

▼方向二:

核心词:兴趣

使用工具:笔记类APP

另外一种方式呢,就是从自己的兴趣着手,为爱发电,总会有一批小伙伴跟你的兴趣相似~

不过这个方向就比较随缘,需要看创意点+创作环境+运气&贵人+多变尝试,天时地利人和缺一不可~

关于灵感:

阿婆自己不想被困在枯燥乏味的重复里,对于阿婆来说重复=兴趣丧失=无动力=低产出,所以发现新东西很重要。

阿婆的灵感大多来自于接触到的新事物、新东西,游戏里的、生活上的、甚至梦中,有了灵感就随时记下来,即使当时碍于条件无法实验,过后也能翻出来记起来。灵感就像养鱼人撒了一把鱼食,抢到就赚了。积累的多了就可以形成自己的灵感池,想要什么从中间挑就可以。

关于笔记:

应用程序&APP推荐Notion。

①虽然现在很多文档&笔记类应用都在仿照Notion的形式,可以做文件套文件,而非传统文件夹形式了,但Notion是最早的也是最知名的。

②稳定性较好,不用担心突然变形式,或者放弃某种功能。

③直接内容搜索+双端同步,比较适合做个人知识库&资料库。

④缺点就是官方只有纯英文版。以及可能受到社会环境影响,网络会不太稳定。而且现在已经禁止俄罗斯用户使用,下一步环境再升级我们也有可能会受到影响。(就像GPT的api调用禁止一样)

关于脑图:

思维导图类的,之前冲着可以多端同步用过幕布,但现在还是改用回了经典Xmind。原因在于脑图类的操作还是电脑端更方便,而手机端的需求,可能只用一张图就能满足。

cut-off

2.确定形式

核心词:借鉴

使用工具:视频类APP

构思视频的形式大多会遇到的状况:想到了但不知道怎么实现,知道怎么实现但能力不足,能力足够了但成本(人力、资金、时间)太高。

所以最方便有用的方式,就是:

①整合自己现阶段的能力和资源。

②刷各类视频的时候,可以多思考根据自己现在的情况,能不能实现(理论)、如何实现(实操)、怎么玩花样(创新)。

③计算成本投入,是否需要学习提升、是否有长时间消耗、如何权衡时间与质量。

④行动起来。

试剪:是否确实可行,中途遇到了哪些困难,怎么解决的,时间安排是否合理。

试发布:有什么样的反馈、前辈的建议,可以优化的部分,需要长期学习的地方。

这些都会成为经验,为下一个视频做准备。

⑤总结优化。就是老生常谈的复盘和调整啦~

但是注意:一两次的尝试可能会遇到存在一些你并不了解的底层规则在运作,或是遇到一些非常态的运气与巧合,或者可能是遇到了贵人或小人。只有长期稳定的尝试才能看出效果~

cut-off

3.台词&文案确定

核心词:修改

使用工具:ChatGPT

工具替代:

一切能生成质量比较高的内容的AI产品(比如Claude),同样可以搜“AI导航”去找。

阿婆具体的使用步骤是这样的:

①自己写核心主题和大纲。

②自己当甲方,把主题、大纲和要求交给ChatGPT,让它生成基础内容。(比如告诉它形式、应用场景、人物性格、台词风格、主要情节)。

③如果生成的不理想,找参考丢给它,或搜索合适的GPTs使用。

④如果有涉及到对话的挑出来,自己写。

⑤交给ChatGPT(要求它根据人设)润色,挑选合适的词句替换,洗掉自己的语言习惯。

注意:

目前ChatGPT在直接生成人物对话方面并不能达到理想的效果(即使有参考),所以如果仅仅指望它生成对话,那结果很可能就是一坨。但它非常擅长加字数和加很多细节描写废话文学,也非常擅长修改措辞,所以还是让它做擅长的事吧。

另一种用法就是,可以让它找灵感。(比如你想在这里加一个场景,但不知道要加什么互动,可以让它多给你几个方案,从中挑一个你比较喜欢的互动,然后自己写对话丢给它润色。)

当然,如果你有更适合自己的使用方式也不需要按照这个步骤来,比如阿婆的一位朋友就习惯先自己通篇写完再让AI来润色。理解,尊重。

(另外,ChatGPT不能瑟瑟,但可以告诉它多用双关语和暗示。)

这4步做完,可以达到80%的效果。

这时候如果并不着急出视频,还有一些时间,那就开始磨本子。阿婆自己写对话类的,会把人物和情节放在脑子里,没事儿就翻出来想一想,他在这种场景下会怎么说,哪里还可以优化,更符合他本人的性格一点。

cut-off

4.语音生成

核心词:测试

使用工具:GPT-SoVITS(v2)

工具替代:

这个暂时无可替代。

用FunAudioLLM(CosyVoice)语调会更接近常人,但音色、语气会有很大差别。

(比如小鱼的声音特点在于独特的发音和咬字方式,这个不训练模型暂时无法复刻。)

使用GPT-SoVITS的简易步骤:

①下载安装

B站搜“花儿不哭”,可以直接下载大佬的整合包。

教程可以搜“GPT-SoVITS”按最多播放排序,大佬讲的很清晰易懂。

②收集语音素材

可以自己在电脑端下一个安卓模拟器,从游戏里关掉BGM和音效,用Bandicam录制。因为是直接内录所以音质会好很多。

也可以在B站找一个其他up发的去BGM版视频下载,不会下载可以搜下载方法,也可以用Bandicam录制。

如果找不到无BGM版(比如秘密时光),可以在录制完成后使用UVR5来提取人声,只不过这样会损失一点音质,后续还需要在Au里处理一下。

录完的视频用随便一个视频剪辑软件(必剪)or音频编辑软件(Au)or格式工厂or在线转换,转成mp3或者wav格式。

这里说一下:

挑选的音频对模型最终呈现的效果非常重要!如果有特别的定向需求(比如耳语、战斗、夸张语气),最好单独练一个模型。这里拿恋与深空举例。

想要日常说话的,每个卡的声线、语气、风格可能都不太一样,喜欢哪个卡的说话方式,就选哪张卡做音源,也可以选多张卡,音色会混合一下。

如果想要定向需求的,那么大约一半的音频是这个需求,一半的音频是稳定的日常语音,训练出来的模型基本不会有太大问题,是至少可以一用的。

如果偷懒全混在一起做成Mix,会导致音色辨识度降低,定向需求也不会特别理想。

③音频前置处理

用Au调整响度,有底噪可以降噪,简单提升一下音质。(非必须,可跳过)

用集成的语音切分工具切分语音、ASR、打标校对。具体操作可以看GPT-SoVITS教程。

④训练模型

改模型名,调几个参数,开始训练。具体操作可以看GPT-SoVITS教程。

⑤测试模型

TTS推理,拖入同一段参考音频,用训练出来的几个模型逐一对比测试。有时候最高的训练步数和批次不一定是效果最好的,要多测试。

⑥生成语音

如果对语气有要求,或者心中有理想的语气,最好几句几句的生成,长篇幅的表现不佳。

想要偷懒,可以先生成一长段,然后单独生成需要改动的句子。

即便是同样的参考音频,语气、说话方式的生成也是具有随机性的,需要多抽卡,保存对比,选取最优。

注意:

参考音频的选取也对最后的呈现效果非常重要!可以根据视频需要的语气,挑选①语气最接近的②测试出来音色最稳定的③语速适合的。多试试这三种不同的参考音频投放比例,找到一个当前场景下最适合的参考音频搭配方案记下来,以后只要用到这个场景就可以用这个配比。

另外,调语速可能会导致电音出现,所以理想状态是通过参考音频来控制语速。

⑦语音处理

这里是阿婆的处理步骤(用的Au):

把卡面的气息(包含笑、叹气、呼吸)单独剪出来存好——把语音拖进来排好——选择合适的气息插入——调整节奏——混缩——做3d环绕(用的插件是Panorama5)——混缩导出整段音频。

左右声道偷懒的话可以直接用剪映里的环绕音,只不过那个无法控制具体位置。

cut-off

5.画面生成

核心词:挑选

使用工具:ChatGPT&Midjourney&ComfyUI

工具替代:

FLUX,可以完美替代Midjourney的免费本地AI工具。

Pony Diffusion,稳定、兼容性强,CivitAI上衍生的lora比较多(比如恋与深空四位的lora)。

Stable Diffusion,知名、国内生态好。国内模型站liblib。

Midjourney是收费的、在线的,可以用FLUX替代。而且用FLUX并不是平替,生成质量不差。

阿婆用Midjourney,一是因为比较熟悉用得顺手,二是钱都花了佛一点吧~

以下是阿婆的步骤:

①Midjourney生图

把人物原图、风格参考图发进discord。

找一个Midjourney提词生成的GPTs,把基本需求丢给它(比如:发型发色、瞳色、性别、动作、服装、背景、风格),复制生成的提词代码。(可以自己改提词,推荐的翻译工具是DeepL。)

把代码粘贴进discord。用cref控制人物,cw控制人物权重;用sref控制风格,sw控制风格权重。阿婆一般cw在30~60,sw在10~30。

开始抽卡。选择相中的风格&动作,继续抽卡。

挑选最后相中的几张图。(不用看脸像不像,只看动作、背景、氛围,以及Glint写真能不能摆个类似的脸的朝向让你拍。)

另外,手的问题依然存在,修手非常麻烦,所以最好不要让手出现。

②换脸

拉进Ps,用Glint写真里拍到的相似的角度脸,蒙版换头,调色调跟背景融一点。

或者拉进ComfyUI&WebUI,用IP-Adapter换脸。

或者用现成的Lora换脸。

还觉得突兀可以拉进ComfyUI里,重绘幅度调低跑一下,让模型把不能融合的部分更融合一点。

③高清放大

Midjourney默认生成的图分辨率都不会很高,本地的那一堆电脑配置低了太大的图也跑不了,所以基本流程都是先生成小图,然后再高清放大。

阿婆自己用WebUI放大到4K就会爆显存,所以这里用了ComfyUI。放大模型用的4X-UltraSharp。

另外,由于现下的AI视频效果都不太理想,所以不做推荐了。

cut-off

6.视频剪辑&发布

核心词:调整

使用工具:视频剪辑工具&ChatGPT

有素材需要调的丢Ae&Ps里调一下。

素材都导进来,挑BGM,调节奏,导出,审片,制作封面,发布。

阿婆剪视频的时候一般都是最嗨的时候,因为到这里已经能看出成效了,而且BGM一加就不枯燥了()

告诉ChatGPT发布的场景,它可以帮忙想一个吸引人的名字,也可以给你提供一些标签,也可以给你写简介。(虽然这个阿婆比较习惯自己来)复盘的时候把数据发给ChatGPT,它也会给你提供一些建议。