点击下方链接,了解《音乐思政课》
AI(Artificial Intelligence)的简称,中文译为“人工智能”。著名的美国斯坦福大学人工智能研究中心尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科--怎样表示知识以及怎样获得知识并使用知识的科学。” 而另一位美国麻省理工学院的温斯顿教授则认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。
那么,何谓“AI合成主播”呢?顾名思义,就是用AI技术“合成”的主播。请注意,它是“合成”的主播,它的语言形态和外貌形体表达是建构在“模拟”人类播音员、主持人的“声音、音色、语气、节奏、情绪、韵律、样貌、表情甚至装束”等多维度特征之上的。
2019年3月3日,新华社联合搜狗公司在京发布全新升级的站立式AI合成主播,并推出全球首个AI合成女主播。此消息一出立刻引发了社会和新闻界广泛关注。许多媒体人也担心自己会被AI合成主播取代。阿联酋媒体The National报道称,这也许是世界各地记者都不愿意报道的新闻,中国刚刚发布的另一名AI主播,可能将偷走我们的工作,这虽然称不上灾难性消息,但仍然可能会让那些报道此事的人感到不安。特别是最近几年,“AI合成主播”发展迅猛,在学习强国、喜马拉雅等各互联网平台上,我们已经可以看到听到它们每天每时每刻,不辞辛劳,夜以继日的在播报新闻、读诗歌、读散文、播小说了。
挑战就这么如潮般涌来了吗!我们传统的播音员主持人又该如何“应对”、如何“接招”呢!在笔者看来“此君不足惧”!以下就人工智能技术以及播音员主持人“有声语言”的创作谈点浅见。
一、人工智能技术与播音员主持人相比的“天生缺陷”
首先,从人的智力和机器智力之间的一个重要区别谈起,那就是语境。作为人类,我们对周围的世界有着更多、更深入地了解。但人工智能并没有,它必须借助人类的思考、观察去了解周遭世界。
其次,语音识别系统能编译出正确的字串。准确的字串足以做很多事情,但它仍不能像人一样聪明,“这就是区别”,相关技术人员称,“获取字串只是一种有限的能力。如果要扩展这种能力,还有很长的路要走。这些有限的能力,已经成为许多关于人工智能乐观预测的基础,但对未来人类所承担的角色,则可能显得过于悲观。”
另外,很多与人工智能相关的炒作与最近媒体的大肆报道相关,例如前面文中所提到的,新华社联合搜狗公司在京发布全新升级的站立式AI合成主播,并推出全球首个AI合成女主播。还有,展会上仿生和受动物启发的机器人展示,或者观赏体育的人工智能系统,如可以与人类下棋、打乒乓球、高尔夫的机器人。一些误解源于将机器性能等同于能力。当看到人执行某项任务时,我们可以假定一些基本的能力——技能和天赋,人必须拥有这些技能才能完成该任务。但人工智能和这并不一样。
有相关研究人员介绍, “虽然AI 系统在下棋方面的表现令人吃惊,但它甚至不知道它是在玩游戏。那么,“AI主播”也一定不知道自己是在进行有情感有态度的有声有形语言创作表达。所以,我们把机器的性能误认为是它们的能力。当看到程序像人一样学习新事物并完成其任务时,就认为程序也能像我们一样对其有深刻的理解,那很可能我们就犯了一个错误。
二、播音员主持人有声语言的传播与AI主播相比的优势
播音员的稿件播报通常要经过这么一个过程来完成,“深入理解—具体感受—形之于声—及于听众”,这个过程中要达到正确理解与准确表达的统一,达到思想感情与尽可能完美的语言技巧的统一。在这一点上“AI君”显然无法做到。它只能“形成声音字节、传导给听众”,而“深入理解—具体感知”,这个播主语言中最核心的关键点它却无法实现。这也恰恰正是播音员主持人和一切有志从事有声语言创作的人,必须下大功夫的。理解得越深入,感受才能越具体,形成的声音才能有内在物质,有着力点,听众所及才能有互融共鸣。
例如:在播报“2020年1月23日,武汉因新冠肺炎疫情封城”的相关报道时,是落寞失望、充满恐惧,还是淡定、平静、温暖,亦或沉稳大气、乐观开朗、坚定有力,它直接会影响到受众的情绪变化。另外,身在疫情中心的湖北武汉本地的播音员主持人,与其他地区的播主在情绪把握上还会存在细微的变化。2020年1月24日,笔者就播出了一篇由湖北卫视《大揭秘》栏目组编导撰写的题为”今晚,我们和武汉一起跨年---写在武汉封城后”的稿件。稿件从除夕跨年的喜悦,到突遇封城的惊诧,到沉稳、大气、淡定的接受并理性支持,到英雄城市人民大无畏的抉择和战胜疫情的众志成城的斗志,再到温暖有爱、守望相助的新年祝福和防疫告诫,这期间丰富的、微妙的情感体验和表达是AI主播所无法体会模拟呈现的。该作品在喜马拉雅APP和今日头条上线后,点击量逾百万。如果不是传统播音员播诵是无法实现人与人之间的情感共鸣,这种精神上的相契AI主播是无法实现的。
在我国先秦时期,有一本有关音乐审美的专著《乐记》,书中对“声、音、乐”的审美标准和境界作了如下阐述:只知其声禽兽也;只知其音众庶民也;唯君子当知其乐。那么,AI主播的表达就只能是“只知其声”,是语言表达的最低层次。而传统播音员主持人要努力达到并不懈追求的就是“唯君子当知其乐”。那么,何为“君子”呢?孔子曾言:“君子有九思:视思明,听思聪、色思温、貌思恭、言思忠、事思敬、疑思问、忿思难、得思义”。君子还有四不:不妄动,动必有道;不徒语,语必有理;不苟求,求必有义;不虚行,行必有正。试想一下,如果带着这般标准和约束对我们要播读的内容去“深入理解—具体感受”,那么,“形之于声—及与听众”的过程将会在高格调的审美层面上完成。AI合成主播只能是望尘莫及。
我们都知道,在相机发明之前绘画的一项重要功能就是记录影像。即使现在,拍照和录制影像方便快捷到在手机上就能瞬间实现,但是,绘画仍然没有被取代。相反,绘画抒发情感的功能愈发凸显,表现手法、表现形式随着人们对周遭的观察思考在不断推陈出新。西方绘画的流派就从古典主义巴洛克风格到洛可可风格、从现实主义、立体主义到印象派、野兽派、分离派、抽象派等等。中国传统绘画也是从山水、花鸟、人物的具象表现到大写意、小写意,和以线造型的笔墨观,通过线条的力度、节奏、韵律表现情感,人们更在乎绘画中创作者对于色彩的浓淡变化、笔墨的线条流动、构图的出其不意、意象的亦真亦幻、超时空影像、超现实画面等的“人为干预”,使绘画者的主观情感,借由笔墨彰显精神和意识。更有甚者,将绘画的写实创作极致到比相机数字成像还要精细准确数倍仍不失色彩、笔墨趣味的地步。人的情感趣味,机器望尘莫及。还有,MIDI可以合成交响音乐,但它永远无法取代音乐厅里交响乐团在不同的指挥家对于音乐作品独特的诠释指挥下,在不同的演奏家对各种乐器“人为干预”所产生的乐音频率给予人由听觉感知直达灵魂的震撼。这里面最核心的就是人在创作中大脑的时时运动与思考。
如果真要说到AI合成主播对于传统播主的挑战,恐怕就是它可以“不吃饭、能熬夜”,当然,这是机器的属性。不过,对于一成不变的,缺乏活性的有声语言形态来说,它的确是一种挑战;对于我们的惰性,它的确是一种挑战;它不断鞭策我们掌握新知识、熟悉新领域、开拓新视野、增强本领能力,增强“脚力、眼力、脑力、笔力”,在“学思践悟”上迎接未来科技进步的挑战。
——本文摘自《新闻前哨》2022年6月(上)
编审:柳昱堃 周玲 陈刚 张楠