2023年8月15日,《生成式人工智能服务管理暂行办法》正式生效实施。这是我国首份生成式人工智能(Artificial Intelligence Generated Content,缩写为AIGC)监管文件。



这份文件具有强制性,想要利用AI来协助科研文本的小伙伴,一定要注意学习。投叔今天就来简单普普法。

#01

监管文件的背景和经过

随着ChatGPT的迭代完善,生成式人工智能大模型技术迅速成为全球瞩目的焦点。面对人类科技的重大突破,已有的社会规则和伦理观念遭受巨大挑战。站在社会治理的角度,有必要对其规制。

新技术横空出世,《生成式人工智能暂行办法》的出台过程也堪称极速。

4月11日,国家网信办先发布一份征求意见稿;

5月31日,国务院办公厅发布2023年度立法工作计划,将人工智能法草案列入预备提请全国人大常委会审议的法律草案;

7月10日,国家网信办与国家发改委、教育部、科技部、工信部、公安部以及广电总局等七部委联合发布暂行办法;

8月15日起施行。

短短四个月时间,全球首部直接针对生成式人工智能进行规制的国家层面法律文件正式落地。



暂行办法体现出现阶段监管机构对于AIGC的态度,既要重视发展,也要重视风险。与先前的征求意见稿相比,暂行办法显得不那么严苛,更加合理。比如征求稿中第四条(四)整句删除,原表述为“利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息”。根据当下AIGC的技术水平,开发企业很难保证生成内容的真实准确,如果硬要这样管理,恐怕就没人进入这个赛道了。

在我国司法实践中,新法律不是凭空而来的。面对新的社会需求和风险,一般是归口部委先出个指导意见;然后牵头其他相关部委出台管理办法,这就属于法规了;接着是人大常委会审议的法律草案;最后过人大成为新法律。从管理办法开始,就有强制性了。

暂行办法里的七个部委肯定是跟AIGC关联度最高的,其中有公安部,这说明暂行办法的强制性里,最高可以上刑。仔细看条款,第二十一条也的确出现:

构成违反治安管理行为的,依法给予治安管理处罚;构成犯罪的,依法追究刑事责任。

所以,大家一定得注意了,乱用AIGC,可能会违法,甚至犯罪!

#02中国首份生成式人工智能监管文件正式落地,强制执行!

监管文件的背景和经过

投叔记得年初刚听说ChatGPT的时候,就有人琢磨着能不能用来写论文,同事们之间讨论了很多次,有几个领导还专门问,看怎么在科研里用起来。

出身实验科学的投叔,本能地认为AI不可能用来生成理工科与实验有关的论文,最多来个小综述——因为有字数限制。试了几次,连综述都写得很垃圾。后来投叔又用AI生成过自己关心的社科问题的小论文,也很差劲。不过身边同事有人用AI生成个人总结和心得体会,除了内容空洞,也还算基本过线。投叔还听说有人用AI生成点官样文章,参加主旋律征文。

整体上,以投叔的尝试,AI写论文挺难令人满意,对我的科研没什么帮助,只能写点没什么营养的客套话。其原因可能是我还不太会用,因为投叔后来听说AI可以直接生成代码,要是这样的话,CS领域的实验AI就能做了,而且还能量产软著。

国外学术圈在今年年初也大范围地讨论过AI写论文的问题,因为已经有时髦的科研人员在发表的论文中把AI列为论文作者,而且还是第一作者!



论文的大部分内容由ChatGPT生成,自然人作者问ChatGPT几个与研究主题有关的问题,ChatGPT自动生成文本后,自然人作者再来审核,而且论文成稿后,ChatGPT还修改了论文的语法和格式。这么说来,ChatGPT当一作,的确实至名归。

但问题也来了,如果这种玩法也被允许,学术研究会不会乱套?

答案显然是肯定的。

美国田纳西大学健康科学中心的放射科医生Som Biswas,花4个月用ChatGPT写了16篇论文,在4个不同期刊上发表了5篇。最要命的是,作者亲口承认,这些论文不限于放射学专业,包括军事、教育、农业、社交媒体、保险、法律和微生物学等。



针对ChatGPT代写论文,并被列为作者等一系列问题,Nature率先明确了立场,在主编社论中给出两个原则:

(1)任何大型语言模型工具(LLM)都不能成为论文作者;

(2)如在论文创作中用过相关工具,作者应在“方法”或“致谢”或适当的部分明确说明。

目前,这两个原则已出现在投稿指南中。



Science的立场跟Nature差不多。主编颇有诗意地写道:

科学记录归根结底是人类为解决重要问题所做的努力之一。机器发挥着重要作用,但它是人们提出假设、设计实验和理解结果的工具。最终,产品必须来自——并由——我们头脑中美妙的计算机来表达。



学术出版巨头Elsevier在接受媒体采访时,也表达了与上述类似的观点。

看来,用AIGC写论文是可以的,但不能把使用的工具列为作者,而且最好还得告诉期刊编辑们。

#03

未来路在何方

期刊没有禁止使用AIGC,很可能的原因是现在还没办法确定一篇论文是否为AIGC撰写。所以即便有禁令,也不过是一纸空文。

今年1月,Nature数字医疗领域子刊NPJ Digital Medicine发表了一项关于ChatGPT在医学领域的应用研究论文。



研究团队收集了来自5个高影响力期刊(JAMANEJMBMJLancetNature Medicine)的50篇摘要作为对照语料库,然后让ChatGPT根据这些文献的标题和期刊生成新的研究论文摘要。

原创摘要和ChatGPT生成的摘要各50篇交给四位医学领域审稿人盲审,他们只正确地识别了43篇原创摘要和34篇由ChatGPT产生的摘要。

不过,好消息是,研究人员用AI内容检测器还是能对两类摘要进行区分的。但这样的内容检测工具很多,听谁的为准呢?

不仅期刊为难,高校也挺为难的。

今年2月,香港大学向师生发出内部邮件,临时性禁止在港大所有课堂、作业和评估中使用ChatGPT或其他AI工具。如果必须要使用,需事先获得相关课程导师的书面许可,违反上述临时措施的行为将被视为“潜在抄袭”行为。邮件专门提到,这是临时措施,后面会有更长期的政策被制定出来。

本月初,港大宣布在新的学年,将免费为师生提供多种生成式人工智能(Generative artificial intelligence)应用程序,但限制学生每月向AI提出最多20个指令(Prompts)。



从禁止使用到免费提供,港大这个弯转得有点大。实际上,早在今年4月,港大就已允许教师和员工使用AI工具,但仍然禁止学生使用。到6月的教务委员会上,掌握AI工具已经成为口语、写作、视像、数码等四种重要的沟通传播能力以外,学生必须具备的第五种重要能力了。

AIGC工具大爆发,潮流势不可挡,学术期刊和高校都已无法抗拒,可为首的ChatGPT却面临麻烦。

ChatGPT的开发商OpenAI抓取网络的文章和图片来训练AI模型,这部分来自网络的数据以前没人管,但《纽约时报》准备第一个吃螃蟹。他们的代理律师准备对OpenAI提起诉讼,以保护《纽约时报》的知识产权。



如果《纽约时报》能成功证明OpenAI非法复制自家内容,起诉的结果可能会对OpenAI造成毁灭性打击,包括销毁ChatGPT数据集,并对每条侵权内容处以高达15万美元的罚款。

理论上,知识产权官司都可以通过双方签订的授权许可协议来解决,但《纽约时报》似乎不愿意签署任何协议,因为开发出来的AI产品,很可能成为自身的竞争对手。

众所周知,ChatGPT这类LLM都是海量数据训练出来的,若是大家都不允许AI公司拿自家内容开发工具,那么开发团队即便有再牛的算法也同样无用武之地。

结尾

AIGC在经历了半年的轰轰烈烈后,各种问题凸显出来。AI工具开发商、网络内容供应商、使用者、期刊、高校、政府……各方的利益冲突也逐渐摆上桌面,立法规制很有必要,但潮流究竟流向何处,恐怕还没人知道。不知道大家如何看待此事,欢迎评论区留言讨论~