转自 学术头条
AIGC NEWS
AIGC 周报
跟踪AIGC前沿资讯
WEEK BY WEEK
AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。
“新晋流量”ChatGPT的背后,AIGC是“昙花一现”?还是将引领人工智能进入新的时代?「AIGC 周报」将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。
01 技术前瞻
ChatGPT真的是万事通吗?
OpenAI 发布了 ChatGPT,彻底改变了人工智能中人机交互的方法。与聊天机器人的第一次接触揭示了它在各个领域提供详细而精确答案的能力。这项研究检查了 ChatGPT 在 25 种不同的 NLP 分析任务上的能力,其中大多数任务甚至对人类来说都是主观的,如情绪分析、情绪识别、攻击性和立场检测、自然语言推理、词义消解、语言可接受性和问题回答。
这项研究将 ChatGPT 的查询过程自动化,分析了超过 38000 个响应,将其结果与现有的 SOTA 解决方案进行了比较。结果显示,对于零样本和少样本评估,ChatGPT 模型的平均质量损失约为 25%。研究表明,任务越困难(SOTA 性能越低),ChatGPT 损失就越大。这尤其是指诸如情绪识别之类的实用 NLP 问题。
Jan Kocoń 及其同事还测试了测试了 ChatGPT 通过随机上下文少样本个性化对选定的主观任务进行响应的能力,获得了明显更好的基于用户的预测。额外的定性分析揭示了 ChatGPT 的偏见,这很可能是由于 OpenAI 对人类培训师施加的规则。这项研究为最近的预测性 NLP 模型的高质量是否可以表明一个工具对社会的有用性,以及应该如何建立这种系统的学习和验证程序提供了讨论基础。
论文链接:
https://arxiv.org/abs/2302.10724
诊断 ChatGPT 的 AI 伦理问题
自然语言处理的最新突破允许以开放的方式合成和理解连贯的文本,从而将理论算法转化为实际应用。大型语言模型(LLM)对报告总结软件和撰稿人等业务产生了重大影响。然而,观察表明,LLM 可能表现出对社会的偏见和毒性,带来系列不负责任导致的道德后果和社会风险。因此,应该为负责任的 LLM 制定大规模的基准。
尽管一些实证调查揭示了高级 LLM 中存在一些伦理困难,但目前还没有对当前 LLM 使用的伦理进行系统的检查和用户研究。为了进一步指导未来负责任地构建具有伦理道德的 LLM,这项研究对 OpenAI 的 ChatGPT 进行了定性研究,以更好地了解近期 LLM 中具有道德风险的实际特征。
研究根据经验在多个样本数据集上对 ChatGPT 进行了基准测试,从四个角度综合分析了 ChatGPT:(1)语境{偏见};(2)语境{可信度} ;(3)语境{稳定性};(4)语境{毒性}。
研究发现,ChatGPT 的表现可能比目前的 SOTA 语言模型略好,同时也表明了大量的道德风险无法通过现有的基准来解决,因此需要通过额外的案例研究来说明这些风险。
论文链接:
https://arxiv.org/abs/2301.12867
拍照时人像失真怎么办?DisCO可能会帮到你
在近距离拍摄面部特写时,图像经常会出现透视失真,导致夸张的面部特征和不自然/不吸引人的外观。这项研究提出了一种简单而有效的方法来校正单个特写面部的透视失真,核心思想是利用三维 GAN 反转方法来恢复合理的面部几何形状,并揭示出隐藏的面部部分,如耳朵。

据此,研究首先通过联合优化相机的内部/外部参数和脸部潜在代码,使用透视失真输入面部图像进行 GAN 反转。为了解决联合优化的模糊性,研究者开发了焦距重新参数化、优化调度和几何正则化。以适当的焦距和相机距离重新渲染肖像可以有效地纠正这些失真并产生更自然的效果。
实验结果表明,在视觉质量方面,这项研究的方法与以前的方法相比更有优势,并通过许多例子验证了此方法在野外人像照片上的适用性。此外,这项研究为肖像透视失真校正建立了一个定量评估协议以助力未来的研究。
论文链接:
https://arxiv.org/abs/2302.12253
根据人工反馈调整“文生图”模型
深度生成模型在文本到图像合成方面取得了令人瞩目的成果。然而,当前的文本到图像模型通常会生成与文本提示不充分匹配的图像。据此,这项研究提出了一种使用人类反馈来调整此类模型的方法。
具体而言,包括三个阶段:首先,从一组不同的文本提示中收集评估模型输出对齐的人类反馈;然后,使用人工标记的图像-文本数据集来训练预测人类反馈的奖励函数;最后,文本到图像模型通过最大化奖励加权似然来微调改进图像-文本的一致性。
这项研究的方法比预训练模型更准确地生成具有指定颜色、计数和背景的对象。此外,通过分析了几种设计选择(例如使用辅助损失和收集不同的训练数据),发现对此类设计选择进行仔细调查对于平衡一致保真度权衡非常重要。研究结果表明,从人类的反馈中学习有可能大大改善基于文本生成图像的模型。
论文链接:
https://arxiv.org/abs/2302.12192
02 企业动态
OpenAI发布通用人工智能路线图
OpenAI 始终坚守着使命——确保通用人工智能,通常比人类更聪明的人工智能系统,造福全人类。近日,OpenAI CEO Sam Altman 提出,“我们的短期计划是使用 AI 来帮助人类评估更复杂模型的输出并监控复杂系统,而从长远来看,使用 AI 来帮助我们提出新的想法以实现更好的对齐技术。”
具体而言从三方面为 AGI 作准备:首先,随着更强大的系统被创建, OpenAI 希望部署它们并获得在现实世界中操作它们的经验。其次,他们正在努力创建更加一致和可控的模型。从 GPT 3 的第一个版本等模型到 InstructGPT 和 ChatGPT 的转变就是一个早期的例子。最后,OpenAI 提出希望就三个关键问题展开全球对话:如何治理这些系统,如何公平分配它们产生的收益,以及如何公平共享访问权限。
人类的未来应该由人类决定,与公众分享有关进步的信息很重要。应该对所有试图建立 AGI 的努力进行严格审查,并对重大决策进行公众咨询。Sam 表示,“可以想象一个人类繁荣到我们任何人都无法完全想象的程度的世界。我们希望为世界贡献一个与这种繁荣相一致的通用人工智能。”
参考链接:
https://openai.com/blog/planning-for-agi-and-beyond/
微软:在Skype中引入AI必应
为了帮助用户与朋友和家人更好地协作,微软推出了用于 Skype 的 AI 必应。每天有超过 3600 万人使用 Skype 进行跨国界和世界各地的电话和聊天联系,新的必应将启用一些有用且有趣的新场景和功能。
例如,如果一家人正在谈论下一次家庭团聚,通过简单地向 AI 必应询问有关旅行目的地的建议、天气预报和旅行期间的有趣事件,聊天中的每个人都可以访问这些结果。同时,用户在聊天时可以让必应简单地从网络上获取信息,例如,最新消息或昨晚的颁奖典礼,并添加到对话中。
除此之外,用户可以选择显示答案的方式——要点、文本或简化的回复。必应精通 100 多种语言,并且能够在这些语言之间进行翻译,可以为这一全球通信工具提供独特的价值。
参考链接:
https://blogs.microsoft.com/blog/2023/02/22/the-new-bing-preview-experience-arrives-on-bing-and-edge-mobile-apps-introducing-bing-now-in-skype/
高通:Stable Diffusion生成式AI可以在智能手机上运行
Stable Diffusion 由初创公司 Stability AI 开发,是当今最流行的图像创建生成 AI 模型之一,经常与OpenAI 的 DALL·E 竞争。在过去,Stable Diffusion 由于所需技术庞大等问题只在云端运行。但是,近日高通透露,通过结合使用软件技术和硬件优化,它能够缩小 Stable Diffusion ,使其可以在普通的安卓智能手机设备上运行模型。
“为了隐私和安全,当通过用于稳定扩散的云 API 输入查询时,你的所有信息或想法都会发送到某家公司的云服务器,”Qualcomm Technologies 工程副总裁 Jilei Hou 告诉 VentureBeat。“有了设备上的人工智能,这个问题就消失了,因为你所有的想法都只存在于设备上。”
参考链接:
https://venturebeat.com/ai/can-stable-diffusion-generative-ai-run-on-a-smartphone-qualcomm-says-yes-it-can/
03 政策法规
人工智能创建的图像在技术测试中失去美国版权
美国版权局在一封信中表示,使用人工智能系统 Midjourney 创建的图画小说中的图像不应获得版权保护。《黎明之曙光》的作者克里斯·卡什塔诺娃有权对书中文本和元素编排享有版权,但不适用于 Midjourney 制作的图像。
该决定是美国法院或机构对 AI 创作的作品的版权保护范围做出的首批决定之一,并且是在 Midjourney、Dall·E 和 ChatGPT 等生成式 AI 软件迅速崛起的情况下做出的。信中表示,“用户无法预测 Midjourney 的具体输出这一事实使得 Midjourney 出于版权目的与艺术家使用的其他工具不同。”
参考链接:
https://www.taipeitimes.com/News/biz/archives/2023/02/24/2003794928
Clarkesworld宣布:提交目前已关闭,不难猜出原因
2月21日,流行的科幻杂志 Clarkesworld 宣布,由于收到大量人工智能生成的作品,杂志将暂时停止投稿。Clarke 表示,仅在二月份就收到了 700 份由人类撰写的投稿和 500 份机器生成的故事。
Clarke 构建了杂志使用的提交系统,他将 AI 故事垃圾邮件发送者的行为描述为“不雅”——通过与其他编辑比较笔记,Clarke 能够看到同一作品正从同一 IP 地址提交给多个出版物相隔几分钟,通常是按照杂志在列表中出现的顺序。垃圾邮件来自那些希望快速赚钱的人,他们通过“副业”网站找到了 Clarkesworld 和其他出版物。
参考链接:
https://www.theverge.com/2023/2/25/23613752/ai-generated-short-stories-literary-magazines-clarkesworld-science-fiction
04 专家观点
OpenAI CEO Sam Altman:AGI 有潜力赋予每个人难以置信的新能力
Sam:“我们可以想象这样一个世界,在这个世界中,我们所有人都可以获得几乎所有认知任务的帮助,为人类的聪明才智和创造力提供巨大的力量倍增器。另一方面,AGI 也会带来严重的滥用、严重事故和社会混乱的风险。由于 AGI 的优势如此之大,我们不认为社会永远停止其发展是可能的或可取的;相反,社会和 AGI 的开发者必须想办法把它做好”。
参考链接:
https://openai.com/blog/planning-for-agi-and-beyond/
360集团创始人周鸿祎:ChatGPT的“胡说八道”正是智能的体现
周鸿祎表示:“ChatGPT 并不完美,经常一本正经地‘胡说八道’,给出的答案可能张冠李戴。但通过增加训练和用户反馈都可以解决。ChatGPT 不是搜索,也不是简单的输出,它是基于学习到的知识,利用推理的能力来组织问题的答案。从这个角度来讲,ChatGPT 的‘胡言乱语’恰恰体现了它的智能。拥有想象力、可以无中生有地‘编故事’,正是智人区别于猿人和其他动物的重要标志。”
同时,周鸿祎认为在全球竞争日益激烈的今天,ChatGPT 相关技术的发展水平将成为不同国家提升生产力水平的分水岭。
参考链接:
https://www.chinastarmarket.cn/detail/1276982
旷视科技联合创始人、CTO唐文斌:AI行业发展路漫漫
唐文斌认为,过去两年其实是 AI 行业在面对复杂场景下,在软件技术外的基础能力的积累期。针对不同行业做 AI 解决方案,不仅是软件算法的问题,还涉及到硬件、工程。例如,在与某一家企业合作需要学习了建筑常识、镜面成像等问题,这些复杂体系和对应的能力,AI 创业者逃不过去,必须投入时间和精力。他表示,“很多行业内人士看到 ChatGPT 做出来了,觉得只要按照他的方式做也能做出来,但其实真的不是这样”,后续工程管理、经费支持,包括GPU的支持,我们还有一定差距。
参考链接:
https://www.chinastarmarket.cn/detail/1277868
扫描二维码
加入我们
