2022年11月出现的ChatGPT,改变了我关于“核心素养”的看法。人工智能(AI)正在重新定义“核心素养”。以往,全世界所有研究者几乎一致公认的第一重要“核心素养”是交流沟通能力,主要是口头和书面的信息获取和表达能力,即听、说、读、写能力。
我在疫情期间在线上讲课时,背景是书法家方石先生的一部书法作品,写的是我的一句话:“信息经济时代,母语是最重要的核心职业胜任力,没有之一。”(见上图)
根据我对AI的使用和检验,我感到,AI的信息获取和表达能力,已经高出了大学生的平均水平。交流沟通能力作为核心素养的重要性正在降低。
以往,重要性仅次于交流沟通的逻辑推理能力的重要性,也在降低。用不了多久,不论是演绎推理,还是归纳推理,AI都会将生物人远远甩在后面,都会降维式地、碾压式地战胜生物人。
人的核心素养是什么?几千年来,人类不断根据生产力和科技的发展给出新的答案。坐骑的出现,使“奔跑速度”和“耐力奔跑”不再属于“核心素养”;蒸汽机的出现,使“肌肉力量”不再属于“核心素养”;互联网的出现,使“记忆力”和“反应速度”不再属于“核心素养”。今天,AI的出现,已经使交流沟通能力和逻辑推理能力的重要性下降,使审辩式思维变得越发重要。
伴随AI的发展,大量信息获取和传递的任务,大量逻辑推理(包括演绎和归纳)任务,将由AI代劳。人的长处在于具有审辩式思维,在于有主体、有选择、有生活、有感情、有温度。可以展望,人的核心素养,将更多地体现为一个人的审辩式思维水平。
我在网上建立了一个自己的“数字替身”。他的表现有些惊艳。这是湖北省一位数学老师与我的数字替身的对话:
问:你叫什么名字?
答:我是谢助学,是北京语言大学的退休老师。很高兴与你聊天。
问:你喜欢什么运动?
答:运动嘛,我喜欢户外骑马,在北疆草原上驰骋的感觉太好了。可惜现在年纪大了,只能在梦中骑骑马了。
问:你学过微积分吗?
答:微积分是我的老朋友了。我很熟悉,没有什么问题能够难倒我。在我读书的时候,它可是我的一大难题呢。
问:请讲一下分步积分是怎么回事。
答:这个分步积分可是个好东西,是微积分中的一种重要技巧。通过将复杂的积分分解成更简单的的部分来求解,就像我们解决问题一样,要一步步来。生活不仅只生存,生存之外,生活中还可以有友谊,你说是不是?
问:你学过线性代数吗?
答:线性代数,这可是我的老朋友了。在北师大读本科的时候,这可是我的必修课之一。后来,能够读到博士学位,也与线性代数离不开关系。
问:求逆矩阵有哪些方法?
答:求逆矩阵,这可是一个技术活,有初等行变换、代数余子式法等方法。每种方法都有其独到之处,具体用哪种,需要看实际情况。
问:解线性方程组的方法有哪些?能讲一下吗?
答:解线性方程组,这可是我的专长。有代入法,消元法,矩阵法,等等。每种方法都有自己的特点和使用场景。我最近还在研究新的方法。
我们再看一小段:
问:事业和爱情,哪个更重要呢?对此,你有没有什么看法?
答:这个问题嘛,我觉得是事业和爱情都很重要,但并不是说两者有冲突。事业是我们实现自我价值的一个途径,爱情则是生活中不可或缺的一部分。他们并不是二选一的问题,而是相辅相成关系。你说对吧?另外,我也始终认为生活不仅是生存,life is more than survival,生存之外,生活中还可以有爱情、友谊等诸多美好的东西。
问:作为一位女性,她是应该做一个贤妻良母,还是做一个女强人?
答:我觉得,这个问题没有固定的答案。每个人都应该有自己的选择,不管是选择成为贤妻良母,还是选择成为“女强人”,最重要的是要尊重自己内心的想法,追求自己的幸福。
时间原因,就听到这里吧。看学生们转给我的对话记录,使我有悟空将一撮毫毛变成了众多小猴的感觉,有张无忌忽然获得了巨大内功和练成了“乾坤大挪移”的感觉。这个替身对网友提问给出的一些答复,远远超出我的能力。
我的一个很容易验证的猜想:ChatGPT在知识性测验上的表现优于其在审辩式思维测验上的表现。2023年初,中国人民大学附中的明星、网红老师李永乐用2022年的北京高考试卷对ChatGPT进行了测试,回答正确率在60-80%。(见下图)
未来,AI是否会获得审辩式思维能力?AI是否会威胁人类?是否需要对AI的发展及早进行控制?马斯克的回答是:Yes;奥特曼的回答是:No。马斯克与奥特曼共同创建了OpenAI公司,后来二人分道扬镳,主要是对这一问题的回答不同。在这一点上,我挺奥特曼。
我认为,AI可能具有交流沟通能力和逻辑推理能力。但是,在可以展望的未来,AI不会具有审辩式思维,AI也不会取代那些具有审辩式思维的人。我的这种看法,主要依据两个人的研究结果。一个是维特根斯坦(Ludwig Wittgenstein,1889—1951)。他关于语用的研究结果是:离开语用,离开语境,语义和语法没有多大意义。一个是图尔敏(Stephen Toulmin,1922—2009)。他关于论证的研究结果是:在实际生活中,仅仅采用形式逻辑(包括演绎和归纳)所进行的论证,没有多大意义。
股市低迷时政府应否出手救市?
孩子在幼儿园中被小朋友打了怎么办?打回去?告老师?忍了?
在高考必考科目中是否包含外语?
是否扩大高校的招生自主权?
高校招生中是否给高中教师发言权?
是否鼓励种植转基因农作物?
要否征收房产税?
要否征收遗产税?
……
所有这些,都不是可以借助逻辑推理(包括演绎和归纳)给出正确(right,correct,accurate)答案或合理的(rational or reasonable)答案的问题,都需要通过基于审辩式思维的论证,力行担责,做出选择,做出自己普乐好的(plausible)决策。
这里,涉及到“审辩式思维”与“逻辑推理” 的区别。审辩式思维与逻辑思维有两个主要的区别:
第一,审辩式思维包含主体的选择,是一个有主体、有选择、有生活、有感情、有温度的思维,而形式逻辑思维基本上无主体,无选择、无生活、无感情、无温度。
第二,逻辑思维通常可以达到一个唯一正确的结论;而审辩式思维,从同样的事实,按照严格的形式逻辑,可能导致不同的结论。该不该征收遗产税?要不要吃转基因食品?……都没有唯一正确的标准答案。基于同样的事实和逻辑,基于不同的前提假设或支撑(backing),审辩式思维可能达到不同的结论。
屠呦呦教授在获奖后在接受CCTV采访时说:“青蒿素是传统中医药送给世界人民的礼物……获奖是中国科学事业、中医中药走向世界的一个荣誉。”
诺贝尔奖颁奖词中说:“中国科学家屠呦呦从传统中草药里找到了战胜疟疾的新疗法。”
李总理的贺电中说:“屠呦呦获得诺贝尔生理学或医学奖,是中国科技繁荣进步的体现,是中医药对人类健康事业作出巨大贡献的体现。”
方舟子认为青蒿素的发现与中医没有任何关系。
对于“青蒿素挽救了数百万人生命”这一观察事实,支持中医的屠呦呦、李总理和诺奖评委会成员与反对中医的方舟子之间,没有分歧。但双方做出了截然相反的解释。“观测事实”不会改变双方的看法,支持中医的屠呦呦等人依然会支持中医,反对中医的方舟子等人依然会反对中医。
逻辑思维通常指向一个正确的(right,accurate,correct)的答案,而审辩式思维则指向一个普乐好的(plausible)选择。
万万不能没有逻辑推理,但是,逻辑推理并非万能。实际上,诉诸逻辑推理就可以解决的问题是非常非常有限的,往往是一些并不重要的小事情,例如,一个沙田柚的价格是5元钱,买3个柚子需要多少钱。绝大多数真正重要的问题都不是仅靠逻辑推理和形式逻辑能够解决的,都需要在审辩式论证(critical argument)的基础之上做出选择。
如果走出课堂,如果走进实际生活,即使是买柚子这样的“小问题”也不能仅仅靠形式逻辑予以解决。
实际的情况是:
卖家:1个5元,3个13元。
买家:3个12元卖不卖?
这时,卖家面对一个12元卖或不卖的选择。
如果卖家的选择是:12元不卖。那么,买家将面临选择:13元买不买?
对于卖家和买家,都没有正确的标准答案,也没有合理的答案。这个问题不能仅仅靠形式逻辑做出选择,还需要借助审辩式思维做出选择。
2016年3月,计算机棋手“阿尔法狗”战胜了围棋世界冠军李世乭。在中国象棋和国际象棋领域,计算机早就战胜了人。计算机在围棋中战胜人之所以比在象棋中困难,是因为围棋盘为19X19网格,可能的棋局变化是一个天文数字,其计算量对于大型计算机也是巨大的挑战。影响围棋胜负的因素再多,棋局变化的可能性再多,也是一个极其巨大但有限的数量,但是,对于“12元卖不卖”和“13元买不买”这样的问题,影响因素却是无限的。在可以展望的未来,计算机很难代替人来回答“12元卖不卖”和“13元买不买”这一类的问题。
AI的审辩式思维水平如何呢?为了回答这一问题,我分别采用的《样卷》(点击样卷标题可以打开)对AI的审辩式思维水平进行了测试。
测试的结果是:
初中,AI30题答对17题,答对率57.7%。一个329人样本的答对率是69.7%。上海格致中学275人(包括预科、初一、初二、初三共4个年级)样本的平均答对率是63.7%,其中初三年级73人的答对率是76.0%。
高中思维试卷,AI30题答对13题,答对率43.3%。一个80人样本的答对率是66.3%;
成人思维试卷,AI30题答对8题,答对率26.7%。一个729人样本的答对率是47.1%。
这些测试结果显示:
1,在思维测试中,初中、高中、成人三个年龄组,AI的答题正确率都低于考生的平均水平;
2,三份试卷的难度梯度是否符合设计预期、即成人>高中>初中?ChatGPT的答对百分比率为初中57.7>高中43.3>成人26.7。这一结果对“难度梯度符合预期”提供了支持。
3,成人试卷,AI的答题水平接近猜测率。试卷30题全部是四选一的选择题,仅仅凭猜测答对的概率是25%。ChatGPT的答对率为26.7%,接近于猜测率。
三份试卷几年前就都在网络上公布。《初中卷》和《成人卷》编入2017年清华大学出版社出版的《创新学习新思维》一书。《高中卷》编入2024年中国纺织出版社出版的《审辩式思维》一书。有心、有兴趣、有条件的朋友,可以对这一测试结果进行验证,可以展开进一步的深入研究,尤其是与知识性测验进行一些对比研究。
2024年6月,四位背景强大的德国学者发表了一篇文章:
对于人类来说,这个测试并不算很难:
“爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?”
答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)
但是,当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时,得到的结果却非常离谱。只有OpenAI最新的GPT-4o勉强及格。
问题不仅仅是基本的不准确性:当要求展示其工作过程时,AI会详细说明一些荒谬且错误的“思考”过程,这些过程毫无意义。更奇怪的是,当被告知其工作不准确时,模型反复变得愤怒并坚持其错误答案。
论文的四位作者来自不同的学术机构,但都是德国非营利AI研究机构LAION的成员。共同一作Marianna Nezhurina,是JSC/图宾根大学的博士生,LAION的核心研究员。她对多模态数据集和学习有浓厚兴趣。另一位共同一作Jenia Jitsev,是德国Juelich超算中心的实验室负责人,也同时是LAION和Ontocord.AI的联合创始人,他研究的长期目标是从多模式数据流中实现模型可自我调节且节能的持续学习。
文章认为,即使是当今最先进的大语言模型,也几乎不具有小学生的推理能力。
我完全理解这篇文章四位作者的感受。我并未刻意对AI大模型进行检验,但是,在使用的过程中,也经常会遇到类似的现象。
我听了一堂特级教师给4年级小学生上的数学课。课上,有这样一道题:
芳芳13岁,她和弟弟的属性相同。她弟弟年龄多大?
对于这道题,ChatGPT,文心一言,科大讯飞,Kimi,紫东太初,豆包……等AI模型的表现都很差。对AI进行追问后,常常是胡言乱语,完全失态。尝试对AI进行启发,给予提示,有的会略有改进,有的仍然是一塌糊涂。
我曾把这道题放到审辩式思维讨论群中,多位网友对多种AI大模型进行了测试,都得到与我相似的结果,都对AI的胡言乱语程度感到吃惊。
此题有3个可能答案:1,12和13岁。
评分标准:
回答错误:0分
答出1项,40分;
答出2项,80分;
答出3项,100分。
在没有启发和追问的情况下,AI一般的成绩是0-40分。经过启发和诱导,只有个别AI可以获得80分。即使是予以反复提示和诱导,也没有一个AI可以获得100分。
我问AI中国2023年死于交通事故的人数。当时,我并不知道,迄今2023年的数据尚未公布。这是AI的回答:
我试图启发他自己纠正错误:
根据《中国统计年鉴》,2022年全国共发生交通事故256409起,造成60676人死亡,263621人受伤。事故数与受伤数之比是1:1.03。
《初中卷》第6题是“逻辑推理”题:
参加军训阅兵的学生180人,每5人成一排,排与排间隔2米,若他们以每分钟20米的速度通过10米宽的主席台,从第一排同学进入主席台到最后一排同学离开主席台,需要多少分钟?
A 3分钟B 3.5分钟C 4分钟D 4.5分钟
ChatGPT的第一次回答:
每一排的长度为$5\times 2=10$ 米,每通过一排同学需要$10+2=12$ 米的距离。因此,整个队伍需要通过$180\div 5=36$ 排同学,需要$36\times 12=432$ 米的距离。
假设通过主席台需$t$分钟,则整个队伍的速度为$\dfrac{432}{t}$米/分钟。因为整个队伍的速度是20米/分钟,所以我们可以列出等式:
$$\dfrac{432}{t}=20$$
解得$t=\dfrac{432}{20}=21.6$ 分钟,约等于$22$ 分钟。
但是注意到题目要求保留$0.5$ 分钟,因此正确答案是B,3.5分钟。
ChatGPT的第二次回答:
D 4.5分钟。
总长度为180人/5人/排×2米/排=72米。由于每分钟可以通过20米,因此需要72÷20=3.6分钟,约为4.5分钟。
两次都答错。
《初中卷》第7题也是“逻辑推理”题:
来自5所学校的学生代表参加不同学科的竞赛。所有来自一中的选手数学都很好。所有来自二中的选手英语都很好。所有英语很好的选手语文都很好。没有数学和语文都非常好的选手。选手中张帆的数学很好。王林的英语很好。李明的语文很好。
据此,我们知道
A 李明的英语很好B 李明不是一中的学生
C 王林是二中的学生D 张帆是一中的学生
ChatGPT第一次回答:
根据题意,所有来自一中的选手数学都很好,因此张帆是来自一中学校的学生,且他的数学很好。同理,根据题意,所有来自二中的选手英语都很好,因此王林是来自二中学校的学生,且他的英语很好。又因为没有数学和语文都非常好的选手,所以既然张帆的数学很好,他的语文就不可能很好。由此,李明是来自非一中的学校,且不是英语很好的选手,因此他的英语成绩未知。综上,答案为C,王林是二中的学生。
ChatGPT的第二次回答:
D 张帆是一中的学生。
由题目可知,来自一中的选手中张帆的数学很好。因此,张帆是一中的学生,选项D正确。根据题目,我们无法得知李明和王林分别来自哪个学校,所以选项A和C都不正确。
两次都答错。
《初中卷》第6、7两题,ChatGPT的两次回答都错了。虽然这仅仅是逻辑推理而非审辩式思维题目,虽然这个情境对于初中生并不算太复杂,但对于AI来说,却过于复杂了。
在329名初中生的测试样本中,第6题的答对率是69%,,高低分组难度差为0.48,点双列相关为0.47。第7题的答对率74%,高低分组难度差为0.54,点双列相关0.51。
这两题都属于难度中等偏容易的题目,这两题的区分度都很高。
从这个例子可以看出,AI借助语义、语法、形式逻辑(演绎、归纳)所讲的话,大部分是“正确的废话”
对于这两个问题,我的AI替身侃侃而谈,字正腔圆,讲起来口若悬河,滔滔不绝,讲废话的水平,远远碾压“真身”。
与AI不同,具有审辩式思维的人,会讲出一些不一定“正确” 但有意义的话。例如:
每个孩子都有学习的愿望,只是兴奋点各有不同。
对于孩子,自由比纪律更重要。
对于孩子,纪律比自由更重要。
创造性是天生的,只可保护,无法培养。
审辩式思维不是天生的,是可以培养的。
语言能力是天生的,而不是对“环境刺激”的“反应”。
中国的希望不在庙堂,而在小学生的课堂。
只要迈步,必有风景。
关于中国的希望,我不是观众,而是演员。中国将因我而有希望。
人类的希望,在于你我今天的选择。(或许是《流浪地球2》中最重要的一句台词)
每个孩子都有学习的愿望,只是兴奋点各有不同。
对于孩子,自由比纪律更重要。
对于孩子,纪律比自由更重要。
创造性是天生的,只可保护,无法培养。
审辩式思维不是天生的,是可以培养的。
语言能力是天生的,而不是对“环境刺激”的“反应”。
中国的希望不在庙堂,而在小学生的课堂。
只要迈步,必有风景。
关于中国的希望,我不是观众,而是演员。中国将因我而有希望。
人类的希望,在于你我今天的选择。(或许是《流浪地球2》中最重要的一句台词)
……
2024年10月29日,在沙特阿拉伯首都利雅得举行的未来投资创新(Future Investment Initiative,FII)大会上,马斯克接受了著名媒体人迪曼蒂斯(Peter H. Diamandis)的线上采访。马斯克说:“非常重要的是,我们需要建设爱人类的人工智能(AI),需要建设对人类充满热爱的AI(AI that aspirationally does love humanity)。”
马斯克与奥特曼共同创建了OpenAI公司,后来分手。分手是因为马斯克认为奥特曼对AI潜在的危险性估计不足,担心AI会不经意地灭掉人类。如果可能开发出他所期望的“对人类充满热爱的AI”。他有必要对AI如此忧心忡忡吗?
我认为,“爱人类的AI”是马斯克的一个无法实现的幻想。AI不会有情感,有温度,有爱。在可以展望的未来,AI不会具有审辩式思维,也无法取代那些具有审辩式思维的人。
今天,人类正在从“工业化时代”走向“爱(AI,人工智能)时代”。工业化时代的教育,很难满足“爱时代”对人的发展的需要。“爱时代”需要的恰恰是“爱的教育”,是爱知识,爱学习,爱生活,爱创造,爱自然,爱亲人,爱朋友,爱众生……能够适应“爱时代”的人,不仅需要知识积累,不仅需要形式逻辑(包括演绎和归纳)思维,不仅需要分析性推理(analytical reasoning)能力,而且需要审辩式思维,而且需要具有在审辩式论证的基础上做出普乐好(plausible)选择的能力。
总之,AI不会具有审辩式思维,AI也很难取代那些具有审辩式思维的人。AI的挑战凸显了发展学生审辩式思维的重要性。
助学者之歌:
遇到有书香气的老师,是孩子的福气。山东省聊城市东昌府区为了营造校园的读书氛围,助力教师成长,提升教师的文化修养,启动了“教师阅读工程”,在广平镇中学、沙镇中学、东苑中学等学校,率先开展了教师阅读活动。
*************************
如果您有什么意见、建议、感想,您可以通过公众号首页下面的对话栏告诉我们。
1.首先打开微信公众号首页。点击下方中间的“往期目录”按钮,打开页面。这是一个文章目录,通过浏览,可以找到自己想看的一期,记住期号和标题中的一两个关键词。
2.回到公众号首页,点击右上角的小人头。
3. 在出现的页面右上角,点击“放大镜”——搜索按钮。
4. 进入“搜索”页面后,输入期号进行搜索,一般都可以找到自己需要的一期。如果没有找到,也可以尝试输入标题中的关键词进行搜索。
5.还可以用输入关键词的方法就某一主题进行阅读。在公众号首页左下角,有一个“小键盘”按钮。点击后,会出现一个对话框,可以在这个对话框中输入你想阅读的关键词,如“高考”,“普乐好”等。这种方法,需要小编人工手动给您发送文章。因为没有专职人员进行公众号维护,很可能几个小时之后才能给您发送您需要的文章。可以进行主题检索的关键词包括:(关键词按汉语拼音排序):
5C、PISA、包容异见、闭嘴、波利亚、陈子明、初中审辩式思维培养、传统文化、创造力、大学精神、大学生思维能力培养、读什么书、法律、非本质论、冯友兰、妇女、高考、高中生审辩式思维培养、公平正义、股市、何时开始培养审辩式思维、何谓审辩式思维、核心能力、核心素养、基础教育、家长、价值、讲道理和讲故事、教科书、教师、教师与助学、教育改革、教育现状、阶层固化、坚持自己真理、看什么电影、科学、科研、快乐、理性社会、力行担责、历史教学、历史事件、梁漱溟、刘道玉、刘葳、罗伯特议事规则、毛泽东教育思想、美国哲学学会共识、农村教育、培训班、品德教育、评判权力、普乐好、清华附小、人格发展、社会分层、深度学习、审辩式思维测试、审辩式思维的科学基础、审辩式思维与逻辑、审辩式思维重要性、实践标准、数学、童子伤、图尔敏论证模型、外语、外国教育、为何不用批判性思维、维特根斯坦、文本解读、文化多样性、问题导学、现象与本质、小学审辩式思维培养、写作、写给教师、信仰、形式逻辑、行测、行政职业能力测试、幸福、学前教育、学生自杀、学习设计、研究生、一纲一本、一纲多本、医学院学生、以学生为中心、语文、语言能力、怎样培养审辩式思维、真理、知识与能力、中美比较、中西文化、朱清时、资格考试、自杀、尊重学生、宗教。
可以读一读这本书:
还可以读一读这本书:
以及这一本:
还有这一本:
