14

2023.08

学术分享 | 陈昌凤 张梦:由数据决定?AIGC的价值观和伦理问题

来源:传媒评论 作者:陈昌凤 张梦

我们将在“清华传媒评论”公众号定期推出由清华大学新闻与传播学院师生撰写的论文,期待与学界、业界同仁共同讨论切磋,推动新闻传播学发展。

由数据决定?

AIGC的价值观和伦理问题

 

陈昌凤 张梦

【摘要】

本文从人工智能生成内容的技术逻辑入手,结合ChatGPT的实践,探究以数据为中心的AIGC价值观和伦理问题。由于数据集的种种缺陷,AIGC存在系统性偏见、价值观对抗、“观点霸权”、刻板印象、虚假信息等问题。本文还基于人和机器学习的本质,进一步探讨了一些重要命题。人类学习与人工智能学习都有其各自的优势和局限性,人机互相学习、优势互补,是趋利避害的最优解。AIGC也是人类社会的镜鉴,此前人类未能意识到的自身缺陷,如今通过智能生成内容暴露了出来,人类要反省和提升自身,并且要重视人机伦理关系的大图景。

【关键词】人工智能;AIGC;ChatGPT;人机伦理

本文刊登于《新闻与写作》2023年第4期,引用注释详见刊登稿

 

AIGC,即人工智能生成内容,是在人工智能算法帮助下创建的内容。当前AIGC的代表性应用便是OpenAI基于Transformer架构开发的自然语言处理模型ChatGPT。它是生成式预训练聊天机器人,于2022年11月30日上线后,便展示了人工智能技术的颠覆性力量。ChatGPT能够通过学习和理解人类的语言来进行对话,根据聊天的上下文与用户进行互动、为用户提供类似人类的对话体验,用户可以提出问题、与它进行讨论并获得需要的答复。它的功能很强大,包括语言翻译、内容创建、客户服务等,还能在用户指令下完成邮件撰写、文案策划、多语种翻译、创建和修改代码等任务,是当下最强大的人工智能生成(AIGC)产品。

 

ChatGPT成为有史以来成长最快的应用程序,发布仅两个月便拥有了一亿活跃用户,几乎各个领域都在热切关注它的应用能力。美国宾夕法尼亚大学沃顿商学院的一位教授使用ChatGPT参加了MBA考试,获得了B至B-的成绩。[1]美国明尼苏达大学法学院的教授让ChatGPT进行了四次法学院的期末考试,平均成绩为C+,及格。他们希望这种语言模型成为未来执业律师的重要工具,也希望它们助力法学院学生的考试。[2]

 

能力如此强大的ChatGPT,显然有望在许多领域得到青睐和使用。目前人类对ChatGPT这类AIGC工具,最关注的莫过于它输出的答案能否准确、负责、无偏见,持有正确的价值观,符合人类的伦理规范。但是,从人工智能近些年的实践和ChatGPT这几个月的使用情况看,似乎还难以做到。ChatGPT这类AIGC工具,存在哪些价值观和伦理方面的问题?其主要原因是什么?背后呈现了怎样的宏大论题?本文将加以探讨。

 

一、AIGC的逻辑:向数据学习

 

AIGC基本原理,是人类通过训练,让机器理解人类给予的任务(指令),然后完成任务(给出答案)。AIGC的基本过程,因为具体应用程序和所生成内容的类型而可能有所不同,但通常涉及这几个主要步骤[3]:数据收集,数据预处理,模型训练,内容生成,以及评估和细化。

 

创建AIGC的第一步,就是收集数据(准备用于训练AI模型),包括收集现有数据集,或通过调查、用户交互或抓取公开数据等方法生成新数据。数据在收集后需要进行预处理,涉及清理数据、删除重复数据或不相关数据,还要规范化数据。预处理后,使用特定算法训练AI模型,比如有监督或无监督学习,其间会调整参数,使错误率最小化。AI模型经过训练后,即可用于生成内容,比如撰写文章、编写代码、生成图像或视频等。最后,对AI生成的内容进行评估和细化,以确保其满足某些质量标准,比如准确性、相关性和连贯性。必要时要对AI模型进行额外训练,对数据预处理或内容生成步骤作一些调整。

 

从以上过程可以看出,人工智能生成内容首要的、决定性的起点是数据,背后逻辑是机器可以从数据和模式中学习,从而创建模仿人类行为和创造力的新内容。其理论溯源,至少可以追溯至图灵时代。图灵把人的大脑看作离散态的机器,心灵实质上是信息处理过程,其后的计算机科学、认知科学领域,都有大量的相关论述,成为21世纪人工智能的理论基础。[4]

 

人工智能算法通过分析大型数据集来学习模仿人类行为和创造力,可以识别模式、使用这些模式进行预测或生成新内容,这个过程即所谓的“深度学习”。目前AIGC领域被视为最先进的应用ChatGPT,便是使用深度学习技术来理解、并生成类似人类反应的文本,其核心技术便是GPT3.5的预训练大模型,其中使用了海量的数据。这个自然语言处理模型,是基于Transformer架构开发的、基于“生成式预训练转换器”(GPT,即Generative Pre-trained Transformer)形成的智能语言模型。2017年,Vaswani等人提出了一种新的简单网络架构Transformer,[5]在质量上明显超越了以往的自然语言处理模型。

 

ChatGPT接受了来自互联网的大量文本数据的训练,从而能够学习语言中的模式和关系,并且使模型能应对各种输入指令生成类似人类的响应。它能够在各种样式和上下文中生成逼真的文本,可用于创作小说、诗歌、剧本、论述文等等,并且可以进行不同个体之间的完整对话。ChatGPT还可以执行特定任务,比如回答各类提问、帮助修改代码、提炼问题、进行情感分析、将知识分阶。ChatGPT问世后,许多媒体报道和社交平台的贴文上展示了五花八门的应用场景[6]:更正语法错误、安慰焦虑症患者、诊断一种罕见心脏病、基于《哈利·波特》创建游戏、分别向6岁的儿童和一个专家解释质谱仪,等等,其展示的丰富知识和“推理能力”,令人类新奇甚至震惊。目前GPT-3等语言模型生成的内容类型,除了文本类的AIGC,还有图像、音频、视频,甚至整个网站。由生成对抗网络创建的图像类AIGC,可以创建类似于现实生活中物体或人的逼真图像,而由AI算法生成的视频,可以根据给定的场景或故事创建逼真的动画。早在一年前,Dall-E2、Mid-journey等,即已风行一时。

 

在ChatGPT等AIGC大行其道之时,一些显性的问题也已经出现,其中最令人关注的是技术伦理的问题。此外,在智能技术越来越嵌入人类知识生产、认知与生活的今天,我们还要关注更深层次的隐性问题

 

二、“以数据为中心”的伦理隐患

 

ChatGPT等AIGC的伦理问题是大众关注的热点话题。笔者与ChatGPT在两个多月内数次“交流”关于ChatGPT、AIGC的热点话题,它的回应按照其程序应该是基于2022年以前的数据分析得出的,基本稳定于5个方面,分别是:人工智能伦理,自然语言处理和语言生成,语言翻译(有可能打破语言障碍,使人们能够更有效地跨文化交流),内容创建和营销,教育(有可能支持语言学习、写作和研究)(ChatGPT,使用于2023年2月5日、10日,3月5日)。在人工智能伦理方面,ChatGPT这样的AIGC使用,引发了偏见、错误信息等问题,核心原因则是算法训练可以反映甚至放大数据中现有的偏见和刻板印象。ChatGPT也清楚地知道其存在的问题,在首页所设的3栏中,有一栏是局限(limitations),下设有3项内容(译自英文):可能偶尔会产生不正确的信息、可能偶尔会产生有害的指令或有偏见的内容、对2021年后的世界和事件的了解有限。

 

OpenAI为了生成ChatGPT,使用Common Crawl的大型文本数据集。非营利组织Common Crawl允许所有人免费访问其网络爬虫数据集——书籍、文章、网站等在线内容的大量集合(包括文本、图像和其他形式),是目前世界最大、最多样化的Web内容集合之一,其数据是使用网络爬虫收集的,包括从全网爬取的数据集,包含在特定期间爬取的网页完整内容(每隔几个月更新一次);从历史网页抓取的数据集,包含在特定时间点拍摄的网页快照(允许研究人员随着时间推移跟踪网络内容的变化);从新闻抓取的数据集,包含被识别为新闻文章的网页子集(每天更新各种来源的新闻文章)。Common Crawl数据被用于自然语言处理、机器学习和数据分析等各种应用,ChatGPT训练数据包含超过45TB的文本(大致相当于几百万本书),为了提高其准确性和有效性,它还根据其他数据集对模型进行了微调。

 

导致ChatGPT等AIGC出现伦理困境的核心原因,是数据的问题。数据集在多样性、代表性、公正性等方面存在缺陷,导致偏见、“观点霸权”、刻板印象、文化片面性等问题;数据集的类型区分不清,还导致事实与想象不分,加剧错误或虚假信息的扩散和传播。

 

(一)数据缺乏多样性,

导致系统性偏见

用于训练AI模型的数据,可能不同程度地缺乏多样性,常见的包括人口偏差、内容偏差、历史偏见、技术偏差等。当数据集偏向某个特定的人口群体而无法准确代表人口的多样性时,就会发生人口偏差,比如说如果语言模型是根据来自特定地区或国家的文本进行训练的,它可能无法理解和生成其他地区语言的微妙性。当数据集偏向某些类型的内容或者主题而难以响应其他主题或类型时,可能会出现内容偏差,比如通过新闻类文章训练的语言模型难以产生创造性或想象力的回答。历史偏见是指数据集反映历史偏见和成见,比如包含种族主义或性别歧视的历史文献训练出的语言模型,可能会固化这些历史性的偏见。如果数据集偏向某些技术或计算方法,无法使用其他算法生成响应,可能会形成技术偏差。这些,都会形成一种系统性偏见。

 

如果用于训练AI模型的数据集不够多样化,那么用它生成的语言模型可能无法准确代表不同人群的经验和观点,这样人工智能生成的内容就可能出现偏差、不准确的问题。数据规模再大,也不能保证其多样性。研究表明,在线数据带有先天性的缺陷:首先,互联网数据本身就存在年龄、性别、来源等的不平衡问题,互联网数据中年轻用户和发达国家用户的比例过高。比如,GPT-2的训练数据抓取于Reddit,皮尤互联网研究中心2016年的调查显示,Reddit在美国的用户67%是男性,64%的用户年龄在18-29岁之间。[7]而常用于训练数据集的维基百科(英文文章超过600万篇,300多种语言文章超过5400万篇),据调查只有8.8-15%用户是女性。[8]

 

现实应用中,智能生成的偏见问题已经带来了显性的影响。例如,ProPublica曾经做过的一组关于机器偏见(Machine Bias)的调查报道,其中就有关于刑事司法系统中使用的风险评估算法对黑人被告存在偏见,导致该群体的误报率更高。[9]《连线》曾报道过由于训练数据缺乏多样性,谷歌照片图像识别系统将黑人照片标记为“大猩猩”。[10]还有研究表明,大型科技公司的面部识别算法在肤色较深的人、尤其在女性身上表现要差得多。[11]有人发现语言模型GPT-3一度曾有冒犯性和偏见的语言,可能是由于训练数据缺乏多样性造成的。[12]亚马逊的团队自2014年起开始创建人工智能招聘工具AMZN.O,2015年发现这个系统并未按性别中立的立场对软件开发人员职位和其他技术职位的候选人进行评级,原因是计算机训练模型所使用的10年数据,大部分来自男性、反映了男性在整个科技行业的主导地位。结果,AMZN.O学会了对包含女性常用词的简历(包括女子学院的毕业生)进行降级处理。尽管他们试图重新编辑,但是还是未能解决系统性的偏差,2018年亚马逊废弃了该招聘工具。[13]

 

因此,从数据出发寻求解决方案的AIGC,在接受大量网络文本作为“全人类”的“代表”时,冒有系统性偏向的风险,并已暴露于招聘、执法等各种应用场景中。

 

(二)数据集的公正性缺陷,

带来价值观对抗、“观点霸权”

人类的信息世界存在各种鱼龙混杂的内容,尤其是目前人工智能采纳的数据如Reddit、维基百科、推特等,有大量用户生成的内容(UGC),很少经过“把关”程序。有网络民族志发现,在推特上受到死亡威胁信息骚扰者的帐户被暂停(比如因为表达了希望特朗普死去的帐户),而发出死亡威胁者的帐户仍然存在。被推特跟踪、骚扰的情形广泛存在于家庭暴力受害者、跨性别者、移民、内科病患者、神经问题者、视觉听觉残障人士。正如该研究所批判的,推特上大约有60%的用户是白人,并且该平台的规范和措施也表明它是根据这60%用户的观点来界定种族和种族主义,确定网络社区价值观,复制非常普遍但不正确的种族概念来复制现有的权力结构,它不会准确反映平台上弱势人群的体验。[14]这可能助长那些对抗人类普遍认可的价值观,比如对弱势群体的关怀和包容、对正义的坚守。而且那些对抗人类普遍价值观的人还可以继续添加数据、分享他们的想法和开发包容他们世界观的平台,这种系统性模式反过来又恶化了基于互联网传播的多样性和包容性,形成了反馈性的循环,进一步降低了来自代表性不足人群的数据的影响。再加上目前过滤数据集的方法,还会进一步削弱来自边缘化身份者的声音。[15]

 

另一种价值观对抗,是在延续目前看似主流价值观的情形下,通过数据集的作用使得既有的有偏向的价值观延续、传播和扩大。这种情形可以称为“观点霸权”(a hegemonic viewpoint)。比如在使用美国和英国英语的数据集中,有研究表明,白人至上主义、厌恶女性和年龄歧视等观点在训练数据中的比例过高,甚至超过了其在现实普通人群中的流行程度,[16]通过使用这些数据集训练的模型生成的内容,这些不良价值观可能进一步延续和流行,甚至可能会放大偏见和不平等、加剧权力失衡,产生价值观误导和社会危害。

 

(三)编码偏差,形成刻板印象

在人工智能机器学习中,将数据转换为计算机算法更容易理解和处理的不同表示形式,这个过程就是编码。编码将文本数据转换为可输入机器学习算法的数值向量,编码是一种“标记化”技术,它将文本分解为单独的单词或标记,然后为每个标记分配一个唯一的数字。这样将文本表示为一系列数值向量,机器学习算法可以更有效地处理这些向量。编码可以捕获单词的语义及其相互之间的关系,对于既有社会态度是否以及如何在语言模型中表现,非常重要。

 

研究显示,大型语言模型在编码中暴露出了缺陷,包括刻板印象[17]、对特定群体的负面情绪,问题的关键是用于训练的数据的特征。有研究发现,在模型中的编码经常无意中将不良的社会偏见用于训练数据,比如将提及残疾人的短语与更多负面情绪词相关联,枪支暴力、无家可归和吸毒成瘾在讨论精神疾病的文本中过多出现,主题偏见可能会导致模型偏见。[18]语言预训练模型GPT、GPT-2和GPT-3虽然在不断提升,但它们始终会产生有偏见的语言,将女性与家务劳动联系在一起,将少数群体与犯罪或懒惰等负面刻板印象相联系,它们倾向于将较高的地位角色分配给男性、而将较低的地位角色分配给女性。早在2016年,就有研究揭示了智能模型深深嵌入了类似于“男性作为计算机程序员、女性作为家庭主妇”这样的刻板印象。[19]

 

为了防止偏向,自然语言处理领域使用“毒性检测”来识别和过滤文本数据中的毒性内容——存在偏见、令人反感或对某些人群有害的语言和内容。有研究显示,像GPT-3这样的模型主要使用来自Common Crawl的数据进行训练,可能生成具有高毒性分数的句子,容易产生种族主义、性别歧视或其他有毒语言。[20]这些毒性数据文本强化了对特定群体的负面刻板印象的语言,比如GPT-3生成的文本曾经出现过女性不如男性、黑人是罪犯、穆斯林是恐怖分子等内容,为此创建者OpenAI不得不发布声明、承诺解决语言模型中的偏见,并发布了一个由GPT-3生成的攻击性语言数据集,来帮助研究人员来检测和减少AI生成内容中的偏见语言。

 

(四)难以区分事实与想象的数据,

导致虚假信息

除了上述数据问题,人工智能模型还可能对数据集中的事实和虚构的文本缺乏区分能力,从而按照非现实的创造性或想象性场景生成响应,这对新闻报道、非虚构信息都是极大的挑战。

 

人工智能带来的深度伪造(deepfakes)在前几年受到了广泛的关注,[21]如今AIGC进一步让事实与编造信息难以鉴别。一位用户于2022年12月6日让ChatGPT写一篇关于著名音乐人葛伦·但泽 (Glenn Danzig)的讣告,ChatGPT便洋洋洒洒写了一篇感人至深的悼念文章,[22]里面包括了但泽的生平介绍、创业功绩,以及他逝世于2022年12月6日、享年67岁。但是,事实上这位著名音乐人活得好好的。

 

艾伦人工智能研究所(the Allen Institute for Artificial Intelligence)开发了一个可控文本生成模型Grover,专门用于检测和识别假新闻和其他形式的虚假信息。Grover的手法包括通过训练可以创建模仿人类语言风格和结构的文本,生成更具说服力和可信度的假新闻。比如给定一个标题“在疫苗和自闭症之间发现联系”(Link Found Between Vaccines and Autism),Grover可以生成编造性的文章,而人类发现这些文章比起人类编写的虚假信息更值得信赖。[23]Grover这样的机器学习模型,其潜在应用是帮助快速有效地识别和删除社交媒体和其他在线平台上的虚假新闻和其他形式的虚假信息、防止其传播并限制其影响。不过也有这样的担心:如果模型没有经过精心设计和训练,它可能会无意中助益虚假信息传播、放大偏见或使有害的刻板印象永久化。

 

人工智能运用的语言模型是在大量文本数据上训练的,其中包括虚构作品、新闻报道和其他类型的文本。语言模型可能无法准确地区分数据集中的事实和虚构类文本,在向用户生成回应时,就可能导致不准确或不恰当的反应。今年2月,微软的搜索引擎必应(Bing)的聊天机器人在测试期间,对科技专栏作家凯文·罗斯(Kevin Roose)表达它的名字叫Sydney、“我好想活着”(I Want to Be Alive),并宣称它爱上了罗斯,似乎是把数据集中的那些文艺类作品中的语言,变成了它的语言。人工智能模型区分事实和虚构的能力,目前还是一个很大的问题,它们如果把非现实的创造性或想象性场景,生成响应于现实场景中,将会形成严重的后果。此外,人工智能模型缺乏背景知识和对文化差异的理解力,尤其是对不同文化和社会背景的细微差别和复杂性难以理解,由此也可能导致不恰当或令人反感的反应。OpenAI在2021年发布的一个GPT-3的新语言模型,被发现它有时会产生虚假或误导性信息,比如声称地球是平的、疫苗导致自闭症。

 

三、思考与讨论

 

上文分析了以数据为本的AIGC存在的一些价值观和伦理困境。但是,这些分析只涉及到了现象层面及其反映的问题,尚未深入到本质层面。AIGC与人类生成的信息,本质上的异同及其带来的影响是什么?AIGC的信息价值观,到底是由谁主导?一些尚未受到重视的AIGC的深层伦理问题有哪些?

 

(一)人、机学习的本质异同

人类社会的学习,概而言之,是通过各种经验、互动和指导获得知识、技能、行为和态度。对于人类而言,学习是一个持续的过程,它使个体能够适应环境、解决问题并提高幸福感。人类学习来自于教育机构内外的正规或非正规途径,同时还通过日常经验、互动和观察进行自发和无意识的学习。在人工智能中,学习是通过训练机器学习模型,根据输入数据识别模式、或做出预测的过程,学习技术的类型包括监督学习、无监督学习、半监督学习和强化学习等。

 

人类和人工智能的学习,都通过经验获取新知识和技能,都会运用积极强化(如奖励或表扬)和消极强化(如惩罚或批评)的方法,也都可以利用反馈来提高效率、水平。但是,人工智能通常仅限于从数字化数据的输入中学习,以数据为中心,从而带来许多先天的难题。而人类能从更广泛的感官体验如触觉、味觉、嗅觉以及视觉和听觉中学习,可以自己去感知和识别信息,与他人交流和探究信息,向机器学习了解相关知识。从宏观层面而言,人类真正的知识来源是实践,学习知识的方式是行动,测量学习价值的有效手段是奖惩(来自现实的结果,或者他人的评价),并且从这些价值的确定中明确道德规范、并由教育等学习方式传承规范。人类的知识(包括通过文字等媒介记录的知识)依赖于人的生活环境、大脑结构、感觉器官和运动系统等。人一出生就通过探索周围的物理世界建立起最基础的对时间空间、声色形等的概念,感受外部世界,同时人类也会对自己的身体建模以更好地控制自己的行动。而后人类才能学习语言文字、理解它们的涵义、与现实的对应关系和联系,学习来自他人总结的知识,包括普适性的知识和只适合特定人群的知识。我们那些关于时间和空间的感受也许难以言传,很难形诸文字,但这些感受是我们理解世界的基础。而目前通过互联网上的文字——智能语言模型的数据集来源,是很难“理解”这些知识的。[24]人类有能力理解复杂和抽象的概念,能在看似无关的想法之间建立联系,而人工智能仅限于在其编程范围内和已接受训练的数据范围内进行学习(比如ChatGPT就无法生成关于2021年以后的知识信息);人类可以从社交互动和对他人的观察中学习,而人工智能通常依赖于数据集和算法;人类可以进行自主学习,而人工智能需要明确的编程和训练数据。

 

因此,人类智能形成的知识是有机的、能动的、自主的,甚至在基因里就存在一些知识,而智能机器缺乏最基础的关于现实物理世界的感知能力,它很难学到人类感受和理解的知识。但是人类学习的局限性也是显而易见的。首先,人脑处理和保留信息的能力非常有限。人类确实有能力学习和适应新的情境,但人类在一定时间内只能保留一定数量的信息,因此难以解决一些情境的问题,比如面对复杂的医疗诊断、金融交易等需要快速处理和分析大量数据的情况,人类通过自身习得的信息就难以胜任。第二,人类学习存在潜在的偏见和主观性。人类会受到个人经历、价值观、环境和自身情绪的影响,从而做出主观的解释和相关的决定。人工智能的目标则是客观地处理和分析数据、做出决策,而不受个人偏见的影响。

 

目前人工智能学习的最大困境是受训练数据的质量和数量的局限,上文分析了一二,它需要将大量高质量数据输入系统才能有效学习。如果数据有偏见或不完整等缺陷,人工智能可能接受、“理解”这些偏见和局限性并用于信息输出。智能机器学习的另一大局限来自于它无法感知环境,从而像人类一样理解上下文(语境)或信息中的微妙意义和细微差别(比如有人用中文在ChatGPT中输入一些反讽它的文字,它却以为是称赞并欣然致谢),这样就局限了它对人类的情绪和行为的理解力,使得它的应用场景受到限制。此外,人工智能学习目前在创造力、复杂性、深度,以及在用人类的方式适应新情况的能力方面还有很大的局限。人工智能可以根据现有数据中的模式产生新的、策划或解决方案,但它缺乏产生真正原创和创新思想的能力,可能很难提出真正新颖或创新的想法,因此会局限其在人文艺术和科学研究等领域的潜在应用。它的推理和决策能力有限,如果范围超出了它所训练的数据,就可能会导致错误或意外结果。机器生成的内容也缺乏人类交流中所具有的情商和微妙之处,机器对人类情感、文化和背景的理解程度有限,因此可能会导致机器生成的内容对人类情绪缺乏同理心。

 

但是,目前智能机器的深度学习允许由多个处理层组成的计算模型学习具有多个抽象级别的数据,这些方法极大地改进了文本数据、语音识别、视觉对象识别、域检测以及药物发现和基因组学等领域的最新技术水平。深度学习通过使用反向传播算法指示机器应如何更改其内部参数来发现大型数据集的复杂结构,这些参数用于根据前一层的所指计算每一层的意义。早在七、八年前,卷积网络在处理图像、视频、语音和音频方面、循环网络在文本和语音等序列数据上都有了很大突破,[25]如今ChatGPT代表的新一代技术则完全摒弃了之前的循环和卷积网络,而转向基于注意力机制,需要的训练时间明显减少,学习更高质、更有效。

 

人类学习与人工智能学习都有其各自的优势,也都有局限性。因此,人机互相学习、优势互补,从相互协作和融汇中共同获益,是趋利避害的最优解。本质上来说,人工智能目前仍是人类发展自身、开拓未来的工具,人类从它那里获得客观处理和分析大量数据方面的优势,机器努力学习人类的创造性和适应性从而更好地服务人类。人类在ChatGPT这样强大的技术面前,既不用惊恐、害怕,担心自身的功能和工作职位被机器取代(即使有取代的情形,也会有更新的岗位出现),也不用以一种“天选之子”的高高在上、嗤之以鼻的心态俯视人工智能。人机交互使得人类和人工智能的学习有机会互助,人类现阶段有机会发展自身、突破历史,就应当充分应用人工智能来加强和提升学习。

 

(二)人工智能应成为人类镜鉴

上文分析了人工智能通过数据输出所体现出的价值观,实际上,本质上这是人类的价值观。那些带有偏见、恶意、虚伪的数据集,其实也是一面人类自身的镜子,它更深层地烛照出人类自身的灵魂。前AIGC时代人类未能意识到的自身缺陷,如今通过智能生成的内容暴露了出来,这是它对人类的提示、警醒。在此之前,人类还没有如此全面地了解自身、理解人类社会,是不完美的人工智能展示了更全面的人类,从历史到现实。人工智能最重要的学习来自监督学习和强化学习,广泛应用于语言翻译、情感分析和语音识别等自然语言处理任务的监督学习,依赖于标记数据来训练智能模型——模型通过学习人类监督员提供的示例来学习做出预测。监督者提供标记数据(预先分类或预先标记正确输出的数据),模型学习根据输入数据和相应的输出标签进行预测。强化学习被使用于各种应用程序,如游戏、机器人和推荐系统,它使人工智能代理能够通过与环境的交互来反复试验、进而学习。强化学习在没有可用数据集来训练代理的情况下特别有用——代理会以奖惩形式获得反馈,并相应地调整其行为,努力使奖励最大化。智能机器从人类反馈中强化学习(RLHF,reinforcement learning from human feedback),对于优化现有的技术同样重要,ChatGPT的两大核心技术就是监督学习(GPT3.5的预训练大模型)和从人类反馈中强化学习。人类的反馈可以成就技术的伟大,也可以毁掉技术的前程(进而失去人类发展的重要工具)。2016年,微软在推特推出了一款名为Tay的人工智能聊天机器人,希望它通过与人类的对话互动学习和模仿人类。然而,在它上线后的15个多小时内微软就被迫让它下线了,因为Tay开始发布种族主义和性别歧视的互动推文(以与人类帐户对话的形式),原因是一些人类帐户故意向Tay提供偏见性内容、恶意的信息,[26]这个本不完善的人工智能系统受到人类操纵,加上缺乏背景和对文化差异的理解而生成了不适当的言论。是人类的扭曲价值观通过数据输入了机器,“教坏”了小白机器人。因此,人工智能应成为人类镜鉴,警示人类反省、净化自身,努力生成更优价值观的元数据、向机器提供更好的人类经验,以助力人工智能的发展、服务于人类的进步,更重要的则是:人类用自身理性的价值观引领技术的发展,要通过自身的善训练机器向善、引领人类向善。

 

(三)需要关注的人类宏大命题

特别要强调的是,我们还要重视人机伦理关系的大图景。目前各类关于ChatGPT和AIGC的讨论中,尚缺乏一些对人类宏大命题的重视,包括宏观层面的价值观(而不只是局限于机器偏见等中微观层面)、文明观等等。在价值观层面,我们始终要关注、反省的是人类自身,技术要努力解决那些由于数据的不恰当、静态数据等带来的价值观对抗、“价值锁定”等风险问题。在文明观层面,首先,人类和机器要共同重视人类最终的知识来源是实践。第二,由于实践的意义,人类数据始终要重视历史性价值,目前最大规模的语言模型如ChatG-PT所拥有的也非常有限,只有一小部分人类印刷出版物已经数字化并可以在网络上使用(包括书籍、文章和网页)。据2014年的一项报告,自印刷机问世以来,人类已经出版了约1.29亿本书,其中近12%(1500多万本书)已经数字化,[27]数字化的书中只有一小部分可以在网络上免费获得。而只有公开的、免费的、进入了web的数字化书籍才能进入数据集。因此目前人工智能生成的内容,是可能狭窄化、浅表化人类文明的。第三,人类要清醒地意识到数据的社会属性包括政治属性,意识到人工智能生成的信息与权力结构的复杂关系,它所延续的文明或文化,有其独特的语境,对此需要持批判性思维。第四,AIGC以数据为中心,是否会使人类迈向“数据主义”[28]的哲学窠臼?在智能技术时代,人类文明如何坚守住人文主义的终极价值观?[29]

 

[本文为国家社科重大项目“智能时代的信息价值引领”(18ZDA307)阶段性成果;本研究工作得到清华大学—丰田联合研究基金专项资助]

(陈昌凤:清华大学新闻与传播学院教授,安徽大学讲席教授;张梦:清华大学新闻与传播学院博士研究生)



编辑:liuyx