余梦珑 沈阳:生成式人工智能中的关键语言问题解析

日期: 2025-11-19 06:02:02|浏览: 1|编号: 161590

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

作者是这样的,余梦珑这人呢,他是清华大学新闻与传播学院里的博士后,还有沈阳,他是清华大学新闻与传播学院的教授,同时还是博士生导师 。

来源:《青年记者》2024年第11期

导 读:

将侧重点放在生成式人工智能里边的关键语言问题之上,借助人机对话的自然语言发展脉络作为起始点,可以解析大语言模型所产生的“类似人”语言文本背后暗藏的底层逻辑以及其所具备的局限性,探寻语言生成方式发生改变以及数字语言技术全面融入社会情境之后,对于认知行为、权力表达以及文化价值等多个方面所造成的综合影响,并环绕语言伦理研讨生成式人工智能的道德规范准则,针对未来人机对话语言系统的发展途径给出具有启发性的思考。

生成式人工智能技术取得了突破,这标志着新一轮人工智能革命的到来,在此浪潮里,语言成为人类与智能设备共同参与及对话的核心媒介,它是信息编码并解码的表征,是认知与沟通的桥梁,这种语言也是生成式人工智能技术理解、模拟还反映人类思维与文化的关键载体,诸如此类由开发的等生成式人工智能已近乎达到了人类语言的表达以及理解能力,它不光在技术方面推动了人机交互的自然性,还在更为广泛的社会文化层面,面向人类的语言使用与之社会功能,提出了重新加以考量的可能性 。开展生成式人工智能里关键语言类问题的研究工作,这可不单单是有助于去认知生成式人工智能语言背后所蕴含的内在逻辑,而且对于揭示新型语言生态跟社会文化之间的交互影响而言,有着非常重要的价值 。

一、文献回顾与研究问题

借助技术实现跨学术派别的研究,生成式人工智能发动应用方面的变革,给学术行当以及企业环境产生涵盖人工智能和社会发展层面的全新反思。迄今,针对此,国际国内拥有的相关探究,主要聚焦于:(1)在技术类目领域着重展开语言模型架构的设计以及训练算法的钻研;(2)于应用范畴去开展关于新闻现象、医疗体系、教育场所、法律事务的场景功能研究以及机遇及应战的考虑;(3)针对社会范畴进行技术伦理层面、文化偏向以及安全性等难题的研讨值得聚焦的要点是那种语言以核心的作用姿态活跃在这个技术引发的变革当中 。扮演人机交互的桥梁角色,语言这不但是输入的媒介,而且是输出的表达形式,于对话交流,明白需求以及给出高质量回应等方面具备绝对关键的功效。从语言学的视角来讲,生成式人工智能怎样去捕捉,诠释以及生成本质语言,特别是当它处于繁杂,含混以及存在歧义的状况里时,正变成研究的全新重点。国内国外相关的研究比较倾向于模型多语言功能,模型应对各种语言任务能力以及适配性研究 。

就整体来讲,当下从语言学角度针对生成式人工智能所开展的研究尚不够充足,尤其是在探究其对人类语言深层结构的复杂性的模拟以及其动态表征之方面 ,还有在语言价值观内在联系与差异的方面 ,及语用层面的交互影响的方面 ,皆欠缺系统性的研究 。这般的缺陷有可能会遮蔽掉对于生成式人工智能实质性语言能力 ,还有潜在局限性与风险的完备认识 ,进而对其在更为 的语言应用场景里的表现与发展形成制约 。基于这个,本研究将要围绕生成式人工智能所涉及的关键语言问题,从语言的结构性维度出发,探讨相关问题,从语言的功能性维度出发,探讨相应内容,从语言的社会性维度出发,探讨生成模型在语言技术方面的内在逻辑,并且探讨其在语言特点方面的内在逻辑,还探讨其在语言影响方面的内在逻辑,再探讨其在语言伦理方面的内在逻辑,探索其如何与人类语言的社会属性相互作用,接着从语言学视角对生成式人工智能的未来发展做出具有启发性的思考。

二、技术与话语:人机交互何以自然

看待生成式人工智能在人机对话系统的发展,可从两个视角出发:其一,它是问答系统的最新进展,展现出从简单的基于规则与模板生成响应,转变为更加复杂、动态的语言模型变动 ;其二,这属全新突破,既有人机对话实现交互变革,又体现从单向编码指令直至以人类语言对话,再到具备生成与涌现性之动态交互语言的演进历程 。

(一)代码至语言:交互自然驱动技术变迁

从上世纪40年代计算机进入社会视物所见范围之后,怎样使它“领会”去执行任务所要用到的指示信息,向来皆是“语言工程师”所碰到的重要难题与挑战。作为有别于“人类语言”的那类“人造语言”,计算机语言,被划定指是用于人类跟计算机之间达成传递信息的语言方式,总体来说可以区分为机器语言、汇编语言、高等语言这三大类别。从二进制代码所构成的指令开始一路到超高级程序语言呈现,其所存在的交互过程必须严格依照预先设定好的语法规则来行事,另外其操作所应跨越通过的门槛相对来说是比较高的。随着个人电脑开始出现并逐渐普及,为能够让计算机变成连非专业人士都能够有效去操作的工具,语言工程师于开发当中着重突出了“用户友好”这样一个概念,通过运用改编后的人类语言也就是去创建能够模仿人类语言知识以及表现的程序,依靠此来达成人机交互的“自然性”。交互的自然成为了人机对话技术发展的关键驱动力,而自然语言处理(NLP)则专门致力于研究、提出来以及开发以编写自然语言作为主要对象的计算系统,从而提供并且实现了借着人类语言来进行人机交互的可能性 。

(二)指令到对话:自然语言处理构建桥梁

自然语言处理搭建起了,借助人类语言实现人机交互的桥梁。按照算法运用语言知识的获取途径,自然语言处理任务能够分成基于规则的办法,以及涉及机器学习的办法。当中,基于规则的系统是由语言学家和计算机科学家,以某种形式将语言知识予以直接编码,一般是针对某些特定开发数据展开分析;而基于机器学习的系统往往是通过计算上下文中语言属性出现的频次来进行编译,在机器学习方法里,就算是无监督方法,语言知识也能够通过其他多种方式发挥功效。语言学家于自然语言处理中,为专业系统开发,提供基于人类语言研究的必要语言理论与知识,而计算机科学家,是把这些语言学知识 (编码)至算法与模型里,以此让机器具备理解与生成人类语言之能,其理解与生成能力涵盖了文本分析、情感分析、机器翻译、语音识别等内容,还推动了苹果Siri等智能语音虚拟助手在相关领域的发展。但是,处在这个阶段中的智能语音助手以及问答系统,主要是依靠跟语料库的匹配,还有固定回答,然而,大语言模型所拥有的生成能力以及涌现能力,使得人机交互体验开始进入一个新的阶段。

(三)生成与涌现:大型语言模型智能变革

大语言模型,也就是LLM,属于自然语言处理技术实现形式的一种,它被实施训练,目的是用来理解以及生成人类的语言,其中涵盖语言的语境 ,语言的语法,还有语言的语义规则。等大语言模型持有的处理系列语言任务的能力,证实表明了在人机交互里能够获得广泛应用的语言力量,也就是(power of ) 。转换器架构的运用,以及底层注意力机制的采用,极大地提升了语言模型处理自然语言文本里远程依赖关系的能力,也就是在生成预测期间通过自注意机制来判定不同部分的相关性,进而让模型能够更出色地领会输入当中不同元素间的关系,于是依据上下文以及用户需求,动态生成契合语境的回复 ,这打破了基于预设规则与模板,机器只能依照固定指令给出有限回应的传统人机交互模式 。这些技术发展推动了等大语言模型“涌现”,在此种情况下,模型能够执行开发者未明确编程的任务,这通常依托大规模语料库的学习与训练,属于模型自我提取以及深层理解的语言模式呢。这样的涌现能力让大语言模型在复杂动静兼具且处于不定状态的人机交互场景里,不仅能够生成连贯且可理解的类人语言文本并且借助自然语言维持灵活言语交流,还能够处理更为繁复的语言任务,它是推动人机交互迈向自然的关键环节,并且促进内容生产领域的智能变革呀。

三、模拟与再塑:类人文本的拟像解构

全新语言样态正由人类语言及人工智能生成语言共同塑造,以解构大语言模型生产的类人语言文本拟像,须于形式层面的模拟逻辑、理解层面的响应轨迹,还有语境层面的处理机制等多个维度予以展开。

(一)语言形式:表层拟真与幻觉事实

站在形式语义的视角去看,这里边语法跟语义是存有组合关系的、二者的合规组合能够让大语言模型生成语法流畅的类人语言、于预训练阶段的时候,大规模语料库中的深度训练,致使其掌握关于人类语言的知识,涵盖语法、事实以及推理能力等、在微调阶段情形下,借助更具体的数据集对模型开展人工微调,使得它能在特定任务或者领域范围之中呈现更好的表现并且遵循系列指导原则。该文本基于大语言模型所学习的语言模式,基于其学习的常识信息,也基于其接触到的各类语境信息,由这些综合因素最终生成符合语法,生成逻辑连贯且符合人类表达习惯的拟真文本。然而,当中关键的是,生成式人工智能存在一显著问题,此问题表现为通过提示语生成的看似高质量的回答里,可能存在 “幻觉事实”(facts),还包含误导性结论。这属于自然语言处理模型中的常见问题,它体现出了生成式人工智能语言表面合理性与现实真实性之间的差异。有做研究的人,也把它称作是“令人信服的华夫饼干”,也就是把从数据训练材料之中提取出来的那种“文本块”。依据准确的语法,拼接成“饼干”,然而这些文本块,也许有没有实际意义,或者是含有错误信息这种情况的,人工智能方面的幻觉产生情况,能从两个不同方面来进行阐释。

一,是基于统计的预测,相关研究标明,大语言模型并非为了用人类思维去“理解”语言而打造,也不是为了实际产出语法结构而编写,而是生成基于统计计算且组合在一起的词汇元素串。借由“词嵌入”,也即一个词相对于其他词出现的统计概率,得以模拟人类语言行为。亦有研究者把它称作“统计鹦鹉”,此预测过程基于统计学、而非基于事实校验。故而,模型有可能生成在语法与语境层面看似合乎情理、却在事实真实性方面存有问题的输出 。

二是具备数据驱动的特性呀,大语言模型靠着大规模文本数据集来预训练进而学习语言模式呢,还基于输入文本与训练数据中的模式进行匹配以此生成响应哟。当训练数据里含有错误、偏见或者其他形式的误导信息时呀,模型有可能会将这些信息学习并内化掉呢,进而在生成过程中出现产生幻觉事实的情况哟。因为语言模型不是凭借人类感知思维去对文本内容加以理解的呀,当它以同样高的置信度去陈述事实与谎言或者幻觉时啦,就会造成人机交互当中的信任问题哪。

(二)语义理解:“中文房间”与映射响应

等大语言模型呈现出极为强大的语言理解能力,达成了能够对于人类所提出的问题予以自然且有效的回应这一状况时,然而在人工智能领域里,关于机器是不是能够具备人类语言理解能力或者意识这一点始终都是饱受争议的焦点 。“中文房间”(Room)是由哲学家约翰·希尔斯(John)于1980年提出来的思想实验,其目的在于对机器的“真正理解”以及“模仿理解”展开探讨 。在那个实验里头,有一名仅仅懂英语的实验者在“房间内”,靠着中文指南去回应从“房间外”传进来的中文问题,在并不懂中文的状况下依照指南规则给出了正确的中文答案,使得房间外的人错以为他(或者整个房间)理解中文。这个实验是为了对计算机或者人工智能只是在遵循预先设定的规则来操作,却并不能够真正地理解语言提出质疑。实际上,人类语言理解充斥着特定案例、特定受众以及特定领域。探究其根本之处,大语言模型所具备的与人类在理解语言这一方面存在的不同,核心差异在于缺少那种类似于人类功能语言能力必备却又所需的进行概念理解,也就是在现实世界当中能够强有力切实具备去理解和有效使用语言的那种能力基础。

人类要理解语言,而且这个语言还包括非语言信息,那就需要有那种语言所描述的概念,这靠的可不是仅仅是语言符号的统计特性。和机器作比较,人类对于科学里的理解形式以及日常生活里的理解形式带有很强的内在驱动力。对语言进行理解这一方面无论是从个体看,还是从集体的视角,都能够被看作是正在构建那种高度压缩并且依托因果关系的世界模型。只是当前基于语料来开展训练的生成式人工智能未曾有过参与世界的经历亦或是心智模型,鉴于此来,从本质上说在大量文本集合中预测词频的训练造就的是语言形式可不是感知意义。就像对人类而言,“流泪”一词所映射的是一种感觉,然而对于语言模型来说,其映射的却是另外一组词,。

(三)语境感知:软性模塑与价值编码

按照要求改写后的句子:在语言学范畴以及社会交往这个领域中间,有这么一种被瞧做会对语言运用以及理解起着影响作用的环境因素,它就是语境,此乃处于信息交流之时的背景以及参考框架啊。在人机展开对话之际呀,将语境精准识别并且恰到好处地处理,这可不单单只是保证信息能够得到有效传递的关键所在哟,更是确保人机双方在处在动态的对话场景当中的时候,能够维持高效且深度交流的一个前提条件呢,不过要明白,人类本身和机器在语境处理机制方面确实存在着本质上的差异哟。

“语境感知”归属于人类语言范畴,它牵连到繁杂的认知机制,一般依凭先前经验、文化背景以及情境信息。它的解析是被个体认知与情感所推动并且和内在价值观相匹配,语境里的价值传递不但关联着表层信息,而且还有一连串关于认同、属性以及情感方面的复杂编码。

生成式人工智能进行“语境处理”时,在一定程度上能够识别并适应对话从而给出符合语境的回应,此中背后的价值编码更着重于数据里的统计规律,从语境输入方面来讲,生成式人工智能的训练数据不但含有文本“能指”,还蕴藏着数据背后深层的社会文化背景以及价值观,就像所说的那样,生成式人工智能系统并非是中立的工具,而是带有政治性的社会技术,人类的价值观与信仰不可避免地对其设计产生了影响。依据语境输出层面进行察究,人工智能给出的生成成果,将会映射出在其训练数据里的语境相关内容,并且会对已经编码的价值观予以再现,这样一来,既然等大语言模型宣称自己并不具备价值观或者意识形态,可是其训练数据、在语言学习进程中所吸纳的“语境”要素以及模型设计者所设定的具体规则,会致使模型输出契合特定价值观或者道德准则标准的相关内容,其展现出的价值观或许并不始终是中立的,所以于此在使用的时候就得意识到价值映射的底层有着怎样的逻辑蕴含,并且要尽可能地去消除或者减轻其中的负面效应影响。要留意一点,生成式人工智能在为语境塑形之际,更倾向于一种像是“软性模塑”的途径,就是说不是全然依照某一条具有牢固确定性的规则那般行动,却是在兼顾其多样性且有概率呈现的框架范畴里边开展相关操作,除开对它输出的各项内容来作出针对性调整,好使这些内容能去适配并非固定的、持续变动的对话情形,同时还会在人和机器互相展开问答对话时进行新一轮问询的经过过程里营建构造勾勒铺排出全新的语境情况情境出来。

简单来讲,生成式人工智能的输出,一方面体现了训练数据的语境,另一方面在特定语境里涌现出新的语言观点。并且,它凭借这些新观点对语境展开重新解释与塑造。弄清楚生成式人工智能语言与人类语言在形式层面、理解层面、语境层面的基本性质以及相互关联,能够为准确衡量生成式人工智能怎样与现实世界进行社会互动以及其潜在影响奠定基础。

四、交互与融合:生成式人工智能的语言影响

语言,乃是人类极为重要的交流工具,以及文化符号,它对于个体认知、群体共识以及社会文化造成综合影响。随着人工智能语言模型进行迭代,且嵌入教育、医疗、法律、新闻、决策等实际应用场景,其社会效应将会渐渐显现,审视它的语言实践怎样去影响语言意识形态,以及语言认识论,是具备必要性的。

(一)语言作为媒介:沟通载体形塑认知行为

语言啊这个东西是人类用来交流以及文化传播所需依托凭借用来承载各项要素内容的基本存有物质实体啊,当把语言放到特定历史、话语、以及政治条件之下以此形成的社会建构实体来展开各种讨论活动时段过程中呢,则可以明白物质跟技术实践所发挥出来用以表明事物有所进展作用就显得极为突出重要了。追溯源头其乃是从造纸术时期起始,再到印刷术阶段,而后又发展到现代电报、电话时期,一直最后至互联网时代,媒介技术对于语言的建构、传播方式以及使用方式这几个方面全都产生延伸出去极其悠远宏博的影响了这样理解才行。书写技术与印刷技术,推动了语言的标准化进程,它们催生了像现代汉字、拉丁字母这类的书写系统,进而推动构建起国家语言;电报跟电话,改变了远程交流的语境,塑造出了新的语言风格以及交际礼节;互联网得到普及,其催生了网络语言,比如说热词还有表情符号等,新的语言元素持续深化人类对于语言动态变化的理解。伴随着计算机科技、人工智能、自然语言跟处理技术得以发展,机器能够去理解以及生成人类语言,因而颠覆了对于语言创作的传统理解,还为语言建构提供了全新视角与诸多可能性 。恰似已然被表明的那般,技术构成会准许以及于经由此中间介质实现互通的途径予以限制,同时还会建造源自这场技术布局构架的信息形态模样,创生式人工智能主导的语言技能装置则会充任物质载体彼此间的桥梁衔接起各别的运作系统脉络并且塑造起整体人群间的理性判断水平情况以及践行举动表现另外随着对基于运用技巧从人类社会所架构的角度进行阐释时显现出人的创造并输送意义的语言记号本身同样是一种物质类别形态范畴而言是一种为从产生于两者之间的互动关系里所生发的产品和手段举措从这般塑造与伴随现象发生而做出的调整行径做法进程而言系属于数字语言技巧与人类社会的发展历程中两者之间所产生的相互作用彼此间的建造模式关系趋向演进变化状态现象 。

(二)语言作为权力:意识形态渗透群体共识

语言是一种政治工具,语言同样是权力工具。建设国家语言标准是形塑与传播意识形态的重要路径之一,培养国家归属感离不开语言文字,培养国家归属感离不开传播技术。构建大部分人类社会的系统内容靠书面语言,构建大部分人类社会的规则规范靠书面语言,构建大部分人类社会的期望惯例靠书面语言。人工智能语言技术往前发展导致一系列变化(即改变人类语言生成方式,改变人类语言感知方式)出现情况下会伴生权力隐性涌入现象。大语言模型用于训练的文本反映语言表层结构,大语言模型用于训练的文本亦隐含深层语言意识形态,大语言模型生成的文本不仅反映语表层结构,以及大语言模型生成的文本隐含深层语言意识形态( )。凭借语言实施选择以及运用,语言技术背后所存在的话语结构,以及社会语言构建起来的等级制度,能够于不知不觉当中产生影响,波及公众所具有的价值观和行为表现,还能够进而塑造出群体一致所认可的共识。

需要注意的是,机器学习技术要投入大量计算资源,还要有大量数据资源,目前,先进的生成式人工智能语言系统主要是由大型商业公司进行研发的,这就不可避免地暗示出,发展语言技术的目标具有资本主义性质,而发展语言技术的目标就是盈利,并且要让工作达到高效,还要让用户感到满意,按照这样的逻辑,商业数字语言技术并非基于教育,也不是基于审美,更不是基于语言规范,而是基于客户这一机器可读的语言实践 。在从更深层次角度予以看待时,数字人工智能系统行业其实与全球社会政治权力等级制度处在纠缠状态,有人指出,“人工智能系统建起来,目的是以对那个它们所服务的国家、机构以及公司主要有利的方式去看待并干预世界”,从具有这样的意义上面来讲,生成式人工智能系统属于源自经济跟政治力量层面的权力表达,它会影响到个人以及群体,像少数民族这般的,获取资源的平等机会、表达意见的平等机会以及在社会里得到代表的平等机会,结果导致机会不平等 。

(三)语言作为文化:交往实践共现惯习思维

生产式人工智能给社会文化带来的影响,一方面涵盖模型输出所体现与巩固的社会文化价值观,另一方面包含模型大量运用对社会交往模式以及文化实践的作用。于语言人类学这儿,语言被视作互动实践而非单独的抽象系统,是构建和维持社会关系、传递文化知识、表达身份与情感的关键工具,也称作语言化的这一种。 在大语言模型的技术创新传播进程里,借由协助人类完成各类语言任务的途径广泛投身于社会实践进程,且在互动实践当中给文化与思维造成影响。“萨丕尔—沃尔夫假说”(Sapir Whorf )在语言与文化的研究里指出,人类语言塑造了人类思维模式。不同语言表达决定了认识世界的不同方式。该假说也叫“语言相对主义”( ),是关于语言、文化与思维三者关系的重要理论。这一假说表明语言不仅是思维的工具,还是塑造思维的力量。在人机交互的实践里头,双方得持续接受还得适应彼此那不一样“思维”方式,虽说机器的“思维”在一定程度上是模型训练数据里所反映出来的人类的思维模式,可是大语言模型依靠概率跟统计去处理语言的做法,以及通过量化还有数据驱动来生成对话的方式,也会不知不觉地改变人机交互的语言习惯以及语言实践方式 。另外,在人机交互实践当中大语言模型的出现,有可能促使新的社会文化现象产生并且传播开来,与此同时还蕴含着没被意识到的伦理风险 。

五、规约与边界:生成式人工智能的语言风险

生成式人工智能语言伦理之研究和技术与社会责任的相互交织有关系,涉及怎样确保语言技术系统于复杂的社会以及文化背景里做出契合人类道德规约的决定。美国人工智能研究员曾讲过“人工智能最大的危险大概在于人们过早下这样的结论认为能够理解它”。对研究者跟实践者来讲,应当对技术发展持有警惕之心,意识到人工智能的不足之处并留意人工智能应用的潜在隐患。从语言学的角度来看,生成式人工智能语言模型潜在的伦理风险问题有不限于以下四个方面的情况。

(一)语言真伪:语言工具武器化应用

生成式人工智能以及其下游应用,随生成性人工智能关联大语言模型的技术有突破情况,能取得机会得以凸显,有破坏性的社会影响以及道德方面问题,渐渐受到关注。生成型人工智能技术作为一项有颠覆性的技术,存在被以“武器化”形式来应用方面可能 ,还能当作传播那种具有阴谋性质的理论、炮制假的新闻现象、去支持伪科学这类情况的工具之可能。一方面,大语言模型所生成的内容,在不同媒介里做传播,并且有没有作被标识这一状况时,就有可能被误以为是人类的言语,从而做出深度伪造内容,进而致使信息产生混淆,还会损害公众信任以及公众利益 。另一方面,因模型没办法保证给出完全准确的内容输出,当它给出错误或者劣质的的信息,而用户又没办法对这些信息加以辨别时,就会出现明显的信息与价值误导。所以,对于大语言作模型的使用得进行严格的监管与控制,当下中国、美国、欧盟等都加快了对生成式人工智能的监管与立法步子,以确保它在合理合法的范围内得以用过,引导生成式了人工智能被确保其在合理合法范围内使用,引导生成式人工智能去技术好好发展向着善的方向,避免它被用作军事化应用武器化应用地坏情况发生。

(二)语言黑箱:可解释性与监视主义

大语言模型具备黑箱性,这与语言的可解释性以及透明度有关联。可解释性,意思是着重强调模型针对生成语言过程的解释能力,也就是模型的理解能力究竟怎样能够被人类所理解;透明度呢,主要是聚焦于模型内部工作机制的可见程度。虽然大语言模型能够生成符合语义以及语法规则的自然语言,然而对于普通用户来讲,常常不容易理解其决策的流程跟预测模型行为,这就加大了模型使用的风险性。除此之外,和语言黑箱性相联系的伦理风险之中还有数据隐私以及控制之类的问题。技术发生扩散,在一定的程度上意味着监视资本主义出现蔓延的情况。信息时代里,数据堪称“黄金”,内容生产围绕着它进行,选择也围绕着它,消费同样围绕着它,在数据能够驱动经济模式的背后,则是权力资本参与进来,在欠缺有效监管的情形之下,用户数据有可被过度用于商业盈利,从而进行信息交易或政治操控的可能,而这般对于用户数据的过度获取以及使用,就称作是监视资本主义 。大语言模型借助分析以及学习人类语言行为这种方式,来提供多功能语言服务,为此过程之中,语言数据被大量搜集并加以运用,个体通常不存在对于生成数据的实际掌控权,反而是应由技术平台方就行数据把控,黑箱性致使监视资本主义相较于过往更加难被发觉得了。

(三)语言价值:偏见歧视与道德困境

曾有观点表明,生成式人工智能被广泛运用,这有可能致使人们对于算法的依赖程度日益增加,而算法被用于重构社会关系当做机制。与此同时,算法针对人类互动产生的影响,会在认知、行为以及决策等方面逐渐深入,进而使得道德困境加剧,如同偏见与不公平之类的情况。“书面语言偏见”在语言学研究里早就被证实了,并且这种偏见还伴随大语言模型技术的发展以及应用一同行进。 麦肯锡公司着重指出,人工智能面临着要去克服那种“潜藏在更广大范围的互联网进而社会深层暗流里的偏见方面的挑战”,而这对于生成式人工智能来讲是格外重要的。在大语言模型当中,偏差于输入端出现蔓延的情况会引发两种后果,一种后果是可能致使错误信息得以传播另一种后果是会助长偏见,而该模型因由数据可用性决定会受到选择和确认偏差也就是bias的影响。实际上要是没有关于用于训练大语言模型的数据质量的详细信息,那么就去衡量这种偏见的规模会变得十分困难,。

针对其展开了15种各异的政治取向测试,当中,有14个回答展现出呈现“左倾”观点的偏好。此项研究表明,具备道德的人工智能系统应当围绕相关问题,朝着用户给出平衡的观点,并且要防止在“宣称自行中立”之际,生成存有显著政治偏见的内容。在其中嵌入政治偏见的缘由在于,它从互联网收集众多文本语料,且进行模型训练,而用于训练的语料基本上是由西方社会里具备影响力的机构主导以及塑造的。这些机构,基于自身的政治立场,还有利益诉求,在信息生产时,或者在信息传播过程里,有可能有意,也有可能无意地,引入政治偏向。大语言模型,基于这些带有偏向性的文本数据,来进行训练,有可能习得,也有可能内化文本中已然存在的政治倾向。同时,大多数算法的架构设计,以及训练,还有参数调节,都和语言存在关联,模型设计中,或者过滤器设计中,有意或者无意的架构决策,也可能造成政治偏见。

(四)语言等级:价值排序与数字鸿沟

复杂的社会语言学问题,包含语言标准、语言价值、语言使用方式等层面,体现在多语种社区里不同语言的社会地位与权威所示构成的社会语言学等级之中,像显示哪些语言拥有较高较优社会地位,被判定当作常规公认正式高级语言,哪些语言则可能被看作次级或边缘语言之类情况;且聚焦于语言使用和变异怎样反映社会结构与权力动态的问题,是由大语言模型所生成语言涉及的 。在数字语言技术得以广泛普及之际,哪些被默认有价值的语言资源与信息,会和大数据语料库、算法机制、平台语言意识形态以及从中生发的用户实践存在关联。当下国际上先进的大语言模型训练首先是围绕英语来开展的,这跟前述各项密切相关,其中美国在人工智能技术领域处于行业领先位置,英语而言在世界范围之中有着非常高的普及程度呢。这进而就促使在当中并非所有语言都是处于平等状态的。虽说中文、西班牙语以及法语属于世界常用语言,然而于模型响应丰富程度以及语言书写的可理解性方面显著比英语要差些。等人开展的研究当中明确指出,在全球范围内,那超过10亿人日常予以使用的诸多语言里面,占比90%以上且数量诸多的目前在语言技术这一领域依旧欠缺有效支持。而大语言模型所存在的“反馈循环”这种效应极有可能致使那种基于数字的语言技术所产生的鸿沟进一步得以扩大,于此同时,增强了作为全球被广泛使用语言的英语在全球语言等级体系里的优势地位。那些遭受到较少学术类深入研究的语言情形之下,甚至存在着被排除在这场具有革新意义以及能自主生成内容能力的人工智能革命范围以外的可能性。

六、结语

目前,生成式人工智能以及人机对话正面对关键的技术转折点,这种变革不但促使研究者依据外部视角,针对人类语言的深层结构以及功能,开启崭新的认知探寻,从而也将给人与人机之间的交互协同,还有可能被发生交互融合的跨界领域带来引发思考的情况。从狭义范畴的语言对话形式,发展到更具广泛意义的社会文化维度的对话,从问答式的响应交互,转变为对话式的沟通交互,从文本语言的交互,拓展至多模态感知交互。语言学视角下,生成式人工智能的未来发展,充满着多元的可能。伴随其广泛地嵌入应用场景,所带来的社会变革,将是未来研究需要关注的重要议题。

【此文本乃是国家社科基金重大项目,所涉为“基于机器博弈的网络信息传播安全多准则动态管控策略研究”,具有批准号,呈现的是阶段性成果】。

提醒:请联系我时一定说明是从夜讯箱包皮具网上看到的!