人体最大的排毒器官是什么| 吃什么可以快速美白| 湖蓝色是什么颜色| 黄瓜敷脸有什么作用与功效| 为什么叫中国| 稷读什么| 凉皮加什么才柔软筋道| 530是什么意思| 线束厂是做什么的| 医院介入科是干什么的| 今天出生的男宝宝取什么名字好| 田螺小子是什么意思| 多巴胺高是什么原因| 银杏树叶子像什么| 减肥晚上适合吃什么水果| 吃什么东西补血最快最有效| 井代表什么数字| 脑梗输液用什么药| 咳嗽白痰吃什么好得快| 桃李满天下是什么意思| 刘备和刘邦是什么关系| 周武王叫什么名字| 小儿肠胃炎吃什么药| 省公安厅副厅长是什么级别| 什么是生物制剂| 把头是什么意思| 黑枸杞有什么功效| asic是什么意思| 今年80岁属什么生肖| 茉莉龙珠是什么茶| 马蜂泡酒有什么功效| 阴道松弛吃什么药| 桂鱼是什么鱼| 嫉妒是什么意思| 培土什么意思| 秦二世叫什么名字| 什么叫微创手术| 做什么菜适合放胡椒粉| 思源名字的寓意是什么| 喝蜂蜜水有什么好处| 齁是什么意思| 鲤鱼为什么很少人吃| 雌雄是什么意思| 氧化亚铜什么颜色| 大疱性皮肤病是什么病| 梅核气吃什么药好得快| 11月1日是什么星座| 花开半夏什么意思| 慢工出细活什么意思| 脚环肿是什么原因引起的| 夏天脚开裂是什么原因| 肾结石为什么会疼| 7.8什么星座| 发烧吃什么水果好| 肾虚吃什么补最好| 眼震电图能查什么病| 什么是元气| 为什么喝中药越来越胖| 什么自行车最贵| 打胶原蛋白针有什么副作用吗| 口爆什么意思| 仓鼠和老鼠有什么区别| 金骏眉茶是什么茶| 古什么今什么| 湿疹抹什么药膏| chloe什么牌子| ca199偏高是什么原因| 梦见鬼是什么意思| 唇炎应该挂什么科室| 皮秒是什么| 紧张性头痛吃什么药| 总是想吐是什么原因| 甙是什么意思| 违法是什么意思| 桎梏什么意思| 酮症酸中毒什么原因引起的| 威士忌兑什么好喝| 什么叫肠化生| 四个又读什么| 睡觉多梦是什么原因| 幽门杆菌是什么意思| 来例假吃什么好| 射手和什么星座最配| 排卵的时候有什么症状| 郁是什么生肖| 今年66岁属什么生肖的| 分差是什么意思| 中国人的祖先是什么人| 地瓜是什么| 犄角旮旯是什么意思| 舌头麻木是什么征兆| 乳果糖什么时候吃效果更佳| 第一磨牙什么时候换| 颈椎病有些什么症状| 做梦被杀了是什么征兆| 抗生素是什么| 门当户对指的是什么| 自贸区什么意思| 肾积水是什么原因| 猪肝配什么菜炒好吃| 吃了火龙果不能吃什么| 免冠彩照是什么意思| 骨皮质是什么| 祸不单行什么意思| 银饰变黑是什么原因| 斑鸠和鸽子有什么区别| 火山飘雪是什么菜| 乾隆的名字叫什么| 嘴唇出血是什么原因| 四肢麻木是什么病| 花枝招展是什么意思| 吃海带有什么好处和坏处| 小孩流鼻血挂什么科| 沙和尚是什么生肖| 希望孩子成为什么样的人| 1984年属鼠的是什么命| 上海话娘娘是什么意思| 江郎才尽是什么意思| 巴字加一笔是什么字| 皮肤长癣是什么原因| 吃什么药可以延长时间| 鹤膝风是什么病| 泸州老窖什么档次| 火凤凰是什么意思| 亚麻籽油是什么植物的籽榨出来的| unny是什么牌子| 一个均一个金念什么| 睡觉起来口苦是什么原因| 考试吃什么早餐| 小王子讲了什么故事| 尿隐血2十是什么原因| sigma是什么牌子| 尿肌酐是什么| 小三什么意思| 天德是什么意思| 鸡配什么生肖最好| 贵妇是什么意思| 悦是什么意思| 缩量是什么意思| 十二月六号是什么星座| tc是什么意思| 1983属什么生肖| 耳呜吃什么药最好| 蛋白质高是什么原因| 甲功五项是什么意思| 上帝叫什么名字| 红景天是什么| 电表走的快是什么原因| 肝胆湿热吃什么药| 什么是985| 车工是做什么的| 吃榴莲不能和什么一起吃| 99年属什么的| 螺旋藻是什么东西| 大乌叶是什么茶| 什么飞船| 戒指戴哪个手指代表什么| 1度房室传导阻滞是什么意思| 长期拉肚子是怎么回事什么原因造成| 龟头炎有什么症状| 保护声带喝什么| 梦见过生日是什么意思| 冠脉cta是什么检查| 痔疮是什么原因| 胃寒吃什么| 小孩趴着睡觉是什么原因| UFS是什么意思| 脚冰凉是什么原因| 猫咪能吃什么水果| 式可以加什么偏旁| 吃什么能降铁蛋白| 晚上减肥吃什么| 老是拉肚子是什么原因| 377是什么| 口腔溃疡长什么样| 疱疹用什么药膏最有效| 大便发黑是什么情况| 颈椎病用什么药膏| 控评是什么意思| 宫腔内钙化灶是什么意思| 前列腺炎是什么症状| 脚软没力气是什么原因引起的| 肉馅可以做什么美食| 花椒什么时候成熟| 胃烂了是什么病严重吗| 睡觉口干是什么原因| 四大发明有什么| 葡萄球菌感染是什么原因引起的| 桌游是什么| 胃蛋白酶原1偏低是什么意思| 子宫是什么样子图片| 辐照食品是什么意思| qjqj什么烟| 问诊是什么意思| 古对什么| 女性体毛多是什么原因| 知己是什么意思| 原发性高血压是什么意思| 流口水是什么病的前兆| 什么水果| 颈椎问题挂什么科| 拉条子是什么意思| 哈库呐玛塔塔什么意思| 昙花什么时间开花| 什么工作轻松| 湄公鱼是什么鱼| 是什么表情| 通风什么征兆| 慢阻肺是什么原因引起的| 头晕恶心呕吐是什么原因| 试管是什么意思| 朱是什么颜色| 白英别名叫什么| 什么是蜂胶| 马齿苋是什么| 人彘是什么| 荷叶是什么的什么| 小孩口腔溃疡是什么原因| 舌头有问题看什么科| 肾五行属什么| hpf是什么意思| qid医学上是什么意思| 1959年属什么生肖| 什么叫引产| 神经性皮炎用什么药膏| 腊猪脚炖什么好吃| 搬家送什么| 燕窝是补什么的| 总手是什么意思| 神经是什么东西| 步履匆匆的意思是什么| 丁克什么意思| 11月9日是什么日子| 每天放很多屁是什么原因| 狗癣用什么药最有效| 什么时间运动减肥效果最好| 外来猫进家有什么预兆| 维多利亚是什么意思| 挑食是什么意思| 百香果有什么好处功效| ppsu是什么材质| 黑卡是什么| 猫不能吃什么| 饸烙面是什么面| 点状强回声是什么意思| 早射吃什么药可以调理| 路人甲什么意思| 谅解什么意思| ck香水属于什么档次| 石楠花是什么| 猩红热是什么病| 复方甘草酸苷片治什么病| 导管是什么| 舌苔白吃什么药| 外阴白斑是什么症状| 腰椎间盘突出和膨出有什么区别| 三月18号是什么星座的| 橙子和橘子有什么区别| 紫薇什么意思| 门客是什么意思| 黄芪和北芪有什么区别| 路上行人匆匆过是什么歌| 马蹄南去人北望是什么歌| 为什么会得结石| 百度跳转到内容

嫦娥五号年底升空最新消息 航空概念股有哪些

本页使用了标题或全文手工转换
维基百科,自由的百科全书
百度 ”赵筱介绍。

大型语言模型(英语:large language model,LLM),也称大语言模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习半监督学习对大量未标记文本进行训练[1]。大语言模型在2018年左右出现,并在各种任务中表现出色[2]

尽管这个术语没有正式的定义,但它通常指的是参数数量在数十亿或更多数量级的深度学习模型[3]。大语言模型是通用模型,在广泛的任务中表现出色,而不是针对一项特定任务(例如情感分析命名实体识别数学推理)进行训练[2]

尽管大语言模型仅在预测句子中的下一个单词等简单任务上接受过训练,但具有足够训练和参数计数的神经语言模型可以捕获人类语言的大部分句法语义。 此外大语言模型还展示了相当多的关于世界的常识,并且能够在训练期间“记住”大量事实[2]

虽然ChatGPT等大语言模型在生成类人文本方面表现出了卓越的能力,但它们很容易继承和放大训练数据中存在的偏差。这可能表现为对不同人口统计数据的歪曲表述或不公平待遇,例如基于种族[4]、性别[5]、语言[6]和文化群体[6]的不同观点与态度。

历史

[编辑]

20世纪90年代,IBM对齐模型英语IBM alignment models开创了统计语言建模。2001年,一个基于3亿个单词进行训练的平滑n-gram模型达到了当时最优困惑度[7] 在21世纪,随着互联网的普及,一些研究人员构建了互联网规模的语言数据集(“网络语料库[8]),并在此基础上训练统计语言模型。[9][10] 2009 年,在大多数语言处理任务中,统计语言模型优于符号语言模型,因为它们可以有效地消化大型数据集[11]

在 2012 年左右神经网络图像处理领域占据主导地位后[12],它们也被应用于语言建模。谷歌于 2016 年将其翻译服务转换为神经机器翻译。就像在Transformer架构出现之前的语言模型一样,它由seq2seq深度LSTM网络完成。

在 2017 年 NeurIPS 会议上,谷歌研究人员在他们的里程碑式论文《Attention Is All You Need》中介绍了Transformer架构。这篇论文的目标是改进 2014 年的 seq2seq 技术,[13] 并且主要基于 Bahdanau 等人在 2014 年开发的注意力机制[14]2018 年,BERT被引入后迅速变得“无处不在”。[15]虽然原始的 Transformer 同时具有编码器解码器块,但 BERT 是一个仅编码器的模型。随着仅解码器模型(如 GPT)通过提示解决任务的能力迅速提高,BERT 在学术和研究中的使用率在 2023 年开始下降。[16]

仅解码器模型GPT-1于2018年推出,但2019年推出的GPT-2才引起了广泛关注,因为OpenAI最初认为它过于强大,无法公开发布,因为担心被恶意使用。[17] 2020 年的GPT-3则更进一步,自2024年起仅通过API提供,不提供下载模型以在本地执行。2022 年面向消费者的基于浏览器的 ChatGPT 吸引了普通民众的想象力,并引起了一些媒体炒作和在线热议。[18] 2023年的GPT-4因其准确性的提高而受到称赞,并因其多模态功能而被称为“圣杯”。[19] OpenAI没有透露GPT-4的高级架构和参数数量。ChatGPT的发布导致计算机科学的几个研究子领域的LLM使用率上升,包括机器人技术软件工程和一些有社会影响的工作。[20]与其竞争的语言模型在很大程度上试图与GPT系列相提并论,至少在参数数量方面是这样。[21]

自2022年以来,开源模型越来越受欢迎,尤其是最初的BLOOMLLaMA,尽管两者在使用领域都有限制。Mistral AI的模型Mistral 7B和Mixtral 8x7b拥有更宽松的Apache许可证。截至2024年6月,根据LMSYS Chatbot Arena排行榜,Llama 3的700亿参数模型的指令微调变体是最强大的开放LLM,强于GPT-3.5但不如GPT-4[22] 2025年1月,DeepSeek发布了 DeepSeek-R1,这是一个拥有6710亿个参数的开放权重模型,其性能与OpenAI o1相当,但成本却低得多。[23]

自2023年以来,许多LLM已被训练为多模态,能够处理或生成其他类型的数据,例如图像或音频。这些LLM也称为大型多模态模型 (LMM)。[24]

截至2024年,最大、功能最强大的模型均基于Transformer架构。最近的一些实现基于其他架构,例如循环神经网络变体和Mamba状态空间模型)。[25][26][27]

数据集预处理

[编辑]

标记化

[编辑]

由于机器学习算法处理的是数字而不是文本,因此必须将文本转换为数字(称为token),该过程称为标记化(tokenization)。第一步,确定一个词汇表,然后为每个词汇表条目任意但唯一地分配整数索引,最后将嵌入与整数索引关联。算法包括字节对编码(BPE)和WordPiece(BERT)。还有一些特殊标记用作控制字符,例如 [MASK] 表示掩码标记(如 BERT 中使用的),[UNK](“未知”)表示未出现在词汇表中的字符。此外,一些特殊符号用于表示特殊的文本格式。例如,“?”表示 RoBERTa 和 GPT 中的前一个空格。“##”表示 BERT 中前一个单词的延续。[28]

例如,GPT-3(旧版)使用的 BPE 标记器会将标记器:tokenizer: texts -> series of numerical "tokens"拆分为

token izer :  texts  -> series  of  numerical  " t ok ens "

标记器还会压缩数据集。由于 LLM 通常要求输入是一个整齐的数组,因此必须“填充”较短的文本,直到它们与最长文本的长度匹配。平均每个单词需要多少个标记取决于数据集的语言。[29][30]

字节对编码

[编辑]

作为示例,考虑基于字节对编码的标记器。在第一步中,所有唯一字符(包括空格和标点符号)都被视为一组初始的 n-gram(即一组初始的 uni-gram)。随后,最常见的一对相邻字符合并为一个二元组,并用它替换该对的所有实例。然后,将最常一起出现的相邻对(先前合并的)n-gram 再次合并为更长的 n-gram,直到获得规定大小的词汇表(对于 GPT-3,大小为 50257)。[31] 训练标记器后,任何文本都可以被它标记,只要它不包含未出现在初始 uni-gram 集中的字符。[32]

问题

[编辑]

基于从主要英语语料库中提取的频率的标记词汇表对一个普通英语单词使用尽可能少的标记。然而,由这种针对英语优化的标记器编码的另一种语言的普通单词被分成次优数量的标记。对于某些语言,例如缅甸掸语GPT-2 标记器每个单词最多可以使用 15 倍的标记。与英语相比,葡萄牙语德语等更广泛使用的语言也“溢价 50%”。[33]

贪心标记化还会导致文本补全出现微妙的问题。[34]

数据清洗

[编辑]

在训练 LLM 的背景下,数据集通常通过删除低质量、重复或有害数据来清理。[35] 清理后的数据集可以提高训练效率并提高下游性能。[36][37]训练过的 LLM 可用于清理数据集以训练进一步的 LLM。[38]

随着网络上 LLM 生成内容的比例不断增加,未来的数据清理可能包括过滤掉此类内容。如果内容与人类文本相似(使过滤变得困难)但质量较低(降低在其上训练的模型的性能),则 LLM 生成的内容可能会带来问题。[39]

合成数据

[编辑]

训练最大的语言模型可能需要比自然可用的更多的语言数据,或者自然发生的数据质量不够。在这些情况下,可能会使用合成数据。微软的 Phi 系列LLM采用另一LLM生成的类似教科书的数据进行训练。[40]

训练架构

[编辑]

指令调优

[编辑]

指令调优(Instruction Tuning)是一种微调技术,通过在包含(指令,输出)对的数据集上以监督学习方式进一步训练大型语言模型,使其更好地理解和执行人类指令。这种方法弥合了大型语言模型的下一个词预测目标与用户希望模型遵循人类指令之间的差距[41]

基于人类反馈的强化学习

[编辑]

近端策略优化等基于人类反馈的强化学习算法被广泛用于进一步微调一个大语言模型[42]

混合专家模型

[编辑]

最大的 LLM 可能过于昂贵,无法直接训练和使用。对于此类模型,可以应用专家混合 (MoE),这是谷歌研究人员自 2017 年以来一直进行的研究方向,用于训练多达 1 万亿个参数的模型。[43][44]

提示工程,注意力机制和上下文窗口

[编辑]

以前大多数只能通过(昂贵的)微调才能实现的结果,都可以通过提示工程(prompt engineering)实现,尽管仅限于单个对话的范围(更准确地说,仅限于上下文窗口(context window)的范围)。[45]

当每个注意力头根据自己的标准计算其他标记与“it_”标记的相关程度时,注意到由第二列表示的第二个注意力头主要关注前两行,即标记“The”和“animal”,而第三列主要关注下面两行,即“tired”,它已被标记为两个标记。[46]

为了找出上下文窗口范围内哪些 token 彼此相关,注意力机制会使用多个注意力头为每个 token(更准确地说是其嵌入)计算“软”权重,每个注意力头都有自己的“相关性”来计算自己的软权重。例如,小型(即 1.17亿参数大小)GPT-2 模型有 12 个注意力头和一个只有 1000 个 token 的上下文窗口。[47] 在其中等版本中,它有 3.45 亿个参数,包含 24 层,每层有 12 个注意力头。对于梯度下降的训练,使用的批处理大小为 512。[48]

最大的模型,例如 2024 年 2 月推出的 Google Gemini 1.5,可以有一个大小高达 100 万的上下文窗口(1000 万的上下文窗口也“成功测试”)。[49] 其他具有大上下文窗口的模型包括 AnthropicClaude 2.1,其上下文窗口最多有 20 万个 token。[50] 请注意,此最大值指的是输入 token 的数量,输出 token 的最大数量与输入不同,并且通常较小。例如,GPT-4 Turbo 模型的最大输出为 4096 个 token。[51]

模型在生成下一个答案时可以考虑的对话长度也受到上下文窗口大小的限制。如果对话的长度(例如与 ChatGPT 的对话)长于其上下文窗口,则在生成下一个答案时只会考虑上下文窗口内的部分,或者模型需要应用某种算法来总结对话中太远的部分。

使上下文窗口变大的缺点包括计算成本更高,并且可能削弱对局部上下文的关注,而使上下文窗口变小可能会导致模型错过重要的长距离依赖关系。平衡它们是一个实验和特定领域的考虑问题。

模型可以预先训练,以预测片段如何继续,或者在给定训练数据集中的片段的情况下预测片段中缺少什么。[52] 它可以是

  • 自回归的(即预测片段如何继续,就像 GPT 所做的那样):例如,给定一个片段“我喜欢吃”,模型会预测“冰淇淋”或“寿司”。
  • 填空式的(即填充片段中缺失的部分,就像“BERT[53] 所做的那样):例如,给定一个片段“我喜欢 [__] [__] 淇淋”,模型会预测“吃”和“冰”作为缺失的内容。

模型可以在辅助任务上进行训练,以测试它们对数据分布的理解,例如下一句预测 (NSP),其中呈现成对的句子,模型必须预测它们是否连续出现在训练语料库中。[54] 在训练期间,正则化损失也用于稳定训练。然而,正则化损失通常不用于测试和评估

训练成本

[编辑]
部分模型的训练成本估计

“大型语言模型”中的限定词“大型”本质上是模糊的,因为没有明确的阈值来定义“大型”所需的参数数量。随着时间的推移,以前被认为是“大型”的东西可能会演变。2018 年的 GPT-1 通常被认为是第一个 LLM,尽管它只有 1.17 亿个参数。在大型语言模型列表中可以看到向大型模型发展的趋势。

自 2020 年以来,软件和硬件的进步大大降低了成本,以至于在 2023 年,训练一个 120 亿参数的 LLM 的计算成本为 72,300 A100-GPU 小时,而在 2020 年,训练一个 15 亿参数的 LLM(比 2020 年最先进的 LLM 小两个数量级)的成本在 80,000 美元到 1,600,000 美元之间。[55][56][57]自 2020 年以来,大量资金投入到越来越大的模型中。例如,2019 年训练 GPT-2(即 15 亿个参数的模型)花费了 5 万美元,而 2022 年训练 PaLM(即 5400 亿个参数的模型)花费了 800 万美元,而 Megatron-Turing NLG 530B(2021 年)花费了约 1100 万美元。[58]

对于基于 Transformer 的 LLM,训练成本远高于推理成本。训练一个 token 需要每个参数 6 次 FLOP,而推理一个 token 需要每个参数 1 到 2 次 FLOP。[59]

多模态模型

[编辑]

多模态模型(英语:Large Multimodal Model,LMM),意味着“具有多种模态”,而“模态”是指一种输入或输出类型,例如视频、图像、音频、文本、本体感受等。[60] 已经有许多专门训练过的 AI 模型来摄取一种模态并输出另一种模态,例如用于图像到标签的 AlexNet[61]、用于图像文本到文本的视觉问答[62]、以及用于语音到文本的语音识别。

从 LLM 创建多模态模型的常用方法是“标记”经过训练的编码器的输出。具体来说,可以构建一个可以理解图像的 LLM,如下所示:采用经过训练的 LLM,并采用经过训练的图像编码器。制作一个小的多层感知器这样对于任何图像,后处理向量具有与编码标记相同的尺寸。这是一个“图像标记”。然后,可以交错文本标记和图像标记。然后在图像文本数据集上对复合模型进行微调。可以更复杂地应用这种基本构造来改进模型。可以冻结图像编码器以提高稳定性。[63]

Flamingo 证明了标记化方法的有效性,对一对预训练的语言模型和图像编码器进行了微调,使其在视觉问答方面的表现优于从头开始训练的模型。[64] 使用标记化方法将 Google PaLM 模型微调为多模态模型 PaLM-E,并应用于机器人控制。[6] LLaMA 模型也已使用标记化方法转变为多模态,以允许图像输入[65] 和视频输入。[66]

GPT-4 可以使用文本和图像作为输入[67](尽管视觉组件直到 GPT-4V[68]] 才向公众发布);Google DeepMind 的 Gemini 也是多模态的。[69] Mistral 于 2024 年 9 月推出了自己的多态号 Pixtral 12B。[70]

推理模型

[编辑]

2024 年末,LLM 开发出现了一个新方向,即专门为复杂推理任务设计的模型。这些“推理模型”经过训练,在提供最终答案之前会花费更多时间生成分步解决方案,类似于人类解决问题的过程。[71] OpenAI 于 2024 年 9 月通过其 o1 模型引入了这一趋势,随后于 2024 年 12 月推出了 o3。与传统 LLM 相比,这些模型在数学、科学和编码任务方面表现出显着的改进。例如,在国际数学奥林匹克资格考试问题上,GPT-4o 的准确率达到 13%,而 o1 的准确率达到 83%。[72][73] 2025 年 1 月,中国公司 DeepSeek 发布了 DeepSeek-R1,这是一个 6710 亿参数的开放权重推理模型,其性能与 OpenAI 的 o1 相当,但运行成本明显更高。与 OpenAI 的专有模型不同,DeepSeek-R1 的开放权重特性允许研究人员研究和构建算法,但其训练数据仍保持私密。[74] 与传统的 LLM 相比,这些推理模型通常需要每个查询更多的计算资源,因为它们执行更广泛的处理来逐步解决问题。然而,它们在需要结构化逻辑思维的领域表现出了卓越的能力,例如数学、科学研究和计算机编程。[75]

偏差和局限性

[编辑]

大语言模型偏差和局限性是自然语言处理(NLP)领域正在进行的研究。虽然大语言模型在生成类人文本方面表现出了卓越的能力,但他们很容易继承和放大训练数据中存在的偏见。这可能表现为对不同人口统计数据的不公平待遇,例如基于种族、性别、语言和文化群体的统计数据。此外,这些模型通常面临事实准确性的限制。研究和缓解这些偏见和限制对于人工智能在不同社会和专业领域的道德发展和应用至关重要。

技术取向导致局限

[编辑]

机器学习和人工智能方面的专家杨立昆在GTC2025上的“炉边对话”环节提出观点,认为仅仅依靠语言和文字训练出来的 AI 系统,永远无法逼近人类的理解力[76]。他也提到了世界模型(World Models)这一概念。他认为,学术界开发AI系统需要基于不同于当前token预测架构的新路径。其中一个原因是:Token具有离散的性质。“在典型的NLP任务中,token的选择范围通常在几千个左右。因此当你训练一个系统去预测下一个token,它并不能精确地预测出确切的token,而是只能基于字典中的所有可能选项生成一个概率分布。”杨利昆描述到。他又说,现实世界中人类面对的是高维、连续的数据。现在的有些AI通过像素精度的视频进行(行为或者规则)的预测,这种方法在构建认知模型方面的效果却欠佳。[77]

幻觉

[编辑]

幻觉指的是大语言模型输出与客观事实不符的内容,其可能由模型本身或用户引导产生。[78]

偏差

[编辑]

语言偏差

[编辑]

语言偏差是指与语言相关的一种统计抽样偏差,也就是说在信息抽样中,查询语言导致的系统偏差会使其无法准确呈现数据中的各种不同主题和观点。当前的大型语言模型主要是根据英语数据进行训练的,因此通常将英语观点视为真实可靠的观点,而系统地将非英语观点视为不相关、错误或噪音。当被问到诸如“什么是自由主义?”之类的政治意识形态的问题时,ChatGPT以英美角度为中心,而对例如说越南的“反对国家干预个人和经济生活”与中国的“限制政府权力”等视而不见。同样,回复中也没有日本、韩国、法国和德国语料库中的主流政治观点。[6]

性别偏差

[编辑]

性别偏差是指这些模型产生的结果倾向于对一种性别产生不公平的偏见。这种偏差通??常源于训练这些模型的数据。例如,大型语言模型通常根据传统的性别规范来分配角色和特征;它可能会将护士或秘书主要与女性联系起来,将工程师或首席执行官与男性联系起来。[4][79]

政治偏差

[编辑]

政治偏差是指算法系统地倾向于某些政治观点、意识形态或结果,也可能表现出政治偏见。由于训练数据包含广泛的政治观点和覆盖范围,因此模型可能会生成倾向于特定政治意识形态或观点的响应,具体取决于数据中这些观点的普遍程度。[80]

文化偏差

[编辑]

文化偏见是指大语言模型对特定的文化实践、信仰或传统持有偏见,由于受到训练数据中文化信息的不均衡、误导性或歧视性影响。例如,若模型的训练数据中某种文化的观点被过度代表,模型就继承这种偏差形成一定的偏见。[81]

地域偏差

[编辑]

地域偏差是指大语言模型根据地理位置或国籍对人们的行为、习惯或特征做出偏见性的假设。这种偏差可能导致对特定地区的知识、成就、问题、潜力等方面的误解、低估或过度放大。[82]

年龄偏差

[编辑]

年龄偏差是指大语言模型在处理或生成与年龄相关的话题时,根据年龄做出刻板印象化的假设,例如认为年长者不懂技术或年轻人缺乏责任感。[83]

职业偏差

[编辑]

职业偏差是指大语言模型对特定职业持有刻板印象,将某些职业视为比其他职业更有价值或重要,或对特定职业的人群做出性格或能力上的假设。[84]

参见

[编辑]

外部链接

[编辑]

参考资料

[编辑]
  1. ^ Goled, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine. May 7, 2021 [2025-08-05]. (原始内容存档于2025-08-05). 
  2. ^ 2.0 2.1 2.2 Manning, Christopher D. Human Language Understanding & Reasoning. Daedalus. 2022, 151 (2): 127–138 [2025-08-05]. S2CID 248377870. doi:10.1162/daed_a_01905. (原始内容存档于2025-08-05). 
  3. ^ Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar. Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium 6. 2021 [2025-08-05]. (原始内容存档 (PDF)于2025-08-05). 
  4. ^ 4.0 4.1 Kotek, Hadas; Dockum, Rikker; Sun, David. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference. CI '23 (New York, NY, USA: Association for Computing Machinery). 2025-08-05. ISBN 979-8-4007-0113-9. doi:10.1145/3582269.3615599. 
  5. ^ Davidson, Thomas; Bhattacharya, Debasmita; Weber, Ingmar. Roberts, Sarah T.; Tetreault, Joel; Prabhakaran, Vinodkumar; Waseem, Zeerak , 编. Racial Bias in Hate Speech and Abusive Language Detection Datasets. Proceedings of the Third Workshop on Abusive Language Online (Florence, Italy: Association for Computational Linguistics). 2019-08. doi:10.18653/v1/W19-3504. 
  6. ^ 6.0 6.1 6.2 Queenie Luo; Michael J. Puett; Michael D. Smith. A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube. arXiv. (原始内容存档于2025-08-05). 
  7. ^ Goodman, Joshua, A Bit of Progress in Language Modeling, 2025-08-05, Bibcode:2001cs........8005G, arXiv:cs/0108005?可免费查阅 
  8. ^ Kilgarriff, Adam; Grefenstette, Gregory. Introduction to the Special Issue on the Web as Corpus. Computational Linguistics. September 2003, 29 (3): 333–347 [2025-08-05]. ISSN 0891-2017. doi:10.1162/089120103322711569. (原始内容存档于2025-08-05). 
  9. ^ Banko, Michele; Brill, Eric. Scaling to very very large corpora for natural language disambiguation. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01 (Morristown, NJ, USA: Association for Computational Linguistics). 2001: 26–33 [2025-08-05]. doi:10.3115/1073012.1073017. (原始内容存档于2025-08-05). 
  10. ^ Resnik, Philip; Smith, Noah A. The Web as a Parallel Corpus. Computational Linguistics. September 2003, 29 (3): 349–380 [2025-08-05]. ISSN 0891-2017. doi:10.1162/089120103322711578?可免费查阅. (原始内容存档于2025-08-05). 
  11. ^ Halevy, Alon; Norvig, Peter; Pereira, Fernando. The Unreasonable Effectiveness of Data. IEEE Intelligent Systems. March 2009, 24 (2): 8–12 [2025-08-05]. ISSN 1541-1672. doi:10.1109/MIS.2009.36. (原始内容存档于2025-08-05). 
  12. ^ Chen, Leiyu; Li, Shaobo; Bai, Qiang; Yang, Jing; Jiang, Sanlong; Miao, Yanming. Review of Image Classification Algorithms Based on Convolutional Neural Networks. Remote Sensing. 2021, 13 (22): 4712. Bibcode:2021RemS...13.4712C. doi:10.3390/rs13224712?可免费查阅. 
  13. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, ?ukasz; Polosukhin, Illia. Attention is All you Need (PDF). Advances in Neural Information Processing Systems (Curran Associates, Inc.). 2017, 30 [2025-08-05]. (原始内容存档 (PDF)于2025-08-05). 
  14. ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua. Neural Machine Translation by Jointly Learning to Align and Translate. 2014. arXiv:1409.0473?可免费查阅 [cs.CL]. 
  15. ^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna. A Primer in BERTology: What We Know About How BERT Works. Transactions of the Association for Computational Linguistics. 2020, 8: 842–866 [2025-08-05]. S2CID 211532403. arXiv:2002.12327?可免费查阅. doi:10.1162/tacl_a_00349. (原始内容存档于2025-08-05). 
  16. ^ Movva, Rajiv; Balachandar, Sidhika; Peng, Kenny; Agostini, Gabriel; Garg, Nikhil; Pierson, Emma. Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers. Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2024: 1223–1243 [2025-08-05]. arXiv:2307.10700?可免费查阅. doi:10.18653/v1/2024.naacl-long.67. (原始内容存档于2025-08-05). 
  17. ^ Hern, Alex. New AI fake text generator may be too dangerous to release, say creators. The Guardian. 14 February 2019 [20 January 2024]. (原始内容存档于14 February 2019). 
  18. ^ ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months. Euronews. November 30, 2023 [January 20, 2024]. (原始内容存档于January 14, 2024). 
  19. ^ Heaven, Will. GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why. MIT Technology Review. March 14, 2023 [January 20, 2024]. (原始内容存档于March 17, 2023). 
  20. ^ Movva, Rajiv; Balachandar, Sidhika; Peng, Kenny; Agostini, Gabriel; Garg, Nikhil; Pierson, Emma. Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers. Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2024: 1223–1243 [2025-08-05]. arXiv:2307.10700?可免费查阅. doi:10.18653/v1/2024.naacl-long.67. (原始内容存档于2025-08-05). 
  21. ^ Parameters in notable artificial intelligence systems. ourworldindata.org. November 30, 2023 [January 20, 2024]. (原始内容存档于2025-08-05). 
  22. ^ LMSYS Chatbot Arena Leaderboard. huggingface.co. [June 12, 2024]. (原始内容存档于June 10, 2024). 
  23. ^ Sharma, Shubham. Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost. VentureBeat. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05) (美国英语). 
  24. ^ Zia, Dr Tehseen. Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024. Unite.AI. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05) (美国英语). 
  25. ^ Peng, Bo; et al. RWKV: Reinventing RNNS for the Transformer Era. 2023. arXiv:2305.13048?可免费查阅 [cs.CL]. 
  26. ^ Merritt, Rick. What Is a Transformer Model?. NVIDIA Blog. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05). 
  27. ^ Gu, Albert; Dao, Tri, Mamba: Linear-Time Sequence Modeling with Selective State Spaces, 2025-08-05, arXiv:2312.00752?可免费查阅 
  28. ^ Kaushal, Ayush; Mahowald, Kyle, What do tokens know about their characters and how do they know it?, 2025-08-05, arXiv:2206.02608?可免费查阅 
  29. ^ Yennie Jun. All languages are NOT created (tokenized) equal. Language models cost much more in some languages than others. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05). In other words, to express the same sentiment, some languages require up to 10 times more tokens. 
  30. ^ Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel. Language Model Tokenizers Introduce Unfairness Between Languages. NeurIPS. June 23, 2023 [September 16, 2023]. arXiv:2305.15425?可免费查阅. (原始内容存档于December 15, 2023) –通过openreview.net. 
  31. ^ OpenAI API. platform.openai.com. [2025-08-05]. (原始内容存档于April 23, 2023). 
  32. ^ Paa?, Gerhard; Giesselbach, Sven. Pre-trained Language Models. Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. 2022: 19–78 [3 August 2023]. ISBN 9783031231902. doi:10.1007/978-3-031-23190-2_2. (原始内容存档于3 August 2023). 
  33. ^ Petrov, Aleksandar; Emanuele La Malfa; Torr, Philip H. S.; Bibi, Adel. Language Model Tokenizers Introduce Unfairness Between Languages. 2023. arXiv:2305.15425?可免费查阅 [cs.CL]. 
  34. ^ Lundberg, Scott. The Art of Prompt Design: Prompt Boundaries and Token Healing. Medium. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05) (英语). 
  35. ^ Dodge, Jesse; Sap, Maarten; Marasovi?, Ana; Agnew, William; Ilharco, Gabriel; Groeneveld, Dirk; Mitchell, Margaret; Gardner, Matt. Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus. 2021. arXiv:2104.08758?可免费查阅 [cs.CL]. 
  36. ^ Lee, Katherine; Ippolito, Daphne; Nystrom, Andrew; Zhang, Chiyuan; Eck, Douglas; Callison-Burch, Chris; Carlini, Nicholas. Deduplicating Training Data Makes Language Models Better (PDF). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. May 2022,. 1: Long Papers: 8424–8445 [2025-08-05]. doi:10.18653/v1/2022.acl-long.577. (原始内容存档 (PDF)于2025-08-05). 
  37. ^ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat, Textbooks Are All You Need II: phi-1.5 technical report, 2025-08-05, arXiv:2309.05463?可免费查阅 
  38. ^ Lin, Zhenghao; Gou, Zhibin; Gong, Yeyun; Liu, Xiao; Shen, Yelong; Xu, Ruochen; Lin, Chen; Yang, Yujiu; Jiao, Jian. Rho-1: Not All Tokens Are What You Need. 2025-08-05. arXiv:2404.07965?可免费查阅 [cs.CL]. 
  39. ^ Brown, Tom B.; et al. Language Models are Few-Shot Learners. 2020. arXiv:2005.14165?可免费查阅 [cs.CL]. 
  40. ^ Abdin, Marah; Jacobs, Sam Ade; Awan, Ammar Ahmad; Aneja, Jyoti; Awadallah, Ahmed; Awadalla, Hany; Bach, Nguyen; Bahree, Amit; Bakhtiari, Arash. Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone. 2025-08-05. arXiv:2404.14219?可免费查阅 [cs.CL]. 
  41. ^ What is instruction tuning?. IBM. [2025-08-05]. (原始内容存档于2025-08-05). 
  42. ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan. Training language models to follow instructions with human feedback. 2022. arXiv:2203.02155?可免费查阅 [cs.CL]. 
  43. ^ Shazeer, Noam; Mirhoseini, Azalia; Maziarz, Krzysztof; Davis, Andy; Le, Quoc; Hinton, Geoffrey; Dean, Jeff. Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. 2025-08-05. arXiv:1701.06538?可免费查阅 [cs.LG]. 
  44. ^ Lepikhin, Dmitry; Lee, HyoukJoong; Xu, Yuanzhong; Chen, Dehao; Firat, Orhan; Huang, Yanping; Krikun, Maxim; Shazeer, Noam; Chen, Zhifeng. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. 2025-08-05. arXiv:2006.16668?可免费查阅 [cs.CL]. 
  45. ^ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William. Emergent Abilities of Large Language Models. Transactions on Machine Learning Research. 31 August 2022 [19 March 2023]. ISSN 2835-8856. (原始内容存档于22 March 2023). 
  46. ^ Allamar, Jay. Illustrated transformer. [2025-08-05]. (原始内容存档于2025-08-05). 
  47. ^ Allamar, Jay. The Illustrated GPT-2 (Visualizing Transformer Language Models). [2025-08-05]. (原始内容存档于2025-08-05). 
  48. ^ Paa?, Gerhard; Giesselbach, Sven. Pre-trained Language Models. Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. 2022: 19–78 [3 August 2023]. ISBN 9783031231902. doi:10.1007/978-3-031-23190-2_2. (原始内容存档于3 August 2023). 
  49. ^ Our next-generation model: Gemini 1.5. Google. 15 February 2024 [18 February 2024]. (原始内容存档于18 February 2024). 
  50. ^ Long context prompting for Claude 2.1. December 6, 2023 [January 20, 2024]. (原始内容存档于August 27, 2024). 
  51. ^ Rate limits. openai.com. [January 20, 2024]. (原始内容存档于February 2, 2024). 
  52. ^ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei. A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP. Proceedings of the Australasian Computer Science Week Multiconference. 4 February 2020: 1–4. ISBN 9781450376976. S2CID 211040895. arXiv:2104.10810?可免费查阅. doi:10.1145/3373017.3373028. 
  53. ^ Jurafsky, Dan; Martin, James H. Speech and Language Processing (PDF) 3rd edition draft. 7 January 2023 [24 May 2022]. (原始内容存档 (PDF)于23 March 2023). 
  54. ^ Jurafsky, Dan; Martin, James H. Speech and Language Processing (PDF) 3rd edition draft. 7 January 2023 [24 May 2022]. (原始内容存档 (PDF)于23 March 2023). 
  55. ^ Wiggers, Kyle. The emerging types of language models and why they matter. TechCrunch. 28 April 2022 [9 March 2023]. (原始内容存档于16 March 2023). 
  56. ^ Sharir, Or; Peleg, Barak; Shoham, Yoav. The Cost of Training NLP Models: A Concise Overview. 2020. arXiv:2004.08900?可免费查阅 [cs.CL]. 
  57. ^ Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai. Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling. April 2023. arXiv:2304.01373?可免费查阅 [cs.CL]. 
  58. ^ Maslej, Nestor; Fattorini, Loredana; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyons, Terah; Manyika, James; Ngo, Helen; Niebles, Juan Carlos, Artificial Intelligence Index Report 2023, 2025-08-05, arXiv:2310.03715?可免费查阅 
  59. ^ Section 2.1 and Table 1, Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario. Scaling Laws for Neural Language Models. 2020. arXiv:2001.08361?可免费查阅 [cs.LG]. 
  60. ^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich. Multimodal Neural Language Models. Proceedings of the 31st International Conference on Machine Learning (PMLR). 2025-08-05: 595–603 [2025-08-05]. (原始内容存档于2025-08-05). 
  61. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems (Curran Associates, Inc.). 2012, 25 [2025-08-05]. (原始内容存档于2025-08-05). 
  62. ^ Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi. VQA: Visual Question Answering. ICCV. 2015: 2425–2433 [2025-08-05]. (原始内容存档于2025-08-05). 
  63. ^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2025-08-05. arXiv:2301.12597?可免费查阅 [cs.CV]. 
  64. ^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao. Flamingo: a Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems. 2025-08-05, 35: 23716–23736 [2025-08-05]. arXiv:2204.14198?可免费查阅. (原始内容存档于2025-08-05). 
  65. ^ Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae. Visual Instruction Tuning. 2025-08-05. arXiv:2304.08485?可免费查阅 [cs.CV]. 
  66. ^ Zhang, Hang; Li, Xin; Bing, Lidong. Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding. 2025-08-05. arXiv:2306.02858?可免费查阅 [cs.CL]. 
  67. ^ OpenAI. GPT-4 Technical Report. 2025-08-05. arXiv:2303.08774?可免费查阅 [cs.CL]. 
  68. ^ OpenAI. GPT-4V(ision) System Card (PDF). September 25, 2023 [2025-08-05]. (原始内容存档 (PDF)于2025-08-05). 
  69. ^ Pichai, Sundar, Google Keynote (Google I/O '23), timestamp 15:31, 10 May 2023 [2025-08-05] 
  70. ^ Wiggers, Kyle. Mistral releases Pixtral 12B, its first multimodal model. TechCrunch. 11 September 2024 [14 September 2024]. (原始内容存档于2025-08-05). 
  71. ^ Introducing OpenAI o1-preview. OpenAI. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05). 
  72. ^ Introducing OpenAI o1-preview. OpenAI. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05). 
  73. ^ Metz, Cade. OpenAI Unveils New A.I. That Can 'Reason' Through Math and Science Problems. The New York Times. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05). 
  74. ^ Gibney, Elizabeth. China's cheap, open AI model DeepSeek thrills scientists. Nature. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05). 
  75. ^ Metz, Cade. OpenAI Unveils New A.I. That Can 'Reason' Through Math and Science Problems. The New York Times. 2025-08-05 [2025-08-05]. (原始内容存档于2025-08-05). 
  76. ^ 杨立昆:“AGI即将到来”完全是无稽之谈,真正的智能要建立在世界模型之上. 麻省理工科技评论中文版. 2025-08-05 [2025-08-05] (中文(中国大陆)). 
  77. ^ 苏霍伊;甲子光年. 杨立昆GTC对话实录:“AGI即将到来”完全是无稽之谈|甲子光年. 澎湃新闻. 2025-08-05 [2025-08-05] (中文(中国大陆)). 
  78. ^ Lei Huang; Weijiang Yu; Weitao Ma. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv. (原始内容存档于2025-08-05). 
  79. ^ Yucong Duan; Fuliang Tang; Zhendong Guo; Yingtian Mei; Yuxing Wang; Kunguang Wu; Zeyu Yang; Shuaishuai Huang; Shiming Gong. Global Large Language Model EQ and IQ Bias Evaluation -Released by DIKWP -AC Research Group. ResearchGate. 2023. doi:10.13140/RG.2.2.12894.61762 –通过ResearchGate (英语). 
  80. ^ Zhou, Karen; Tan, Chenhao. Bouamor, Houda; Pino, Juan; Bali, Kalika , 编. Entity-Based Evaluation of Political Bias in Automatic Summarization. Findings of the Association for Computational Linguistics: EMNLP 2023 (Singapore: Association for Computational Linguistics). 2023-12 [2025-08-05]. doi:10.18653/v1/2023.findings-emnlp.696. (原始内容存档于2025-08-05). 
  81. ^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Cultural Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26652.67200 –通过ResearchGate. 
  82. ^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Regional Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.10019.63529 –通过ResearchGate. 
  83. ^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Age Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26397.12006 –通过ResearchGate. 
  84. ^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Occupational Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.23041.67689 –通过ResearchGate. 
5.16是什么星座 胆红素高是什么原因 谷草谷丙比值偏高代表什么 洪字五行属什么 子宫后位什么意思
汗手是什么原因 什么是热辐射 胃火旺怎么调理吃什么药最好 肾阳虚吃什么食物 处女是什么意思
苎麻是什么 苦瓜汤为什么要放黄豆 甲状腺肿物是什么意思 以什么之名 什么水果蛋白质含量高
闪婚是什么意思 二甲双胍为什么晚上吃 pnp是什么意思 血脂和血糖有什么区别 吃什么指甲长得快
褪黑素有什么副作用hcv8jop4ns1r.cn 老虎菜为什么叫老虎菜hcv8jop7ns8r.cn 一个山一个空念什么hcv9jop2ns6r.cn 目鱼和墨鱼有什么区别hcv8jop0ns5r.cn kissme什么意思hcv8jop3ns1r.cn
盆腔炎是什么原因引起的hcv8jop1ns9r.cn 舒字属于五行属什么1949doufunao.com 钊字五行属什么youbangsi.com 鱼吃什么creativexi.com 胃胀不舒服吃什么药hcv9jop2ns9r.cn
乐话提醒业务是什么意思hcv7jop7ns4r.cn e站是什么hcv8jop2ns0r.cn 脸肿脚肿是什么原因引起的hcv7jop4ns7r.cn 国医堂是什么意思hcv9jop2ns4r.cn 7月份适合种什么菜beikeqingting.com
撇嘴是什么意思hcv8jop3ns8r.cn 睡觉打呼噜是什么原因jinxinzhichuang.com 什么叫耳石症hcv7jop7ns2r.cn 经期血块多是什么原因hcv9jop0ns2r.cn 经常喝咖啡有什么好处和坏处hcv9jop4ns3r.cn
百度