人工智能与小语种灭绝之忧

09:00 | 14/02/2024

目前，ChatGPT 正式支持世界上存在的 7000 种语言中的 95 种语言。这意味着近99%的语言尚未在人工智能环境中找到话语权。

越南与国际人力资源合作培养人工智能和半导体芯片以负责任的方式开发人工智能为人类服务并推动社会进步政府副总理武德儋：促进各行业之间人工智能的应用力度

根据 ChatGPT 所有者 OpenAI 的主页显示，全球每月有多达 1.8 亿人在使用 ChatGPT。每天，人类和机器之间都会产生数十亿次对话。但在这数十亿次对话中，我们看到了小语种的缺失。每一种语言都是一个民族的骄傲。它不仅是一种交流方式，也是一种文化宝库，蕴含着每个社群独特的智慧、知识和情感。然而，在生成式人工智慧的游戏中，许多语言都面临着被遗忘的风险。机器通过通用语言学习“说”和“听”。与此同时，拥有独特语言的小社群的声音陷入沉默，甚至可能消亡。

大型语言模型（LLM）

在人工智能研究的众多分支中，有一个分支叫生成式人工智能，而在生成式人工智能的众多分支中，有一个分支受到市场极大的关注，它就是大型语言模型（Large language models - LLM）。简而言之，每个大型语言模型都是为预测下一个单词而创建的机器。这就像玩“神奇的斗笠”这个游戏节目一样。主持人会给出谜语和答案中的字母数量，你的任务就是猜答案是什么。

机器非常善于这种语言游戏。他们将使用统计概率结合语境来猜测哪个字母最有可能与答案匹配。在高级层面，它会猜出哪个句子、段落和想法是最合适的答案。就像人类一样，这些机器需要足够的词汇和知识才能回答问题。在计算机科学中，人们称之为数据。

人工智能AI 人工智能是未来技术发展趋势越南促进人工智能产业发展

据 BBC Science Focus 报道，GPT3 机器接受了 570 GB 过滤文本数据的训练。该文档包含约 3000 亿字，相当于打印在 A4 纸上约 8.5 亿页文字，Arial 字体大小为12pt。

这些数字非常令人印象深刻，但这个数据源仍然只是人类信息库很小的一部分。这个信息库的质量根本无法与世界各大图书馆相比，甚至可以说里面还混杂着无数杂七杂八的东西。值得一提的是，该数据库9/10以上来自英文文档。法语、德语、西班牙语和意大利语等其他语言占据了剩余蛋糕的大部分。世界上所有其他语言所占据的容量就像一片薄薄的稻叶。

ChatGPT的主要数据源

这一点在 ChatGPT 的质量上显而易见。 GPT 3.5 和GPT 4可以用流畅的英语回答问题，但在使用越南语时会却经常出现许多荒谬的错误，经常产生无意义的段落和语法表达不准确。

简而言之，质量数据越多，大型语言模型的猜测就越好。反之亦然，数据越少，越好的数据就会出现低质量的语言模型。正如技术人员常说的：如果输入是垃圾，那么输出也是垃圾。

因此，即使拥有最先进的技术，大型语言模型仍然无法触及人类语言和文化的丰富性。

濒危语言

根据联合国教科文组织国际土著语言十年计划，世界上大约有7000种语言在使用。但每隔两周，人类就会失去一种语言。也就是说，最后一个掌握该语言的人死亡或失去了沟通的能力。据预测，到21世纪末，我们将见证约3000种语言的消失。

濒危语言大多属于少数民族。为了获得发展机会，许多社群不得不逐渐放弃传统语言，与其他语言融合。富裕人群的共同语言在经济、政治、教育和技术领域发挥着巨大作用。

如果你是南太平洋岛屿上讲纳蒂（Naati）语的土著人，你会整天和游客说中文，阅读英文报纸，用法语填写结婚文件，用比斯拉马语与同事交谈。你什么时候说纳蒂语？也许是在梦里。因为你是最后一个还能精通纳蒂语的人。

在更极端的情况下，例如像 19 世纪末的美洲土著人那样，当地政府使用暴力迫使人民放弃自己的语言。

失去语言的民族将失去向祖先学习的机会。他们在心理上感到迷茫，缺乏独特性和根源。当他们认识不到自己是谁时，他们就无法与社群建立联系。独自生活在喧嚣的世界里，这些人会感到无助、悲伤、失落，甚至有忘本的危险。

随着每种语言的消失，人类文化、智力和创造力的多样性也随之消失。如果失去了一种语言，人类的视角就会更加单调。如果失去多种语言，人类的视角就会变得偏颇和狭隘。一些主流语言中的思想由于不会遇到正确和必要的反驳而占据主导地位。

这些语言中曾经流行的数据将变得更加流行。而其他用不太常见的语言表达的数据将逐渐消失，尽管它们也非常有价值。

人工智能：偏见的延伸

2017年，著名杂志《国家地理》的内部调查显示，1970年之前，他们的报道充满了对有色人种的歧视。该杂志诞生于殖民主义鼎盛时期，深受种族主义意识形态的影响。

有色人种总是穿着暴露的衣服，尤其是女性。他们以一种奇异、狂野、落后的视角被描绘出来，通常在面对西方现代机械时感到兴奋和震惊。

参加调查的摄影历史学家约翰·埃德温·梅森评论说：美国人从《人猿泰山》等流行电影和种族歧视的粗俗漫画中汲取灵感来反映世界。我们在20世纪初法国拍摄的越南照片中也可以看到类似的偏见。

本以为过去的事情已经过去了，但2015年，杂志上刊登的一张名为《Come up for air》的照片引发了争议。照片显示印度城市瓦拉纳西的一个屋顶鸟瞰图。那栋房子的屋顶上是一个包括妇女和儿童在内的十多口人的家庭，他们正在睡觉，里面还有一名赤裸的婴儿。

反对者称《国家地理》正在使用双重标准。如果这张照片是西方白人家庭的照片，这本杂志就不会刊登。他们将因侵犯隐私而被起诉。但这是印度，诉讼的可能性低得多，没有什么可担心的。

在“互联网的汪洋大海”中，此类带有偏见的数据就像塑料垃圾一样多。获得从互联网上收集的数百万条文本“教学”，大型语言模型不仅学习如何使用该语言，还吸收了偏见和不准确的信息。学什么就说什么，人工智能都会产生有偏见和歧视性的答案，尤其是在谈论种族、宗教、性别和政治等敏感问题时。

Open AI表示，他们一直关心弱势群体，并尽一切努力防止有毒意识形态，致力于创造没有偏见并以道德方式反映世界的人工智能。如果这是真的，这对于当今时期的人类来说将是一项值得珍重且意义重大的努力。

但各大互联网服务商也表示了同样的看法。 Youtube、Tiktok、Instagram、Facebook等都表示他们已经努力营造一个健康的环境。结果如何，用户已经看到了。正如歌手Đen Vâu在歌曲《今天有特别多的云》（Trời hôm nay nhiều mây cực）中所说：“在森林里比在互联网上更安全。”

2024 年 1 月发布在 arxiv.org 上的一项名为“在人工智能的未来之中的数以千计的人工智能作者”（Thousands of AI Authors on the Future of AI）的调查对人工智能的未来做出了许多有趣的预测。例如，到 2028 年，人工智能至少有 50% 的机会可以创作出与主要艺术家相同的歌曲，或者从头到尾自动构建一个支付网站。这是一项针对 2778 名全球领先人工智能研究人员进行的民意调查。这是每年进行的一项调查。每年，研究人员都会对人工智能未来的里程碑做出新的、更早的、更有力的预测。这意味着事情的发展速度比专家们预测的要快。

如果这个预测正确，任何知道如何使用人工智能的人都可以成为音乐家和作家。这也意味着，如果某个偏见或偏差通过了人工智能过滤器，它就可以被多次扩大。在充满这种偏见和偏差的环境中，社群和文化之间的歧视和分歧将会越来越大。最终，弱势群体的权利将受到严重损害。

不常用语言面临的挑战

为剩下的 99%创大型语言模型面临着许多障碍。首先，许多小语种没有足够的文本或语音数据来创造语言模型。这包括高质量、多样化且具有该语言代表性的数据。

二是，即使语言资源丰富，收集起来也不像去超市那么简单。我们需要一支由语言学家、民族学家、历史和文化研究人员等组成的强大力量来仔细且专业地收集、评估和验证数据。我们从哪里找到大量的社会科学家和人文学科家来数字化剩下的7000种语言呢？

三是，许多少数民族社群也无法访问互联网，他们创建的有关自己民族的数据量微不足道。

四是，与主要语言相比，少数民族的语言结构和词汇往往有很大不同。我们将需要适应独特语言的新语言模型。

最后是钱。谁来付钱以实施如此艰巨的任务？当今的大型语言模型都是由私营公司构建的。这些公司显然是要盈利的，而少数人语言的盈利能力则非常不确定。

然而，我们仍然有理由抱有希望。像 ChatGPT 这样的大型语言模型变得越来越智能，需要更少的数据，但可以提供准确的结果。从相反的方向来看，人工智能可以帮助语言学家恢复濒临消失的语言。

据Statistica网站统计，2023年全球人工智能市场规模约为2079亿美元。到2030年，咨询公司预计这一数字将增加3倍至7倍。随着如此大量的资金涌入市场，希望人类将有足够的资源来为鲜为人知的语言创建大型语言模型。目前，有奉献精神的个人也在寻找通过社交网络相互联系的方法，以创建自己的大型语言模型。虽然这些只是微小的努力，但它给未来带来了希望，当人工智能普及时，各社群将能够创建自己的大型语言模型。

希望那些开发人工智能的人，尤其是大型语言模型领域，能够为小语种腾出生存空间。因为那是文化，是人类文明的核心。与算法和无情机器不同，人工智能创造者有人心。