人工智能与小语种灭绝之忧

09:00 | 14/02/2024

目前,ChatGPT 正式支持世界上存在的 7000 种语言中的 95 种语言。 这意味着近99%的语言尚未在人工智能环境中找到话语权。
越南与国际人力资源合作培养人工智能和半导体芯片 以负责任的方式开发人工智能 为人类服务并推动社会进步 政府副总理武德儋:促进各行业之间人工智能的应用力度
人工智能与小语种灭绝之忧

根据 ChatGPT 所有者 OpenAI 的主页显示,全球每月有多达 1.8 亿人在使用 ChatGPT。 每天,人类和机器之间都会产生数十亿次对话。 但在这数十亿次对话中,我们看到了小语种的缺失。 每一种语言都是一个民族的骄傲。 它不仅是一种交流方式,也是一种文化宝库,蕴含着每个社群独特的智慧、知识和情感。然而,在生成式人工智慧的游戏中,许多语言都面临着被遗忘的风险。 机器通过通用语言学习“说”和“听”。 与此同时,拥有独特语言的小社群的声音陷入沉默,甚至可能消亡。

大型语言模型(LLM)

人工智能研究的众多分支中,有一个分支叫生成式人工智能,而在生成式人工智能的众多分支中,有一个分支受到市场极大的关注,它就是大型语言模型(Large language models - LLM)。 简而言之,每个大型语言模型都是为预测下一个单词而创建的机器。 这就像玩“神奇的斗笠”这个游戏节目一样。主持人会给出谜语和答案中的字母数量,你的任务就是猜答案是什么。

机器非常善于这种语言游戏。 他们将使用统计概率结合语境来猜测哪个字母最有可能与答案匹配。 在高级层面,它会猜出哪个句子、段落和想法是最合适的答案。 就像人类一样,这些机器需要足够的词汇和知识才能回答问题。 在计算机科学中,人们称之为数据。

人工智能AI 人工智能是未来技术发展趋势 越南促进人工智能产业发展

据 BBC Science Focus 报道,GPT3 机器接受了 570 GB 过滤文本数据的训练。 该文档包含约 3000 亿字,相当于打印在 A4 纸上约 8.5 亿页文字,Arial 字体大小 为12pt。

这些数字非常令人印象深刻,但这个数据源仍然只是人类信息库很小的一部分。 这个信息库的质量根本无法与世界各大图书馆相比,甚至可以说里面还混杂着无数杂七杂八的东西。 值得一提的是,该数据库9/10以上来自英文文档。 法语、德语、西班牙语和意大利语等其他语言占据了剩余蛋糕的大部分。 世界上所有其他语言所占据的容量就像一片薄薄的稻叶。

ChatGPT的主要数据源

这一点在 ChatGPT 的质量上显而易见。 GPT 3.5 和GPT 4可以用流畅的英语回答问题,但在使用越南语时会却经常出现许多荒谬的错误,经常产生无意义的段落和语法表达不准确。

简而言之,质量数据越多,大型语言模型的猜测就越好。 反之亦然,数据越少,越好的数据就会出现低质量的语言模型。 正如技术人员常说的:如果输入是垃圾,那么输出也是垃圾。

因此,即使拥有最先进的技术,大型语言模型仍然无法触及人类语言和文化的丰富性。

濒危语言

人工智能与小语种灭绝之忧

根据联合国教科文组织国际土著语言十年计划,世界上大约有7000种语言在使用。 但每隔两周,人类就会失去一种语言。 也就是说,最后一个掌握该语言的人死亡或失去了沟通的能力。 据预测,到21世纪末,我们将见证约3000种语言的消失。

濒危语言大多属于少数民族。 为了获得发展机会,许多社群不得不逐渐放弃传统语言,与其他语言融合。 富裕人群的共同语言在经济、政治、教育和技术领域发挥着巨大作用。

如果你是南太平洋岛屿上讲纳蒂(Naati)语的土著人,你会整天和游客说中文,阅读英文报纸,用法语填写结婚文件,用比斯拉马语与同事交谈。 你什么时候说纳蒂语? 也许是在梦里。 因为你是最后一个还能精通纳蒂语的人。

在更极端的情况下,例如像 19 世纪末的美洲土著人那样,当地政府使用暴力迫使人民放弃自己的语言。

失去语言的民族将失去向祖先学习的机会。 他们在心理上感到迷茫,缺乏独特性和根源。 当他们认识不到自己是谁时,他们就无法与社群建立联系。 独自生活在喧嚣的世界里,这些人会感到无助、悲伤、失落,甚至有忘本的危险。

随着每种语言的消失,人类文化、智力和创造力的多样性也随之消失。 如果失去了一种语言,人类的视角就会更加单调。 如果失去多种语言,人类的视角就会变得偏颇和狭隘。一些主流语言中的思想由于不会遇到正确和必要的反驳而占据主导地位。

这些语言中曾经流行的数据将变得更加流行。 而其他用不太常见的语言表达的数据将逐渐消失,尽管它们也非常有价值。

人工智能:偏见的延伸

人工智能与小语种灭绝之忧

2017年,著名杂志《国家地理》的内部调查显示,1970年之前,他们的报道充满了对有色人种的歧视。 该杂志诞生于殖民主义鼎盛时期,深受种族主义意识形态的影响。

有色人种总是穿着暴露的衣服,尤其是女性。 他们以一种奇异、狂野、落后的视角被描绘出来,通常在面对西方现代机械时感到兴奋和震惊。

参加调查的摄影历史学家约翰·埃德温·梅森评论说:美国人从《人猿泰山》等流行电影和种族歧视的粗俗漫画中汲取灵感来反映世界。 我们在20世纪初法国拍摄的越南照片中也可以看到类似的偏见。

本以为过去的事情已经过去了,但2015年,杂志上刊登的一张名为《Come up for air》的照片引发了争议。 照片显示印度城市瓦拉纳西的一个屋顶鸟瞰图。 那栋房子的屋顶上是一个包括妇女和儿童在内的十多口人的家庭,他们正在睡觉,里面还有一名赤裸的婴儿。

反对者称《国家地理》正在使用双重标准。 如果这张照片是西方白人家庭的照片,这本杂志就不会刊登。 他们将因侵犯隐私而被起诉。 但这是印度,诉讼的可能性低得多,没有什么可担心的。

在“互联网的汪洋大海”中,此类带有偏见的数据就像塑料垃圾一样多。获得从互联网上收集的数百万条文本“教学”,大型语言模型不仅学习如何使用该语言,还吸收了偏见和不准确的信息。 学什么就说什么,人工智能都会产生有偏见和歧视性的答案,尤其是在谈论种族、宗教、性别和政治等敏感问题时。

Open AI表示,他们一直关心弱势群体,并尽一切努力防止有毒意识形态,致力于创造没有偏见并以道德方式反映世界的人工智能。 如果这是真的,这对于当今时期的人类来说将是一项值得珍重且意义重大的努力。

但各大互联网服务商也表示了同样的看法。 Youtube、Tiktok、Instagram、Facebook等都表示他们已经努力营造一个健康的环境。结果如何,用户已经看到了。 正如歌手Đen Vâu在歌曲《今天有特别多的云》(Trời hôm nay nhiều mây cực)中所说:“在森林里比在互联网上更安全。”

2024 年 1 月发布在 arxiv.org 上的一项名为“在人工智能的未来之中的数以千计的人工智能作者”(Thousands of AI Authors on the Future of AI)的调查对人工智能的未来做出了许多有趣的预测。例如,到 2028 年,人工智能至少有 50% 的机会可以创作出与主要艺术家相同的歌曲,或者从头到尾自动构建一个支付网站。 这是一项针对 2778 名全球领先人工智能研究人员进行的民意调查。 这是每年进行的一项调查。 每年,研究人员都会对人工智能未来的里程碑做出新的、更早的、更有力的预测。 这意味着事情的发展速度比专家们预测的要快。

如果这个预测正确,任何知道如何使用人工智能的人都可以成为音乐家和作家。 这也意味着,如果某个偏见或偏差通过了人工智能过滤器,它就可以被多次扩大。 在充满这种偏见和偏差的环境中,社群和文化之间的歧视和分歧将会越来越大。 最终,弱势群体的权利将受到严重损害。

不常用语言面临的挑战

人工智能与小语种灭绝之忧

为剩下的 99%创大型语言模型面临着许多障碍。 首先,许多小语种没有足够的文本或语音数据来创造语言模型。 这包括高质量、多样化且具有该语言代表性的数据。

二是,即使语言资源丰富,收集起来也不像去超市那么简单。 我们需要一支由语言学家、民族学家、历史和文化研究人员等组成的强大力量来仔细且专业地收集、评估和验证数据。我们从哪里找到大量的社会科学家和人文学科家来数字化剩下的7000种语言呢?

三是,许多少数民族社群也无法访问互联网,他们创建的有关自己民族的数据量微不足道。

四是,与主要语言相比,少数民族的语言结构和词汇往往有很大不同。 我们将需要适应独特语言的新语言模型。

最后是钱。 谁来付钱以实施如此艰巨的任务? 当今的大型语言模型都是由私营公司构建的。 这些公司显然是要盈利的,而少数人语言的盈利能力则非常不确定。

然而,我们仍然有理由抱有希望。 像 ChatGPT 这样的大型语言模型变得越来越智能,需要更少的数据,但可以提供准确的结果。 从相反的方向来看,人工智能可以帮助语言学家恢复濒临消失的语言。

据Statistica网站统计,2023年全球人工智能市场规模约为2079亿美元。 到2030年,咨询公司预计这一数字将增加3倍至7倍。 随着如此大量的资金涌入市场,希望人类将有足够的资源来为鲜为人知的语言创建大型语言模型。目前,有奉献精神的个人也在寻找通过社交网络相互联系的方法,以创建自己的大型语言模型。 虽然这些只是微小的努力,但它给未来带来了希望,当人工智能普及时,各社群将能够创建自己的大型语言模型。

希望那些开发人工智能的人,尤其是大型语言模型领域,能够为小语种腾出生存空间。 因为那是文化,是人类文明的核心。 与算法和无情机器不同,人工智能创造者有人心。

相关新闻

新闻

越南努力吸引国际科学人才

越南努力吸引国际科学人才

近年来,越南被视为吸引国际科学人才的目的地。越南制定了系列重视人才政策,大力培养高素质人力资源,努力建设一支素质优良且充满活力的知识分子队伍,不断提高人民的知识水平,将对知识分子队伍建设的投资视为对可持续发展的投资。
打造创新创业生态系统

打造创新创业生态系统

越南创意创业生态系统基本度过第一阶段,并正在进入第二阶段,与世界创意创业生态系统相融合。
2024年劳务外派工作目标提前完成

2024年劳务外派工作目标提前完成

2024年前10个月,越南向境外派出各类劳务人员130640人(其中女性劳工41039人),达到2024年全年计划的104%。
义安省:关注特殊地区的社会保障政策、儿童保护与关爱工作以及性别平等问题

义安省:关注特殊地区的社会保障政策、儿童保护与关爱工作以及性别平等问题

近年来,义安省在确保和促进人权方面得到了高度重视,尤其是在特殊地区的社会保障政策、困难群众的帮扶以及儿童保护、关爱工作和性别平等问题上得到了更多关注。
马文养鸭项目:为论溪乡居民生活带来温暖之火

马文养鸭项目:为论溪乡居民生活带来温暖之火

Mavin养鸭项目在论溪的积极成效促使常春县的新成乡计划将该模式推广到80个贫困和接近贫困的家庭。地方政府和居民希望该项目继续推广,帮助常春县1,000户家庭脱贫,为儿童和贫困家庭带来更美好的生活。
至善基金会为承天顺化省601名贫困学生颁发奖学金

至善基金会为承天顺化省601名贫困学生颁发奖学金

除了物质上的帮助,至善基金会还通过为学业优异、考入高中或在各类学术竞赛中获奖的学生提供丰富的奖品,鼓励和激励他们的精神。
发挥青年智慧,积极应对气候变化挑战

发挥青年智慧,积极应对气候变化挑战

这场以“青年参与越南公正能源转型的过程”为主题的座谈会,是由德国驻河内大使馆发起的一系列活动之一。
为义安省西部边境县泰族同胞修建防洪大桥开工

为义安省西部边境县泰族同胞修建防洪大桥开工

此次项目体现了对当地居民的关怀与分享,希望通过此桥帮助古村和紧埔村的同胞解决出行问题,让他们在雨季期间不再需要翻山涉水,保障安全、便利的交通条件。桂峰县人民议会副主席表示,县政府将尽一切努力为捐助方和施工单位提供便利,确保工程顺利完工,早日投入使用,服务当地居民。
查看更多