Hire a Linguist!: Learning Endangered Languages in LLMs with In-Context Linguistic Descriptions
Hire a Linguist!: Learning Endangered Languages in LLMs with In-Context Linguistic Descriptions
0 研究背景
LLMs依赖于大规模数据集,像英语或西班牙语这样的语言因为拥有丰富的数据资源,在机器翻译等NLP任务上就表现得较为优越。
但许多濒危语言缺乏足够语料,导致模型在这类语言上性能较差。
即使是目前支持语言种类最多的单一机器翻译模型LegoMT(支持433种语言),也无法扩展到濒危语言领域。作者认为,濒危语言的使用者也应当获得LLMs等NLP技术的公平支持。
尽管濒危语言没有丰富的语料库,但大多数拥有语言学描述资源(如语法书和词典)。研究正是针对如何高效利用这些资源来改进LLMs性能的问题。
1 研究目标
提出一种无需额外训练的解决方案LINGOLLM,通过在LLMs的prompt中融入语言学描述,来提升模型处理未见和濒危语言的能力。
这种方法避开了耗时耗力的模型再训练,具备较高的灵活性。
2 现有研究局限性
近年来,许多研究探索了LLMs在低资源语言上的应用。这些研究大多关注资源有限但仍然存在资源的语言。因此,LLMs在这些语言上仍然具有一定的翻译能力。
现有研究中提升LLMs在低资源语言上的表现的,主要有两种思路:
一种是提示工程,比如prompt中示例的选择、示例的顺序,加入思路链提示等方法。
一种是引入外部模块和知识,比如词性标注。
3 贡献/创新点
提出了 LINGOLLM 方法,旨在通过结合外部语言学资源(如形态学分析器、字典和语法书籍),增强语言模型在濒危语言上的表现。
4 方法设计
LINGOLLM方法通过提供语言学知识来使LLM能够处理濒危语言的文本。
4.1 Morphological Analysis: Source Sentence → Morphemes
形态学分析:源句 → 语素
利用形态学分析器,将一个词映射为一系列语素——即最小的有意义单位。
举例1
cats
⬇
cat + Noun + Plural
其中“cat”是词根,“+ Noun”和“+ Plural”是两个语法特征
举例2
sgasgitxu’m (Gitksan语)
⬇
sga-sgi-PASS-1PL
词根“sga”表示“阻塞”,词根“sgi”表示“躺在”,而语法特征PASS则表示这是一个被动语态的动词,1PL表示主语是复数第一人称。
4.2 Dictionary Mapping: Morphemes → Gloss
词典映射:语素 → 注释
将源语言的词汇映射到目标语言的对应词汇,并生成更加准确的翻译或词汇注释。
步骤 0:脚本标准化(Normalizing the Script)
步骤 1:决定输入是单词还是词根
步骤 2:寻找最接近的匹配
步骤 3:收集其他相关词汇
4.3 Incorporating Grammar Knowledge: Gloss → Translation and Beyond
融入语法知识:语素注解 → 翻译及其后续处理
通过提示语言模型融入语法知识,获取句子的语法信息(例如句子的主语是什么,或某个形容词修饰的是哪个名词)。
5 实验
Baselines:
1 零-shot 提示(Zero-shot prompting):直接给模型输入低资源语言文本,并用英语提供任务指令。模型被告知源语言和要执行的任务类型。
2 少量示例提示(Few-shot prompting):从验证集随机采样 3 个示例作为上下文示范,所有数据样本使用相同的示例。提示中仅包含这些示例的输入和输出。
3 零-shot 思维链提示(Zero-shot Chain-of-Thought):给模型提供类似“一步一步解决这个问题”的指令,要求模型逐步推理并输出答案。
Benchmarks:
1 翻译任务:评估满洲语、Gitksan 等濒危语言的翻译,使用 spBLEU 进行评估。
2 对话理解:通过回应选择任务,测试 LINGOLLM 对濒危语言对话的理解能力。
3 数学推理:评估 LINGOLLM 在濒危语言上的数学推理能力,解决 20 个数学问题。
4 单词排序和关键词到文本:测试 LINGOLLM 学习濒危语言句法结构的能力,通过 spBLEU 评估。
Results:
表 1:LINGOLLM 显著提高了 LLM 在低资源/濒危语言和高资源语言(如英语和西班牙语)之间的翻译能力。对于 8 种语言中的 7 种,GPT-4 和 Mixtral 在这些语言上的零-shot表现接近于零,使用 spBLEU 测量。LINGOLLM 将 GPT-4 的 BLEU 分数平均提高到 10.5。语言使用其 ISO 639-3 代码标注。详见附录 C。
表 2:LINGOLLM 生成的示例翻译,与真实翻译和少量示例基准进行比较。请注意,少量示例提示生成的翻译毫无意义,与实际翻译完全不相关。更多示例见表 8。
图 4:LINGOLLM 显著提高了 LLM 选择正确回应的能力。在所有三种濒危语言中,它的表现与高资源语言输入相当。
表 3:在数学推理、关键词到文本和单词排序任务中,LINGOLLM 显著提高了 GPT-4 的表现。
6 启发
1 将上下文学习应用到某一具体领域,再引入该领域相关的外部知识。如:濒危语言的词典及语法知识,古汉语文本的词性标注等。这将考验跨学科的知识整合能力,并鼓励多视角看待问题。
2 提出了“濒危语言使用者也应当拥有使用LLM的权利”这一研究动机,升华论文主旨。
3 作者找到了大语言模型比较弱甚至是没有的能力(翻译濒危语言),且当前这方面研究也不多,因此感觉实验也会好做一些。
7 局限性
1 形态学分析器的缺乏:濒危语言通常缺乏现代化的大型语料库,语言资源匮乏,导致现有的形态学分析器较少。这就需要语言学家依赖有限的文本和语言描述手动构建规则和工具。
2 字典或语法信息难以数字化:许多濒危语言的字典或语法数据仅有实体书记录,论文采用OCR方式数字化,准确率并不很高且有些小众语言的字母难以记录。
3 语言的多样性:本文仅选择了八种濒危语言,所消耗的人力成本已经较高,考虑到各种语言都有自己的特色,所需处理的细节将会非常多。
4 上下文长度限制:未考虑较长上下文所带来的影响。