文章目录

Hire a Linguist!: Learning Endangered Languages in LLMs with In-Context Linguistic Descriptions

【PAPER】雇一名语言学家！通过上下文语言描述学习濒危语言

于 2024-11-28 由 MisakaStone 发布

Hire a Linguist!: Learning Endangered Languages in LLMs with In-Context Linguistic Descriptions

Hire a Linguist!: Learning Endangered Languages in LLMs with In-Context Linguistic Descriptions

0 研究背景

LLMs依赖于大规模数据集，像英语或西班牙语这样的语言因为拥有丰富的数据资源，在机器翻译等NLP任务上就表现得较为优越。

但许多濒危语言缺乏足够语料，导致模型在这类语言上性能较差。

即使是目前支持语言种类最多的单一机器翻译模型LegoMT（支持433种语言），也无法扩展到濒危语言领域。作者认为，濒危语言的使用者也应当获得LLMs等NLP技术的公平支持。

尽管濒危语言没有丰富的语料库，但大多数拥有语言学描述资源（如语法书和词典）。研究正是针对如何高效利用这些资源来改进LLMs性能的问题。

1 研究目标

提出一种无需额外训练的解决方案LINGOLLM，通过在LLMs的prompt中融入语言学描述，来提升模型处理未见和濒危语言的能力。

这种方法避开了耗时耗力的模型再训练，具备较高的灵活性。

2 现有研究局限性

近年来，许多研究探索了LLMs在低资源语言上的应用。这些研究大多关注资源有限但仍然存在资源的语言。因此，LLMs在这些语言上仍然具有一定的翻译能力。

现有研究中提升LLMs在低资源语言上的表现的，主要有两种思路：

一种是提示工程，比如prompt中示例的选择、示例的顺序，加入思路链提示等方法。

一种是引入外部模块和知识，比如词性标注。

3 贡献/创新点

提出了 LINGOLLM 方法，旨在通过结合外部语言学资源（如形态学分析器、字典和语法书籍），增强语言模型在濒危语言上的表现。

4 方法设计

LINGOLLM方法通过提供语言学知识来使LLM能够处理濒危语言的文本。

4.1 Morphological Analysis: Source Sentence → Morphemes

形态学分析：源句 → 语素

利用形态学分析器，将一个词映射为一系列语素——即最小的有意义单位。

举例1

cats
⬇
cat + Noun + Plural

其中“cat”是词根，“+ Noun”和“+ Plural”是两个语法特征

举例2

sgasgitxu’m （Gitksan语）
⬇
sga-sgi-PASS-1PL

词根“sga”表示“阻塞”，词根“sgi”表示“躺在”，而语法特征PASS则表示这是一个被动语态的动词，1PL表示主语是复数第一人称。

4.2 Dictionary Mapping: Morphemes → Gloss

词典映射：语素 → 注释

将源语言的词汇映射到目标语言的对应词汇，并生成更加准确的翻译或词汇注释。

步骤 0：脚本标准化（Normalizing the Script）

步骤 1：决定输入是单词还是词根

步骤 2：寻找最接近的匹配

步骤 3：收集其他相关词汇

4.3 Incorporating Grammar Knowledge: Gloss → Translation and Beyond

融入语法知识：语素注解 → 翻译及其后续处理

通过提示语言模型融入语法知识，获取句子的语法信息（例如句子的主语是什么，或某个形容词修饰的是哪个名词）。

5 实验

Baselines：

1 零-shot 提示（Zero-shot prompting）：直接给模型输入低资源语言文本，并用英语提供任务指令。模型被告知源语言和要执行的任务类型。

2 少量示例提示（Few-shot prompting）：从验证集随机采样 3 个示例作为上下文示范，所有数据样本使用相同的示例。提示中仅包含这些示例的输入和输出。

3 零-shot 思维链提示（Zero-shot Chain-of-Thought）：给模型提供类似“一步一步解决这个问题”的指令，要求模型逐步推理并输出答案。

Benchmarks:

1 翻译任务：评估满洲语、Gitksan 等濒危语言的翻译，使用 spBLEU 进行评估。

2 对话理解：通过回应选择任务，测试 LINGOLLM 对濒危语言对话的理解能力。

3 数学推理：评估 LINGOLLM 在濒危语言上的数学推理能力，解决 20 个数学问题。

4 单词排序和关键词到文本：测试 LINGOLLM 学习濒危语言句法结构的能力，通过 spBLEU 评估。

Results:

表 1：LINGOLLM 显著提高了 LLM 在低资源/濒危语言和高资源语言（如英语和西班牙语）之间的翻译能力。对于 8 种语言中的 7 种，GPT-4 和 Mixtral 在这些语言上的零-shot表现接近于零，使用 spBLEU 测量。LINGOLLM 将 GPT-4 的 BLEU 分数平均提高到 10.5。语言使用其 ISO 639-3 代码标注。详见附录 C。

table1

表 2：LINGOLLM 生成的示例翻译，与真实翻译和少量示例基准进行比较。请注意，少量示例提示生成的翻译毫无意义，与实际翻译完全不相关。更多示例见表 8。

table2

图 4：LINGOLLM 显著提高了 LLM 选择正确回应的能力。在所有三种濒危语言中，它的表现与高资源语言输入相当。

表 3：在数学推理、关键词到文本和单词排序任务中，LINGOLLM 显著提高了 GPT-4 的表现。

table3

6 启发

1 将上下文学习应用到某一具体领域，再引入该领域相关的外部知识。如：濒危语言的词典及语法知识，古汉语文本的词性标注等。这将考验跨学科的知识整合能力，并鼓励多视角看待问题。

2 提出了“濒危语言使用者也应当拥有使用LLM的权利”这一研究动机，升华论文主旨。

3 作者找到了大语言模型比较弱甚至是没有的能力（翻译濒危语言），且当前这方面研究也不多，因此感觉实验也会好做一些。

7 局限性

1 形态学分析器的缺乏：濒危语言通常缺乏现代化的大型语料库，语言资源匮乏，导致现有的形态学分析器较少。这就需要语言学家依赖有限的文本和语言描述手动构建规则和工具。

2 字典或语法信息难以数字化：许多濒危语言的字典或语法数据仅有实体书记录，论文采用OCR方式数字化，准确率并不很高且有些小众语言的字母难以记录。

3 语言的多样性：本文仅选择了八种濒危语言，所消耗的人力成本已经较高，考虑到各种语言都有自己的特色，所需处理的细节将会非常多。

4 上下文长度限制：未考虑较长上下文所带来的影响。

分类：默认分类
标签：笔记论文上下文学习

御坂领域