0 什么是词嵌入
词嵌入,Word Embedding 可以将词汇表中的词或短语映射为固定长度的向量。
通过词嵌入,我们可以把one-hot所表示的高维稀疏向量,转换为低维且连续的向量。
1 两个特征
如果把这个例子中的七维向量降维至二维平面,可以发现语义相近的词语之间的距离也比较近。
还有一个比较有意思的:
2 总结
词嵌入技术,能够有效的将自然语言中的词语转换为数值向量,从而表达词语之间的语义关系。
3 词嵌入算法
有很多词嵌入算法,比如word2vec、fasttext、Glove等,他们可以训练出一个通用的嵌入矩阵。
嵌入矩阵的行:语料库中词语的个数
嵌入矩阵的列:表示词语的维度
计算过程:
矩阵V是每个词语的one-hot编码,E是嵌入矩阵,意为,嵌入矩阵就是语料库中五千个词语,每个词语是一个128维向量,V去乘E,相当于把每个词的128维向量取出来。
4 总结
嵌入矩阵是词嵌入的关键,通过将one-hot编码表示的词与嵌入矩阵相乘,就可以将高位稀疏的矩阵键入到一个低维稠密的矩阵中。
5 词嵌入的优势
- 表达效率的提升:高维稀疏 -> 地位稠密
- 理解词语的语义:可理解词语语义,并进行词语推理,语义相似的词在向量空间的距离也更近
- 嵌入矩阵的通用性:one-hot编码不具备通用性,不同预料的one-hot编码一般不同;嵌入矩阵是通用的:同一份词向量可用于不同的NPLP任务