在python下实现word2vec词向量训练与加载实例-猿码集

1. 什么是word2vec

Word2vec是一种基于神经网络的模型，主要用于生成词向量。词向量是将词语映射到向量空间中的一种方式，每个词语对应一个n维向量，其中n是词向量的维度。通过对向量空间中的文本进行计算，可以得到同义词、反义词等词之间的相似度。

Word2vec模型包含两个部分：

1.1 CBOW模型

CBOW（continuous bag of words）模型是一种通过上下文预测中心词语的方法。CBOW模型的基本思路是将上下文中所有词语的词向量相加，得到的和作为中心词语的预测。


from gensim.models import Word2Vec
# 训练CBOW模型
model_cbow = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4, sg=0)

以上代码创建了一个CBOW模型，其中sentences是一个包含语料库中所有句子的列表，size是词向量的维度，window是上下文词窗口的大小，min_count是在语料库中出现次数不足min_count的词语将被忽略，workers是用于训练的线程数，sg表示使用CBOW模型。

1.2 Skip-gram模型

Skip-gram模型是一种通过中心词语预测上下文的方法。Skip-gram模型的基本思路是将中心词语的词向量作为输入，得到的输出是上下文词语的预测。


from gensim.models import Word2Vec
# 训练Skip-gram模型
model_skip = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4, sg=1)

以上代码创建了一个Skip-gram模型，其中参数设置与CBOW模型相同，sg=1表示使用Skip-gram模型。

2. 如何训练word2vec模型

在训练Word2vec模型前，需要准备语料库。语料库可以是一个大型文本文件，也可以是多个小型文本文件的集合。对于中文语料库，需要先对文本进行分词。

2.1 语料库预处理

语料库预处理主要是将原始文本转换为一个包含所有句子的列表。


import jieba
# 读取文件
with open('corpus.txt', 'r', encoding='utf-8') as f:
    text = f.read()
# 分词
sentences = [jieba.lcut(sen) for sen in text.split('\n')]

以上代码实现了对一个名为"corpus.txt"的文件进行分词，并将分词结果保存到sentences列表中。

2.2 训练模型

按照前面提到的CBOW和Skip-gram两种模型的训练方法，可以在python下使用gensim库的Word2Vec模型训练word2vec模型。


from gensim.models import Word2Vec
# 训练CBOW模型
model_cbow = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4, sg=0)
# 训练Skip-gram模型
model_skip = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4, sg=1)

以上代码分别创建了一个CBOW模型和一个Skip-gram模型。

2.3 保存模型

训练完成后，需要将模型保存到本地，以便后续使用。


# 保存CBOW模型
model_cbow.save('model_cbow')
# 保存Skip-gram模型
model_skip.save('model_skip')

以上代码分别将CBOW模型和Skip-gram模型保存到文件"model_cbow"和"model_skip"中。

3. 如何使用训练好的word2vec模型

对于已经训练好的Word2vec模型，可以通过加载模型，使用模型提供的方法来进行应用。

3.1 加载模型

使用gensim库的Word2Vec类的load方法可以加载已经保存的模型。


from gensim.models import Word2Vec
# 加载CBOW模型
model_cbow = Word2Vec.load('model_cbow')
# 加载Skip-gram模型
model_skip = Word2Vec.load('model_skip')

以上代码分别加载了文件"model_cbow"和"model_skip"中的CBOW模型和Skip-gram模型。

3.2 获取词向量

使用训练好的Word2vec模型可以获取每个词语对应的词向量。


# 获取单词"中国"的词向量
vector = model_cbow['中国']

以上代码获取了单词"中国"对应的词向量。

3.3 获取相似词语

使用训练好的Word2vec模型可以获取某个词语在向量空间中的相似词语。


# 获取与单词"中国"最相似的10个词语
similar_words = model_cbow.most_similar('中国', topn=10)

以上代码获取了与单词"中国"最相似的10个词语。

4. 总结

本文介绍了如何在python下使用gensim库训练word2vec模型，以及如何使用训练好的模型进行应用。Word2vec是一个非常实用的NLP工具，可以用于情感分析、文本分类、相似度计算等多个领域。希望本文能够对读者在NLP领域的学习与实践有所帮助。

在python下实现word2vec词向量训练与加载实例