【Pytorch】学习记录分享8——PyTorch自然语言处理基础-词向量模型Word2Vec

2023-12-27 12:16:30

【Pytorch】学习记录分享7——PyTorch自然语言处理基础-词向量模型Word2Vec

1. 词向量模型Word2Vec)

1. 如何度量这个单词的？

在这里插入图片描述

2.词向量是什么样子？

在这里插入图片描述

3.词向量对应的热力图：

在这里插入图片描述

4.词向量模型的输入与输出

在这里插入图片描述

2.如何构建训练数据

2.1 构建训练数据

类似wiki与合乎说话逻辑的文本均可以作为训练数据
在这里插入图片描述

2.2 不同模型对比(传入中间词预测上下文，传入上下文，预测中间词汇)

CBOW:

在这里插入图片描述

Skip-gram模型所需训练数据集 :

3.如何训练

3.1 如何设计驯联网络

如果一个语料库稍微大一些，可能的结果简直太多了，最后一层相当于softmax，计算起来十分耗时，有什么办法来解决嘛？
在这里插入图片描述
初始方案：输入两个单词，看他们是不是前后对应的输入和输出，也就相当于一个二分类任务，但是这样做之后

在这里插入图片描述

出发点非常好，但是此时训练集构建出来的标签全为1，无法进行较好的训练

3.2 改进方案：加入一些负样本（负采样模型）

在这里插入图片描述

3.3 词向量训练过程

1.初始化词向量矩阵
在这里插入图片描述

2.通过神经网络返向传播来计算更新，此时不光更新权重参数矩阵W，也会更新输入数据

文章来源:https://blog.csdn.net/Darlingqiang/article/details/135236919
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！