NLP常见问题

2023-12-31 09:38:02

transformer中的attention为什么scaled?-CSDN博客

Transformer模型中的Feed-Forward层的作用_transformer feed-forward解释-CSDN博客

关于ChatGPT：GPT和BERT的差别（易懂版）

Index - 算法工程师笔记

Transformer模型中，decoder的第一个输入是什么？ - 知乎

大部分的大模型(LLM)采用左填充(left-padding)的原因 - 知乎

多种Attention之间的对比(上） - 知乎

ChatGLM-6B 实践分享 - 知乎

重磅！第二代ChatGLM发布！清华大学THUDM发布ChatGLM2-6B：更快更准，更低成本更长输入！ - 知乎

transformer 为什么使用 layer normalization，而不是其他的归一化方法？ - 知乎

CRF模型详解-CSDN博客

非凸函数上，随机梯度下降能否收敛？网友热议：能，但有条件，且比凸函数收敛更难 - 知乎

分类必然交叉熵，回归无脑MSE？未必 - 知乎

分类问题可以使用MSE(均方误差)作为损失函数吗_分类问题可以用mse吗-CSDN博客

[分析] ROPE的不同实现：llama&palm - 知乎

LORA微调系列(一)：LORA和它的基本原理 - 知乎

大模型升级与设计之道：ChatGLM、LLAMA、Baichuan及LLM结构解析-CSDN博客

ChatGPT/InstructGPT详解 - 知乎

从零开始了解transformer的机制|第四章：FFN层的作用-CSDN博客

大模型思维链（Chain-of-Thought）技术原理 - 知乎

强化学习AC、A2C、A3C算法原理与实现！ - 知乎

大模型微调（finetune）方法总结-LoRA,Adapter,Prefix-tuning，P-tuning，Prompt-tuning - 知乎

Gradient Checkpointing(梯度检查点) - 知乎

[NLP] LLM---＜训练中文LLama2(二)＞扩充LLama2词表构建中文tokenization_斗破苍芎原始数据预处理-CSDN博客

BERT为何使用学习的position embedding而非正弦position encoding? - 知乎

文章来源:https://blog.csdn.net/qq_16234613/article/details/135310912
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！