NLP常见问题
2023-12-31 09:38:02
transformer中的attention为什么scaled?-CSDN博客
Transformer模型中的Feed-Forward层的作用_transformer feed-forward解释-CSDN博客
Transformer模型中,decoder的第一个输入是什么? - 知乎
大部分的大模型(LLM)采用左填充(left-padding)的原因 - 知乎
重磅!第二代ChatGLM发布!清华大学THUDM发布ChatGLM2-6B:更快更准,更低成本更长输入! - 知乎
transformer 为什么使用 layer normalization,而不是其他的归一化方法? - 知乎
非凸函数上,随机梯度下降能否收敛?网友热议:能,但有条件,且比凸函数收敛更难 - 知乎
分类问题可以使用MSE(均方误差)作为损失函数吗_分类问题可以用mse吗-CSDN博客
[分析] ROPE的不同实现:llama&palm - 知乎
大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析-CSDN博客
从零开始了解transformer的机制|第四章:FFN层的作用-CSDN博客
大模型思维链(Chain-of-Thought)技术原理 - 知乎
大模型微调(finetune)方法总结-LoRA,Adapter,Prefix-tuning,P-tuning,Prompt-tuning - 知乎
Gradient Checkpointing(梯度检查点) - 知乎
[NLP] LLM---<训练中文LLama2(二)>扩充LLama2词表构建中文tokenization_斗破苍芎原始数据预处理-CSDN博客
文章来源:https://blog.csdn.net/qq_16234613/article/details/135310912
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!