整体架构
图上全部为训练过程,去掉虚线框里的就是推理过程(没有正确答案输入的部分了)
Word Embedding词嵌入将输入(输入句子有m个词)转化为向量,假设嵌入维度为n,则一个词对应一个n维向量,整个向量维度为m x n。
Posit
2024-04-27