人工智能
未读
各种卷积计算过程图示
卷积各种算法图示 [1] Vincent Dumoulin, Francesco Visin - A guide to convolution arithmetic for deep learning (BibTeX) 📃 Convolution animations N.B.: Blue map
人工智能
未读
自注意力机制中的MHA/MQA/GQA
1、MHA MHA (Multi-Head Attention): MHA 是 "Multi-Head Attention" 的缩写。它是一种注意力机制,通常用于处理序列数据,如自然语言文本。在 MHA 中,输入序列被分成多个头(head),每个头都可以关注输入序列的不同部分。这些头并行运算,然后结