【青鸟飞扬教育】Transformer 初探(青鸟教育是做什么的)

试了试,确实差点意思。我们从技术的角度看看,为啥会变成这样。

众所周知,现如今的 LLM 绝大多数都是基于 Transformer 架构的。

工作流程

我们先来粗略了解一下它的工作流程。 大约就是每次生成从候选词列表中选择一个 token 作为输出,这个这次输出作为下次输入。关键点在于采样输出是怎么选择的。

早期的 llm 通过 Top-k温度作为采样策略,后来引入了 Top-p 等其他负责的控制策略。

Top-k 采样

Top-k 比较简单,就是把候选词按照概率从高到低排,取前 k 个。

温度

假设只有 Top-k 采样,会发生什么?会变成每次都从 k 个元素中选择,而 top1 会被更高概率选择,导致输出重复度比较高。

为了让输出更加丰富,不这么单调,需要引入新的采样策略,让低概率的词也可能被选择到。

假设有一个参数,

值小的时候稳重一些,选择概率高的,应对一些严谨性高的场景(如编程)

值大的时候多样一些,选择概率低的,应对一些丰富性高的场景(如写作)

为了方便描述,我们姑且先称这个参数为 T。

也就是说

T 小的时候,我们需要让低概率词的被选择的机会变小,也就是放大低概率词和高概率词的差距,一枝独秀。

T 大的时候,我们需要让低概率词的被选择的机会变大,也就是缩小低概率词和高概率词的差距,众生平等。

除法

什么运算可以实现这种缩放效果呢?最朴素的,就是除法。我们用 $x_i$ 表示词汇表中第 i 个词的概率(术语叫 logits), $y_i$ 表示第 i 个词温度调节后的概率,有下面这样的公式。

yi=xiT��=���

指数函数

我们知道,概率之和应该为 1。为了让概率之和变为 1,我们需要用 当前概率 除以所有概率的和得到新的概率(归一化)。

聪明的你可能已经想到了,等比例缩放一旦归一化,我们所有缩放都没有意义了。比如:[5,3,2] 无论我们怎么使用除法,归一化都会变成 [0.5,0.3,0.2]。

显然,我们需要再引入一个非线性变化,让我们缩放不失效,我们选择使用指数函数。

zi=eyi��=���

举例说明一下 我们的缩放不再被归一化抵消,平均概率差距也被拉大了。

特别声明:[【青鸟飞扬教育】Transformer 初探(青鸟教育是做什么的)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

1953年,44岁妇女,临终对清洁工丈夫说:我叫文绣,曾是大清皇妃

聪明、贤良,琴棋书画无不精通,然而命运多舛,年华芳华却全都献给了那段沧桑岁月,尽数流转在颠沛流离之间。最终她依然找到了自己的幸福,晚年有了一位疼她入骨的良人,日子渐渐过得圆满。宫中许多人都称她为贤淑的皇贵妃,…

1953年,44岁妇女,临终对清洁工丈夫说:我叫文绣,曾是大清皇妃

移起开新局 太原移动用“满格信号”守护万家灯火(开新局前面加什么词)

面对即将到来的春运返乡流、探亲流、旅游流叠加,可能带来的网络流量高峰,太原移动将全力织密织牢通信网络,持续加强基站巡检维护与动态流量监控,提前优化返乡沿线及人流密集区网络覆盖,确保信号稳定、容量充足,用专业与…

移起开新局 太原移动用“满格信号”守护万家灯火(开新局前面加什么词)

中孚信息:公司高度重视AI安全与数据安全领域的发展(中孚信息公司简介)

证券日报网讯 1月26日,中孚信息在互动平台回答投资者提问时表示,公司高度重视AI安全与数据安全领域的发展,为有效应对大模型在应用运行阶段带来的数据泄露风险,公司推出“中孚数盾终端大模型智栏系统”,围绕终端应…

中孚信息:公司高度重视AI安全与数据安全领域的发展(中孚信息公司简介)

外交部:坚决反对美政客指手画脚 涉华言论谬论连连

针对美国国会众议院“中国特设委”主席莫伦纳近日访问中美洲国家时发表的涉华言论,外交部发言人郭嘉昆在1月26日的例行记者会上表示,中方坚决反对美国个别政客对中美洲国家同中国的正常交往指手画脚

外交部:坚决反对美政客指手画脚 涉华言论谬论连连

演《告白》的少女30岁了!桥本爱新写真流出,坦言曾很痛苦(《告白》剧照)

当记者提到,听说这本写真集记录了她二十多岁最后一年的心路历程时,问她在决定制作时有什么想法,桥本爱坦言: 说实话,最初我并没有想到要出写真集。在那种没有‘言论自由’的年代,那些无法发声的群体是怎样争取这份权利…

演《<strong>告白</strong>》的少女30岁了!桥本爱新写真流出,坦言曾很痛苦(《<strong>告白</strong>》剧照)