password
comment
type
status
date
slug
summary
tags
category
icon
AI custom autofill
Positional Encoding to Control Output Sequence Length
本文主要聚焦于 确保生成的文本满足长度约束同时具有较高质量
方法
本文提出两种方法:
- LDRE:
通过计算当前位置与目标长度之间的差异来生成位置编码。具体来说,LDPE的公式如下:
其中,pos表示当前位置,len表示目标长度,d表示嵌入维度。
- LRPE:
上述方法重心在于显式表达剩余长度。
此方法重心则在于计算当前位置与目标长度间比例来生成位置编码。
上述两种方法目的都是需要让模型习得在推理时对长度的感知能力
目标函数:
x表示的是输入序列,T代表目标序列的长度
即:
最大化生成序列中每个词的条件概率来最小化生成序列与目标序列之间的差异。
训练步骤
- 数据预处理:
- 将输入文本分词为子词单元。
- 将每个子词单元映射到嵌入向量中。
- 编码器输入:
- 将整个输入序列一次性输入到编码器中,生成上下文表示。
- 解码器输出:
- 解码器逐token生成输出序列,每一步的输出依赖于之前已经生成的token。
- 在每一步计算交叉熵损失,目标是使模型输出的token尽可能接近目标序列中的实际token。
- 长度控制:
- 在训练时,使用目标序列的长度作为解码器的长度约束。
- 在测试时,用户可以指定期望的输出长度,模型会根据这个长度约束生成相应的输出序列。
- 作者:Gintmr
- 链接:https://gintmr.20250130.xyz//article/18eaf1ce-0c90-801c-9051-fcbc79e6ed46
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。