Positional Encoding to Control Output Sequence Length | Gintmr's Home

Work Record

🔎Positional Encoding to Control Output Sequence Length

字数 503阅读时长≈ 2 分钟

2025-2-2

password

comment

type

status

date

slug

summary

tags

category

icon

AI custom autofill

Positional Encoding to Control Output Sequence Length

本文主要聚焦于确保生成的文本满足长度约束同时具有较高质量

方法

本文提出两种方法：

LDRE：

通过计算当前位置与目标长度之间的差异来生成位置编码。具体来说，LDPE的公式如下:

其中，pos表示当前位置，len表示目标长度，d表示嵌入维度。

LRPE：

上述方法重心在于显式表达剩余长度。

此方法重心则在于计算当前位置与目标长度间比例来生成位置编码。

上述两种方法目的都是需要让模型习得在推理时对长度的感知能力

目标函数：

x表示的是输入序列，T代表目标序列的长度

即：

最大化生成序列中每个词的条件概率⁡来最小化生成序列与目标序列之间的差异。

训练步骤

数据预处理：

将输入文本分词为子词单元。

将每个子词单元映射到嵌入向量中。

编码器输入：

将整个输入序列一次性输入到编码器中，生成上下文表示。

解码器输出：

解码器逐token生成输出序列，每一步的输出依赖于之前已经生成的token。

在每一步计算交叉熵损失，目标是使模型输出的token尽可能接近目标序列中的实际token。

长度控制：

在训练时，使用目标序列的长度作为解码器的长度约束。

在测试时，用户可以指定期望的输出长度，模型会根据这个长度约束生成相应的输出序列。

统计数据集分布-MetaMath

配置免密登录Linux服务器

配置免密登录Linux服务器

作者:Gintmr
链接:https://gintmr.20250130.xyz//article/18eaf1ce-0c90-801c-9051-fcbc79e6ed46
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

评论

Loading...

目录

Hello! 👇This is a Bulletin board.

Gintmr

Welcome to My Home🥰

Notion本身还不能当图床~好烦😵‍💫

另外~没有经历过把`mv`写成`rm` 的人生是不完整的🥲

想看加密文章的uu欢迎联系我扩列交流~😘

to be continued···

目录

最新发布

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

²²

¹⁴

¹⁰

⁶

³

³

²

¹

Number of Articles:

41

Historical Duration:

204 天