Lazy loaded image
Work Record
🔎Positional Encoding to Control Output Sequence Length
字数 503阅读时长 2 分钟
2025-2-2
2025-2-2
password
comment
type
status
date
slug
summary
tags
category
icon
AI custom autofill
Positional Encoding to Control Output Sequence Length
本文主要聚焦于 确保生成的文本满足长度约束同时具有较高质量

方法

本文提出两种方法:
  • LDRE:
    • 通过计算当前位置与目标长度之间的差异来生成位置编码。具体来说,LDPE的公式如下:
      其中,pos表示当前位置,len表示目标长度,d表示嵌入维度。
  • LRPE:
    • 上述方法重心在于显式表达剩余长度。
      此方法重心则在于计算当前位置与目标长度间比例来生成位置编码。
上述两种方法目的都是需要让模型习得在推理时对长度的感知能力
目标函数:
x表示的是输入序列,T代表目标序列的长度
即:
最大化生成序列中每个词的条件概率⁡最小化生成序列与目标序列之间的差异。

训练步骤

  1. 数据预处理
      • 将输入文本分词为子词单元。
      • 将每个子词单元映射到嵌入向量中。
  1. 编码器输入
      • 将整个输入序列一次性输入到编码器中,生成上下文表示。
  1. 解码器输出
      • 解码器逐token生成输出序列,每一步的输出依赖于之前已经生成的token。
      • 在每一步计算交叉熵损失,目标是使模型输出的token尽可能接近目标序列中的实际token。
  1. 长度控制
      • 在训练时,使用目标序列的长度作为解码器的长度约束。
      • 在测试时,用户可以指定期望的输出长度,模型会根据这个长度约束生成相应的输出序列。
上一篇
统计数据集分布-MetaMath
下一篇
配置免密登录Linux服务器

评论
Loading...