跳到主要内容

AutoFE算子手册

算子列表

基础算子

信息

  f 代表的是数字特征,c 代表类别特征。

  • AggMin(f, c) :特征 c 各类别中 f 的最小值。

  • AggMax(f, c) :特征 c 各类别中 f 的最大值。

  • AggMean(f, c) :特征 c 各类别中 f 的平均值。

  • AggMedian(f, c) :特征 c 各类别中 f 的中位数。

  • AggVar(f, c) :特征 c 各类别中 f 的方差。

  • CrossCount([c1, c2, ..]) :根据特征 list 聚合的计数, list 长度大于等于2。

  • Nunique(c1, c2) :特征 c2 各类别中 c1 的唯一值计数。

  • Entropy(c) :特征 c 各类别的熵。

  • Percentile(f) :特征 f 各个数据的百分位。

  • Combine(c1, c2) :特征 c1 和特征 c2 的字符结合。

  • Count(c) :特征 c 各类别的计数。

  • Equal(f1, f2) :判断特征 f1 和特征 f2 是否相等。

  • Min(f1, f2) :取特征 f1 和特征 f2 相比的较小值。

  • Max(f1, f2) :取特征 f1 和特征 f2 相比的较大值。

  • Sigmoid(f) :对特征 f 进行 sigmoid 非线性变换。

  • Round(f) :对特征 f 进行四舍五入。

  • Residual(f) :保留特征 f 求小数点后的数。

  • Softmax(f) :有限项离散概率分布的梯度对数归一化。

  • Crossrank(f, c) :特征 c 各类别中 f 的排序。

  • Bigger(f1, f2) :特征 f1 是否大于特征 f2

  • Smaller(f1, f2) :特征 f1 是否小于特征 f2

  • Log(f) :对特征 f 进行ln(f){ln}(f)运算。

  • Sin(f) :对特征 f 进行sin(f)sin(f)运算。

  • Cosine(f) :对特征 f 进行cos(f)cos(f)运算。

时序算子

信息

  f 代表的是数字特征,w 代表窗口数。

  • stddev(f, w) :计算窗口内特征 f 的标准差。

  • ts_max(f, w) :计算窗口内特征 f 的最大值。

  • ts_min(f, w) :计算窗口内特征 f 的最小值。

  • ts_mean(f, w) :计算窗口内特征 f 的平均值。

  • ts_sum(f, w) :计算窗口内特征 f 的加和值。

  • ts_rank(f, w) :计算特征 f 当前值在在窗口内的排名(降序)。

  • ts_argmax(f, w) :计算窗口内特征 f 最大值位置索引(从0计数)。

  • ts_argmin(f, w) :计算窗口内特征 f 最小值位置索引(从0计数)。

  • delay(f, w) :获取窗口内特征 f 最早时间所对应的值。

  • decay(f, w) :计算窗口内特征 f 线性衰减和。

  • delta(f, w) :计算窗口内特征 f 最晚和最早时间所对应值的差值。

  • correlation(f1, f2, w) :计算窗口内特征 f1 和特征 f2 的相关系数。

  • covariance(f1, f2, w) :计算窗口内特征 f1 和特征 f2 的协方差。

算子图示

AggMin(f, c)

信息

  表示特征 c 各类别中 f 的最小值。

image

AggMax(f, c)

信息

  表示特征 c 各类别中 f 的最大值。

image

AggMean(f, c)

信息

  表示特征 c 各类别中 f 的平均值。

image

AggMedian(f, c)

信息

  表示特征 c 各类别中 f 的中位数。

image

AggVar(f, c)

信息

  表示特征 c 各类别中 f 的方差。

image

CrossCount([c1, c2, ..])

信息

  根据特征 list 聚合的计数, list 长度大于等于2。

image

Nunique(c1, c2)

信息

  表示特征 c2 各类别中 c1 的唯一值计数。

image

Entropy(c)

信息

  表示特征 c 各类别的熵。

image

Percentile(f)

信息

  表示特征 f 各个数据的百分位。

image

Combine(c1, c2)

信息

  特征 c1 和特征 c2 的字符结合。

image

Count(c)

信息

  特征 c 各类别的计数。

image

Equal(f1, f2)

信息

  判断特征 f1 和特征 f2 是否相等。

image

Min(f1, f2)

信息

  取特征 f1 和特征 f2 相比的较小值。

image

Max(f1, f2)

信息

  取特征 f1 和特征 f2 相比的较大值。

image

Sigmoid(f)

信息

  对特征 f 进行 sigmoid 非线性变换。

image

Round(f)

信息

  对特征 f 进行四舍五入。

image

Residual(f)

信息

  保留特征 f 求小数点后的数值。

image

Softmax(f)

信息

  有限项离散概率分布的梯度对数归一化。

image

stddev(f, w)

信息

  计算窗口内特征 f 的标准差。

image

ts_max(f, w)

信息

  计算窗口内特征 f 的最大值。

image

ts_min(f, w)

信息

  计算窗口内特征 f 的最小值。

image

ts_mean(f, w)

信息

  计算窗口内特征 f 的平均值。

image

ts_sum(f, w)

信息

  计算窗口内特征 f 的加和值。

image

ts_rank(f, w)

信息

  计算特征 f 当前值在在窗口内的排名(降序)。

image

ts_argmax(f, w)

信息

  计算窗口内特征 f 最大值位置索引(从0计数)。

image

ts_argmin(f, w)

信息

  计算窗口内特征 f 最小值位置索引(从0计数)。

image

delay(f, w)

信息

  获取窗口内特征 f 最早时间所对应的值。

image

decay(f, w)

信息

  计算窗口内特征 f 线性衰减和。

image

delta(f, w)

信息

  计算窗口内特征 f 最晚和最早时间所对应值的差值。

image

correlation(f1, f2, w)

信息

  计算窗口内特征 f1 和特征 f2 的相关系数。

image

covariance(f1, f2, w)

信息

  计算窗口内特征 f1 和特征 f2 的协方差。

image