跳转至

Numeric distribution(数值分布(Numeric distribution))

Supported in: Batch, Faster

Computes the distribution of numeric values in a specified column.

Transform categories: Numeric

Declared arguments

  • Bucket count: Number of buckets to distribute over.
    Literal\
  • Column: Column to compute distribution for.
    Column\
  • Dataset: Dataset to apply distribution to.
    Table
  • Maximum value: Maximum value for distribution.
    Literal\
  • Minimum value: Minimum value for distribution.
    Literal\

Examples

Example 1: Base case

Argument values:

  • Bucket count: 10
  • Column: value
  • Dataset: ri.foundry.main.dataset.a
  • Maximum value: 20.0
  • Minimum value: 0.0

Input:

value
0.0
0.0
1.3
5.3
10.5

Output:

bucket min_value max_value count bucket_start bucket_end
0 0.0 1.3 3 0.0 2.0
2 5.3 5.3 1 4.0 6.0
5 10.5 10.5 1 10.0 12.0

Example 2: Base case

Argument values:

  • Bucket count: 3
  • Column: value
  • Dataset: ri.foundry.main.dataset.a
  • Maximum value: 25.0
  • Minimum value: -5.0

Input:

value
-15
-5
0
15
20

Output:

bucket min_value max_value count bucket_start bucket_end
0 -5 0 2 -5.0 5.0
2 15 20 2 15.0 25.0

Example 3: Edge case

Argument values:

  • Bucket count: 1
  • Column: value
  • Dataset: ri.foundry.main.dataset.a
  • Maximum value: 20.0
  • Minimum value: 20.0

Input:

value
-15
-5
0
15
20

Output:

bucket min_value max_value count bucket_start bucket_end
0 20 20 1 20.0 20.0

Example 4: Edge case

Argument values:

  • Bucket count: 1
  • Column: value
  • Dataset: ri.foundry.main.dataset.a
  • Maximum value: 20.0
  • Minimum value: -5.0

Input:

value
-15
-5
0
15
20

Output:

bucket min_value max_value count bucket_start bucket_end
0 -5 15 3 -5.0 20.0
1 20 20 1 20.0 45.0


中文翻译


数值分布(Numeric distribution)

支持:批处理(Batch)、快速处理(Faster)

计算指定列中数值的分布情况。

转换类别:数值(Numeric)

声明的参数(Declared arguments)

  • 桶数(Bucket count): 用于分布的桶数量。
    Literal\
  • 列(Column): 需要计算分布的列。
    Column\
  • 数据集(Dataset): 应用分布计算的数据集。
    Table
  • 最大值(Maximum value): 分布的最大值。
    Literal\
  • 最小值(Minimum value): 分布的最小值。
    Literal\

示例

示例 1:基础情况

参数值:

  • 桶数: 10
  • 列: value
  • 数据集: ri.foundry.main.dataset.a
  • 最大值: 20.0
  • 最小值: 0.0

输入:

value
0.0
0.0
1.3
5.3
10.5

输出:

bucket min_value max_value count bucket_start bucket_end
0 0.0 1.3 3 0.0 2.0
2 5.3 5.3 1 4.0 6.0
5 10.5 10.5 1 10.0 12.0

示例 2:基础情况

参数值:

  • 桶数: 3
  • 列: value
  • 数据集: ri.foundry.main.dataset.a
  • 最大值: 25.0
  • 最小值: -5.0

输入:

value
-15
-5
0
15
20

输出:

bucket min_value max_value count bucket_start bucket_end
0 -5 0 2 -5.0 5.0
2 15 20 2 15.0 25.0

示例 3:边界情况

参数值:

  • 桶数: 1
  • 列: value
  • 数据集: ri.foundry.main.dataset.a
  • 最大值: 20.0
  • 最小值: 20.0

输入:

value
-15
-5
0
15
20

输出:

bucket min_value max_value count bucket_start bucket_end
0 20 20 1 20.0 20.0

示例 4:边界情况

参数值:

  • 桶数: 1
  • 列: value
  • 数据集: ri.foundry.main.dataset.a
  • 最大值: 20.0
  • 最小值: -5.0

输入:

value
-15
-5
0
15
20

输出:

bucket min_value max_value count bucket_start bucket_end
0 -5 15 3 -5.0 20.0
1 20 20 1 20.0 45.0