Numeric distribution(数值分布(Numeric distribution))¶
Supported in: Batch, Faster
Computes the distribution of numeric values in a specified column.
Transform categories: Numeric
Declared arguments¶
- Bucket count: Number of buckets to distribute over.
Literal\ - Column: Column to compute distribution for.
Column\ - Dataset: Dataset to apply distribution to.
Table - Maximum value: Maximum value for distribution.
Literal\ - Minimum value: Minimum value for distribution.
Literal\
Examples¶
Example 1: Base case¶
Argument values:
- Bucket count: 10
- Column:
value - Dataset: ri.foundry.main.dataset.a
- Maximum value: 20.0
- Minimum value: 0.0
Input:
| value |
|---|
| 0.0 |
| 0.0 |
| 1.3 |
| 5.3 |
| 10.5 |
Output:
| bucket | min_value | max_value | count | bucket_start | bucket_end |
|---|---|---|---|---|---|
| 0 | 0.0 | 1.3 | 3 | 0.0 | 2.0 |
| 2 | 5.3 | 5.3 | 1 | 4.0 | 6.0 |
| 5 | 10.5 | 10.5 | 1 | 10.0 | 12.0 |
Example 2: Base case¶
Argument values:
- Bucket count: 3
- Column:
value - Dataset: ri.foundry.main.dataset.a
- Maximum value: 25.0
- Minimum value: -5.0
Input:
| value |
|---|
| -15 |
| -5 |
| 0 |
| 15 |
| 20 |
Output:
| bucket | min_value | max_value | count | bucket_start | bucket_end |
|---|---|---|---|---|---|
| 0 | -5 | 0 | 2 | -5.0 | 5.0 |
| 2 | 15 | 20 | 2 | 15.0 | 25.0 |
Example 3: Edge case¶
Argument values:
- Bucket count: 1
- Column:
value - Dataset: ri.foundry.main.dataset.a
- Maximum value: 20.0
- Minimum value: 20.0
Input:
| value |
|---|
| -15 |
| -5 |
| 0 |
| 15 |
| 20 |
Output:
| bucket | min_value | max_value | count | bucket_start | bucket_end |
|---|---|---|---|---|---|
| 0 | 20 | 20 | 1 | 20.0 | 20.0 |
Example 4: Edge case¶
Argument values:
- Bucket count: 1
- Column:
value - Dataset: ri.foundry.main.dataset.a
- Maximum value: 20.0
- Minimum value: -5.0
Input:
| value |
|---|
| -15 |
| -5 |
| 0 |
| 15 |
| 20 |
Output:
| bucket | min_value | max_value | count | bucket_start | bucket_end |
|---|---|---|---|---|---|
| 0 | -5 | 15 | 3 | -5.0 | 20.0 |
| 1 | 20 | 20 | 1 | 20.0 | 45.0 |
中文翻译¶
数值分布(Numeric distribution)¶
支持:批处理(Batch)、快速处理(Faster)
计算指定列中数值的分布情况。
转换类别:数值(Numeric)
声明的参数(Declared arguments)¶
- 桶数(Bucket count): 用于分布的桶数量。
Literal\ - 列(Column): 需要计算分布的列。
Column\ - 数据集(Dataset): 应用分布计算的数据集。
Table - 最大值(Maximum value): 分布的最大值。
Literal\ - 最小值(Minimum value): 分布的最小值。
Literal\
示例¶
示例 1:基础情况¶
参数值:
- 桶数: 10
- 列:
value - 数据集: ri.foundry.main.dataset.a
- 最大值: 20.0
- 最小值: 0.0
输入:
| value |
|---|
| 0.0 |
| 0.0 |
| 1.3 |
| 5.3 |
| 10.5 |
输出:
| bucket | min_value | max_value | count | bucket_start | bucket_end |
|---|---|---|---|---|---|
| 0 | 0.0 | 1.3 | 3 | 0.0 | 2.0 |
| 2 | 5.3 | 5.3 | 1 | 4.0 | 6.0 |
| 5 | 10.5 | 10.5 | 1 | 10.0 | 12.0 |
示例 2:基础情况¶
参数值:
- 桶数: 3
- 列:
value - 数据集: ri.foundry.main.dataset.a
- 最大值: 25.0
- 最小值: -5.0
输入:
| value |
|---|
| -15 |
| -5 |
| 0 |
| 15 |
| 20 |
输出:
| bucket | min_value | max_value | count | bucket_start | bucket_end |
|---|---|---|---|---|---|
| 0 | -5 | 0 | 2 | -5.0 | 5.0 |
| 2 | 15 | 20 | 2 | 15.0 | 25.0 |
示例 3:边界情况¶
参数值:
- 桶数: 1
- 列:
value - 数据集: ri.foundry.main.dataset.a
- 最大值: 20.0
- 最小值: 20.0
输入:
| value |
|---|
| -15 |
| -5 |
| 0 |
| 15 |
| 20 |
输出:
| bucket | min_value | max_value | count | bucket_start | bucket_end |
|---|---|---|---|---|---|
| 0 | 20 | 20 | 1 | 20.0 | 20.0 |
示例 4:边界情况¶
参数值:
- 桶数: 1
- 列:
value - 数据集: ri.foundry.main.dataset.a
- 最大值: 20.0
- 最小值: -5.0
输入:
| value |
|---|
| -15 |
| -5 |
| 0 |
| 15 |
| 20 |
输出:
| bucket | min_value | max_value | count | bucket_start | bucket_end |
|---|---|---|---|---|---|
| 0 | -5 | 15 | 3 | -5.0 | 20.0 |
| 1 | 20 | 20 | 1 | 20.0 | 45.0 |