跳转至

Outer caching join(外缓存连接(Outer caching join))

Supported in: Streaming

Joins left and right dataset inputs together, caching the record with the highest event time from each side for use in subsequent joins. Processing time of a record is used as a tiebreaker. In the case of a time results are optimistically emitted if there's no value to join against.

Transform categories: Join

Declared arguments

  • Default cache time unit: Default unit for amount of time data will be cached for before eviction for both the lhs and rhs cache.
    Enum\
  • Default cache time value: Default value for the amount of time data will be cached for before eviction for both the lhs and rhs cache.
    Literal\
  • Join key: A list of columns from left and right input to join on.
    List\, Column\\>>
  • Left dataset: Left dataset to use in join.
    Table
  • Right dataset: Right dataset to use in join.
    Table
  • optional Rhs cache time override: Value and unit of time that data from the rhs dataset will be cached for before eviction. If cache time is set to 0, the rhs will not cache. If you want the lhs to be uncached, set the default cache time to 0 and override with this parameter.
    Tuple\, Enum\\>

中文翻译


外缓存连接(Outer caching join)

支持:流式处理(Streaming)

将左侧和右侧数据集输入连接在一起,缓存每侧事件时间最高的记录,以便在后续连接中使用。记录的处理时间用作平局决胜条件。若无法找到匹配值进行连接,则会乐观地发出结果。

转换类别:连接(Join)

声明参数

  • 默认缓存时间单位(Default cache time unit): 左侧和右侧缓存中数据在被淘汰前缓存的默认时间单位。
    枚举类型\<天、小时、毫秒、分钟、秒、周>
  • 默认缓存时间值(Default cache time value): 左侧和右侧缓存中数据在被淘汰前缓存的默认时间值。
    字面量\
  • 连接键(Join key): 用于连接的左侧和右侧输入中的列列表。
    列表\<元组\<列\<二进制 | 布尔 | 字节 | 双精度 | 浮点 | 整数 | 长整型 | 短整型 | 字符串 | 时间戳>, 列\<二进制 | 布尔 | 字节 | 双精度 | 浮点 | 整数 | 长整型 | 短整型 | 字符串 | 时间戳>>>
  • 左侧数据集(Left dataset): 用于连接的左侧数据集。
  • 右侧数据集(Right dataset): 用于连接的右侧数据集。
  • 可选 右侧缓存时间覆盖(Rhs cache time override): 右侧数据集中的数据在被淘汰前缓存的时长值和单位。若缓存时间设置为0,则右侧不进行缓存。如需左侧不缓存,可将默认缓存时间设为0,并通过此参数覆盖。
    元组\<字面量\, 枚举\<天、小时、毫秒、分钟、秒、周>>