跳转至

Extract layout-aware content from images(从图像中提取布局感知内容)

Supported in: Batch, Faster

Extracts content from images, while preserving the original layout.

Expression categories: Media

Declared arguments

  • Languages to detect: Languages to detect in the input files.
    Set\>
  • Media reference: The image to extract content from.
    Expression\
  • Output format: Output will be a string.
    Enum\
  • optional Error handling: Determines the behavior of the pipeline for inputs that fail to process.
    Enum\

Output type: Array\, confidence:Double>> | String

Examples

Example 1: Base case

Argument values:

  • Languages to detect: {ENG}
  • Media reference: mediaReference
  • Output format: TEXT
  • Error handling: FAIL_FAST
mediaReference Output
{"mimeType":"image/png","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.a", "mediaItemRid":"ri.mio.main.media-item.a"}}} extracted content


中文翻译


从图像中提取布局感知内容

支持:批量处理、快速处理

从图像中提取内容,同时保留原始布局。

表达式类别: 媒体

声明参数

  • 待检测语言: 输入文件中需要检测的语言。
    集合\<枚举\<南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿萨姆语、阿塞拜疆语、阿塞拜疆语(西里尔字母)、巴斯克语、白俄罗斯语等>>
  • 媒体引用: 需要提取内容的图像。
    表达式\<媒体引用>
  • 输出格式: 输出将是一个字符串。
    枚举\<完整提取、文本与表格>
  • 可选 错误处理: 决定管道对处理失败的输入的行为。
    枚举\<失败、空值>

输出类型: 数组\<结构体\<block_index:整数, block_id:字符串, block_type:字符串, content:字符串, bounding_box:字符串, languages:数组\<字符串>, confidence:双精度浮点数>> | 字符串

示例

示例1:基础情况

参数值:

  • 待检测语言: {ENG}
  • 媒体引用: mediaReference
  • 输出格式: TEXT
  • 错误处理: FAIL_FAST
mediaReference 输出
{"mimeType":"image/png","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.a", "mediaItemRid":"ri.mio.main.media-item.a"}}} 提取的内容