跳转至

Extract layout-aware content from PDF(从 PDF 中提取布局感知内容)

Supported in: Batch, Faster

Extracts content from the specified document, while preserving the document's layout.

Expression categories: Media

Declared arguments

  • Languages to detect: Languages to detect in the input files.
    Set\>
  • Media reference: The PDF to extract content from.
    Expression\
  • Output format: The desired format of the output. Choose between a simple text-based output or a structured output with all details, including the bounding boxes.
    Enum\
  • optional End page: The end of the page range (inclusive). If no value is provided, it will default to the last page.
    Expression\
  • optional Error handling: Determines the behavior of the pipeline for inputs that fail to process.
    Enum\
  • optional Start page: The start of the page range. If no value is provided, it will default to the first page.
    Expression\

Output type: Array\, confidence:Double>>> | Array\

Examples

Example 1: Base case

Argument values:

  • Languages to detect: {ENG}
  • Media reference: mediaReference
  • Output format: TEXT
  • End page: End Page
  • Error handling: FAIL_FAST
  • Start page: Start Page
mediaReference Output
{"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.a", "mediaItemRid":"ri.mio.main.media-item.a"}}} extracted content


中文翻译


从 PDF 中提取布局感知内容

支持:批处理(Batch)、快速处理(Faster)

从指定文档中提取内容,同时保留文档的布局。

表达式类别: 媒体(Media)

声明的参数

  • 要检测的语言(Languages to detect): 输入文件中需要检测的语言。
    Set\>
  • 媒体引用(Media reference): 要从中提取内容的 PDF。
    Expression\
  • 输出格式(Output format): 所需的输出格式。可选择简单的基于文本的输出,或包含所有详细信息(包括边界框)的结构化输出。
    Enum\
  • 可选 结束页码(End page): 页面范围的结束页(包含该页)。如果未提供值,则默认为最后一页。
    Expression\
  • 可选 错误处理(Error handling): 决定管道对处理失败的输入所采取的行为。
    Enum\
  • 可选 起始页码(Start page): 页面范围的起始页。如果未提供值,则默认为第一页。
    Expression\

输出类型: Array\, confidence:Double>>> | Array\

示例

示例 1:基本情况

参数值:

  • 要检测的语言: {ENG}
  • 媒体引用: mediaReference
  • 输出格式: TEXT
  • 结束页码: End Page
  • 错误处理: FAIL_FAST
  • 起始页码: Start Page
mediaReference 输出
{"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.a", "mediaItemRid":"ri.mio.main.media-item.a"}}} 提取的内容