跳转至

Extract text from PDF(从PDF中提取文本)

Supported in: Batch, Faster

Extracts raw text from the pages in a PDF.

Expression categories: Media

Declared arguments

  • Media reference: The column containing media references to PDF files in a media set.
    Expression\
  • optional End page: The end of the page range (inclusive).
    Expression\
  • optional Error handling: Determines the behavior of the pipeline for inputs that fail to process.
    Enum\
  • optional Start page: The start of the page range. If no value is provided, it will default to the first page.
    Expression\

Output type: Array\

Examples

Example 1: Base case

Argument values:

  • Media reference: Media Reference
  • End page: End Page
  • Error handling: null
  • Start page: Start Page
Media Reference Start Page End Page Output
{"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.test.media-set.1","mediaItemRid":"ri.mio.test.media-item.1"}}} 1 2 [ first page, second page ]


中文翻译


从PDF中提取文本

支持:批处理(Batch)、快速(Faster)

从PDF页面中提取原始文本。

表达式类别: 媒体(Media)

声明的参数

  • 媒体引用(Media reference): 包含媒体集中PDF文件媒体引用的列。
    表达式\
  • 可选 结束页(End page): 页面范围的结束页(包含该页)。
    表达式\
  • 可选 错误处理(Error handling): 决定管道对处理失败的输入所采取的行为。
    枚举\
  • 可选 起始页(Start page): 页面范围的起始页。若未提供值,则默认为第一页。
    表达式\

输出类型: 数组\

示例

示例1:基础情况

参数值:

  • 媒体引用: Media Reference
  • 结束页: End Page
  • 错误处理: null
  • 起始页: Start Page
媒体引用 起始页 结束页 输出
{"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.test.media-set.1","mediaItemRid":"ri.mio.test.media-item.1"}}} 1 2 [ 第一页, 第二页 ]