Extract text from PDF（从PDF中提取文本）¶

Supported in: Batch, Faster

Extracts raw text from the pages in a PDF.

Expression categories: Media

Declared arguments¶

Media reference: The column containing media references to PDF files in a media set.
Expression\
optional End page: The end of the page range (inclusive).
Expression\
optional Error handling: Determines the behavior of the pipeline for inputs that fail to process.
Enum\
optional Start page: The start of the page range. If no value is provided, it will default to the first page.
Expression\

Output type: Array\

Argument values:

Media Reference	Start Page	End Page	Output
{"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.test.media-set.1","mediaItemRid":"ri.mio.test.media-item.1"}}}	1	2	[ first page, second page ]

支持：批处理（Batch）、快速（Faster）

从PDF页面中提取原始文本。

表达式类别： 媒体（Media）

输出类型： 数组\

参数值：

媒体引用	起始页	结束页	输出
{"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.test.media-set.1","mediaItemRid":"ri.mio.test.media-item.1"}}}	1	2	[ 第一页, 第二页 ]