Extract text from PDF(从PDF中提取文本)¶
Supported in: Batch, Faster
Extracts raw text from the pages in a PDF.
Expression categories: Media
Declared arguments¶
- Media reference: The column containing media references to PDF files in a media set.
Expression\ - optional End page: The end of the page range (inclusive).
Expression\ - optional Error handling: Determines the behavior of the pipeline for inputs that fail to process.
Enum\ - optional Start page: The start of the page range. If no value is provided, it will default to the first page.
Expression\
Output type: Array\
Examples¶
Example 1: Base case¶
Argument values:
- Media reference:
Media Reference - End page:
End Page - Error handling: null
- Start page:
Start Page
| Media Reference | Start Page | End Page | Output |
|---|---|---|---|
| {"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.test.media-set.1","mediaItemRid":"ri.mio.test.media-item.1"}}} | 1 | 2 | [ first page, second page ] |
中文翻译¶
从PDF中提取文本¶
支持:批处理(Batch)、快速(Faster)
从PDF页面中提取原始文本。
表达式类别: 媒体(Media)
声明的参数¶
- 媒体引用(Media reference): 包含媒体集中PDF文件媒体引用的列。
表达式\ - 可选 结束页(End page): 页面范围的结束页(包含该页)。
表达式\ - 可选 错误处理(Error handling): 决定管道对处理失败的输入所采取的行为。
枚举\ - 可选 起始页(Start page): 页面范围的起始页。若未提供值,则默认为第一页。
表达式\
输出类型: 数组\
示例¶
示例1:基础情况¶
参数值:
- 媒体引用:
Media Reference - 结束页:
End Page - 错误处理: null
- 起始页:
Start Page
| 媒体引用 | 起始页 | 结束页 | 输出 |
|---|---|---|---|
| {"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.test.media-set.1","mediaItemRid":"ri.mio.test.media-item.1"}}} | 1 | 2 | [ 第一页, 第二页 ] |