产品简介
产品简介
OCR 文件解析工具支持对各类图像中的文本内容进行识别。可处理印刷体、手写体,并支持中、英、日、韩、法等 20+ 种语言类型。工具能够输出高精度文本识别结果及候选字置信度信息,适用于手写稿件解析、文档数字化、图片文字抽取等多种业务场景。使用说明
- 需要低延迟、即时拿到解析结果的在线处理链路(如用户上传后立刻问答、预览)。
- 单次文件不大、结构复杂度适中,或对纯文本抽取需求为主。
| 服务项目 | 说明 |
|---|---|
| 支持的文件类型 | image(图片文件) |
| 支持的格式 | PNG、JPG、JPEG、BMP |
| 最大文件大小 | 8M |
| 参数名称 | 字段类型 | 是否必填 | 说明 |
|---|---|---|---|
| file | File | 是 | 图片文件(支持 PNG/JPG/JPEG/BMP),8M 内 |
| tool_type | String | 是 | 固定为 hand_write,表示执行手写体识别 |
| language_type | String | 否 | 根据所识别文件可指定识别语言,默认为 CHN_ENG,自动检测语言:AUTO,可选值包括:ENG, JAP, KOR, FRE, SPA, POR, GER, ITA, RUS, DAN, DUT, MAL, SWE, IND, POL, ROM, TUR, GRE, HUN, THA, VIE, ARA, HIN |
| probability | Boolean | 否 | 是否返回识别结果中每一行的置信度,默认为false,不返回置信度 |
| 参数名称 | 字段类型 | 说明 |
|---|---|---|
| task_id | String | 任务 ID |
| message | String | 提示信息,例如成功或错误描述 |
| status | String | 状态标识 |
| words_result_num | Integer | 识别结果数,表示words_result的元素个数 |
| words_result | object | 文本识别结果对象 |
| ├── location | object | 每行的坐标,包含: - left: 表示定位位置的长方形左上顶点的水平坐标 - top:表示定位位置的长方形左上顶点的垂直坐标 - width:表示定位位置的长方形的宽度 - height:表示定位位置的长方形的高度 |
| ├── words | String | 每一行的识别结果 |
| └── probability | object | 当 probability=true 时返回该字段,表示识别结果中每一行的置信度值,包含: - average: 行置信度平均值 - variance:行置信度方差 - min:行置信度最小值 |
计费方式
| 计费规则 | OCR 解析工具根据识别过程中调用量中的页数收取费用,当前支持单次单页识别。 |
| 单价 | 0.01 元 / 次(页) |
| 计费计算方式 | 请求次数(页数) × 单价 = 费用 |
使用流程说明
- 准备图片文件(确保格式与大小符合要求)
- 根据需要设置可选识别参数(如 tool_type、language_type、probability),当已知文件语言时,建议设置对应的 language_type 以提高识别准确率
- 调用 OCR 解析接口
- 获取返回的 JSON 结果
- 从 words_result 中读取识别内容
- 根据需要展示、存储或进一步处理文本
最佳实践与建议
- 上传图像尽量保持 清晰、无遮挡、无遮挡反光,提升识别准确率。
- 手写体建议使用 黑色或深色墨迹,背景尽量为浅色。
- 建议对返回结果中的置信度进行业务层过滤,以提升整体系统可信度。
调用示例
- cURL
- Python
- Java
- 响应示例