📊 数据处理
发票信息批量提取
从PDF或图片发票中批量提取关键信息,生成结构化数据表格
★★☆ 中级 15-20 min 2025年1月12日
概述
手动从大量发票中提取信息录入系统非常繁琐且易出错。Claude 可以帮你批量处理发票文件,提取发票号、金额、日期、供应商等关键信息,生成规整的Excel表格。
适用场景
- 报销单据整理
- 财务记账批量录入
- 采购发票汇总
- 税务申报数据准备
操作步骤
1
整理发票文件
先组织好待处理的发票文件。
请检查 ~/Documents/Invoices 文件夹:
- 列出所有 PDF 和图片文件(jpg、png)
- 统计文件数量
- 检查文件命名是否规范
- 识别文件格式和质量
2
提取文本内容
从PDF或图片中提取文字。
请从所有发票文件中提取文本:
- PDF 文件直接提取文字
- 图片文件使用 OCR 识别
- 将每个文件的文本内容保存到 ~/Documents/Invoices/text/ 目录
- 报告哪些文件提取失败或质量较差
3
解析发票信息
从文本中提取结构化信息。
对每个发票文本,请提取以下字段:
- 发票号码
- 开票日期
- 供应商名称
- 购买方名称
- 税号
- 金额(小写数字)
- 税额
- 价税合计
- 货物或服务名称
使用正则表达式和关键词匹配识别这些字段
4
验证和清洗
检查提取结果的准确性。
请验证提取的数据:
- 检查日期格式是否正确
- 验证金额数字是否合理
- 检查必填字段是否完整
- 标记可疑或低置信度的记录
- 对于识别失败的,列出原始文件路径供人工处理
5
生成Excel表格
将提取的信息导出为表格。
请生成 Excel 文件:~/Documents/invoice_data.xlsx
包含以下列:
- 文件名
- 发票号
- 开票日期
- 供应商
- 金额
- 税额
- 价税合计
- 状态(已验证/待确认/提取失败)
- 备注
按日期排序,使用条件格式高亮待确认的行
OCR识别准确率受发票扫描质量影响。建议人工抽查部分结果,特别是金额字段。对于重要的财务数据,务必验证准确性。
如果发票格式统一(如都来自同一平台),可以让 Claude 创建专用的解析模板,提高识别准确率和速度。
常见问题
Q: 手写发票可以识别吗? A: 手写内容识别准确率较低,建议只处理打印发票。如果必须处理手写发票,可以使用更高级的OCR服务或人工录入。
Q: 电子发票和扫描发票有区别吗? A: 电子发票(PDF格式)可以直接提取文字,准确率高。扫描发票需要OCR识别,准确率取决于扫描质量。
Q: 如何处理多页发票? A: Claude 会将多页内容合并处理。如果每页是独立发票,告诉 Claude 按页拆分为单独记录。