📊 数据处理
数据去重与清洗
清除数据集中的重复记录,处理空值和异常值,提升数据质量
★★☆ 中级 15-20 min 2025年1月12日
概述
真实世界的数据常常包含重复、错误、缺失值等问题。Claude 可以帮你识别并清理这些问题,提升数据质量,让后续分析更准确。
适用场景
- 清理客户数据库中的重复记录
- 处理表单提交的重复数据
- 标准化不一致的数据格式
- 填充或删除缺失值
操作步骤
1
数据质量评估
先分析数据存在哪些问题。
请分析 ~/data/customers.csv 的数据质量:
- 总记录数和字段数
- 完全重复的行数
- 每个字段的缺失值比例
- 数据格式不一致的字段(如电话、邮箱、日期)
- 异常值或明显错误的数据
生成数据质量报告
2
删除完全重复
移除所有字段都相同的记录。
请删除 customers.csv 中的完全重复行:
- 保留第一次出现的记录
- 统计删除了多少条
- 保存到 ~/data/customers_dedup.csv
- 将删除的重复记录保存到单独文件供检查
3
模糊去重
识别内容相似但不完全相同的重复记录。
基于关键字段识别近似重复:
- 根据”姓名”和”电话”判断是否为同一人
- 忽略大小写、空格、标点符号差异
- 将可能重复的记录分组列出
- 对于每组,建议保留哪条记录(信息最完整的)
让我确认后再删除
4
处理缺失值
根据不同策略处理空值。
对于缺失值,请按以下规则处理:
- “姓名”字段:删除整行(必填字段)
- “电话”字段:标记为”未提供”
- “年龄”字段:填充为中位数
- “地址”字段:保留空值
- 生成处理报告,说明每个字段的处理方式和影响行数
5
标准化格式
统一数据格式。
请标准化以下字段格式:
- 电话号码:统一为 XXX-XXXX-XXXX 格式,删除 +86、括号等
- 邮箱:转为小写
- 日期:统一为 YYYY-MM-DD 格式
- 地址:去除首尾空格,统一省份名称缩写
输出清洗后的数据到 ~/data/customers_cleaned.csv
数据清洗可能导致信息丢失!务必保留原始数据备份。对于模糊去重,建议人工确认后再批量删除。
创建数据清洗日志,记录每步操作和影响的记录数,便于追溯和审计。
常见问题
Q: 如何判断哪些记录是真正的重复? A: 完全相同的记录肯定是重复。对于相似记录,需要根据业务逻辑判断,如同一人的不同填写方式。建议先分组展示,人工确认后再删除。
Q: 删除缺失值会不会丢失太多数据? A: 看缺失比例。如果某字段缺失超过 50%,删除该行会损失大量数据,可以考虑删除该列或填充默认值。
Q: 如何验证清洗结果? A: Claude 可以生成清洗前后的对比报告,包括记录数变化、数据分布变化等,帮你验证清洗是否合理。