Deduplicación y Limpieza de Datos
Eliminar registros duplicados, manejar valores nulos y atípicos para mejorar la calidad de datos
Descripcion General
Los datos del mundo real a menudo contienen duplicados, errores, valores faltantes y otros problemas. Claude puede ayudarle a identificar y limpiar estos problemas, mejorando la calidad de los datos para analisis posteriores mas precisos.
Casos de Uso
- Limpiar registros duplicados en bases de datos de clientes
- Manejar envios de formularios duplicados
- Estandarizar formatos de datos inconsistentes
- Rellenar o eliminar valores faltantes
Pasos
Paso 1: Evaluacion de Calidad de Datos
Primero analice que problemas existen en los datos.
Por favor analice la calidad de datos de ~/data/customers.csv:
- Total de registros y cantidad de campos
- Numero de filas completamente duplicadas
- Porcentaje de valores faltantes para cada campo
- Campos con formatos inconsistentes (telefono, email, fecha, etc.)
- Anomalias o datos obviamente incorrectos
Genere un reporte de calidad de datos
Paso 2: Eliminar Duplicados Exactos
Elimine registros donde todos los campos sean identicos.
Por favor elimine las filas exactamente duplicadas de customers.csv:
- Mantenga la primera ocurrencia de cada registro
- Cuente cuantos fueron eliminados
- Guarde en ~/data/customers_dedup.csv
- Guarde los duplicados eliminados en un archivo separado para revision
Paso 3: Deduplicacion Difusa
Identifique registros duplicados similares pero no exactamente identicos.
Identifique casi-duplicados basandose en campos clave:
- Determine si es la misma persona basandose en "Nombre" y "Telefono"
- Ignore diferencias de mayusculas/minusculas, espacios y puntuacion
- Agrupe y liste los registros potencialmente duplicados
- Para cada grupo, sugiera cual registro mantener (informacion mas completa)
Dejeme confirmar antes de eliminar
Paso 4: Manejar Valores Faltantes
Maneje valores nulos segun diferentes estrategias.
Para los valores faltantes, por favor maneje segun estas reglas:
- Campo "Nombre": Eliminar fila completa (campo requerido)
- Campo "Telefono": Marcar como "No Proporcionado"
- Campo "Edad": Rellenar con valor mediano
- Campo "Direccion": Mantener valor nulo
- Genere un reporte de procesamiento explicando el metodo de manejo y cantidad de filas afectadas para cada campo
Paso 5: Estandarizar Formatos
Unifique los formatos de datos.
Por favor estandarice los siguientes formatos de campos:
- Numeros de telefono: Unificar a formato XXX-XXXX-XXXX, eliminar +86, parentesis, etc.
- Email: Convertir a minusculas
- Fecha: Unificar a formato YYYY-MM-DD
- Direccion: Eliminar espacios al inicio/final, estandarizar abreviaturas de nombres de provincias
Guarde los datos limpios en ~/data/customers_cleaned.csv
Advertencia: La limpieza de datos puede resultar en perdida de informacion. Asegurese de mantener una copia de seguridad de los datos originales. Para la deduplicacion difusa, se recomienda confirmar manualmente antes de eliminar en lote.
Consejo: Cree un registro de limpieza de datos para documentar cada operacion y la cantidad de registros afectados para trazabilidad y auditoria.
Preguntas Frecuentes
P: Como determinar cuales registros son realmente duplicados? R: Los registros identicos son definitivamente duplicados. Para registros similares, se necesita juicio basado en logica de negocio, como la misma persona ingresando datos de diferentes maneras. Se recomienda mostrar grupos primero, luego eliminar despues de confirmacion manual.
P: Eliminar valores faltantes perdera demasiados datos? R: Depende del porcentaje de valores faltantes. Si un campo tiene mas del 50% faltante, eliminar esas filas perderia muchos datos. Considere eliminar la columna o rellenar con valores predeterminados.
P: Como verificar los resultados de la limpieza? R: Claude puede generar reportes comparativos de antes/despues, incluyendo cambios en cantidad de registros, cambios en distribucion de datos, etc., para ayudarle a verificar si la limpieza fue razonable.