Data Profiling (Parte 2)

[sg_popup id=1]

Hola a todos, continuando con nuestro post de Data Profiling, en la primera parte terminanos generando el archivo XML (Employee_Profile.xml). Ahora, ¿Qué utilidad concreta nos dará el Data Profiling? Imaginemos que requerimos analizar a los clientes que nos han generado una venta, y el data profiling nos arroja que solamente tenemos el 10% de datos poblados. Ello nos llevaría a replantear el uso de este campo o el poblar previamente este dato para nuestro análisis.

Evaluemos el resultado de nuestro caso planteado, para ello utilizaremos la herramienta Data Profile Viewer, el cual lo encontraremos en la siguiente ruta: All Programs, Microsoft SQL Server 2008 R2, Integration Services, Data ProfilerViewer.

Seleccionamos la opción Openy buscamos nuestro archivo XML, y le damos clic en Abrir:

clip_image002

A continuación, cambiamos el modo de visualización a Columna:

clip_image004

 

Luego podemos observar las columnas del a vista vSalesPerson:

clip_image006

 

Lo primero que revisaremos será el campo Candidate Key Profiles, le damos clic en el panel izquierdo y en el panel derecho comprobaremos las columnas que forman parte de la clave y su unicidad, en este caso son 7 columnas y su unicidad a través de toda la tabla es 100%. Si no existiera unicidad, se mostraría en el panel de Key Violations:

clip_image008

Revisemos ahora el campo TerritoryName, con el atributo Column Length Distribution Profiles, en el lado derecho le damos clic a la columna TerritoryName y en Length  Distribution, le damos doble clic a la primera fila con longitud 6. Podemos observar que el TerritoryName con 6 caracteres de longitud tiene 3 filas u ocurrencias, el cual se muestra en el panel inferior.

clip_image010

¿Cuál será el mínimo y máximo de longitud de este campo? (1)

Ahora veremos el ratio de valores nulos, para ello le damos clic en el panel izquierdo, ColumnNull Ratio Profiles, y podemos observar que son 3 los valores nulos que corresponden a un 17.6471% y cuyo detalle se muestra en el panel inferior:

 

clip_image012

Ahora seleccionemos el atributo Column Value Distribution Profiles, y podremos responder a las siguientes preguntas: ¿Cuántos valores únicos existen? ¿Cuánto valores son usados sólo 1 vez?(2)

Como vemos la tarea ETL Data Profiling Task nos es muy útil y práctico para hacer análisis previo de los datos.

Hasta un próximo post.

 

Repuestas:

clip_image002[4]

Deja un comentario

Tu dirección de correo electrónico no será publicada.