[sg_popup id=1]
Hola a todos, continuando con nuestro post de Data Profiling, en la primera parte terminanos generando el archivo XML (Employee_Profile.xml). Ahora, ¿Qué utilidad concreta nos dará el Data Profiling? Imaginemos que requerimos analizar a los clientes que nos han generado una venta, y el data profiling nos arroja que solamente tenemos el 10% de datos poblados. Ello nos llevaría a replantear el uso de este campo o el poblar previamente este dato para nuestro análisis.
Evaluemos el resultado de nuestro caso planteado, para ello utilizaremos la herramienta Data Profile Viewer, el cual lo encontraremos en la siguiente ruta: All Programs, Microsoft SQL Server 2008 R2, Integration Services, Data ProfilerViewer.
Seleccionamos la opción Openy buscamos nuestro archivo XML, y le damos clic en Abrir:
A continuación, cambiamos el modo de visualización a Columna:
Luego podemos observar las columnas del a vista vSalesPerson:
Lo primero que revisaremos será el campo Candidate Key Profiles, le damos clic en el panel izquierdo y en el panel derecho comprobaremos las columnas que forman parte de la clave y su unicidad, en este caso son 7 columnas y su unicidad a través de toda la tabla es 100%. Si no existiera unicidad, se mostraría en el panel de Key Violations:
Revisemos ahora el campo TerritoryName, con el atributo Column Length Distribution Profiles, en el lado derecho le damos clic a la columna TerritoryName y en Length Distribution, le damos doble clic a la primera fila con longitud 6. Podemos observar que el TerritoryName con 6 caracteres de longitud tiene 3 filas u ocurrencias, el cual se muestra en el panel inferior.
¿Cuál será el mínimo y máximo de longitud de este campo? (1)
Ahora veremos el ratio de valores nulos, para ello le damos clic en el panel izquierdo, ColumnNull Ratio Profiles, y podemos observar que son 3 los valores nulos que corresponden a un 17.6471% y cuyo detalle se muestra en el panel inferior:
Ahora seleccionemos el atributo Column Value Distribution Profiles, y podremos responder a las siguientes preguntas: ¿Cuántos valores únicos existen? ¿Cuánto valores son usados sólo 1 vez?(2)
Como vemos la tarea ETL Data Profiling Task nos es muy útil y práctico para hacer análisis previo de los datos.
Hasta un próximo post.
Repuestas: