Data Profiling (Parte 1)

Dentro de las técnicas ETL (léase Extracción, Transformación y Carga de datos, en español), un paso previo es todo proyecto de Inteligencia de Negocios es verificar la calidad de la data, esta técnica es llamada Data Profiling.

Microsoft ha introducido desde la versión 2008 esta tarea muy útil en la verificación de la calidad de los datos. En esta primera parte veamos su configuración, y su interpretación será abordada en una segunda parte:

NOTA: Para obtener las fuentes del proyecto hacer clic en la imagen: 

1.- Creamos a través del Business Intelligence Development Studio, un proyecto utilizando la plantilla Integration Services Project con el nombre Data Warehouse ETL y un paquete al cual llamaremos Profile_Employee_Data.dtsx.

clip_image002

clip_image004

2.- La tarea Data Profiling, requiere de una conexión utilizando el provider ADO.NET, para ello crearemos un Connection Manager a la base de datos AdventureWorks2008R2.

clip_image006

clip_image008

3.- Luego colocamos desde el Tool Box, la tarea Data Profiling.

clip_image010

4.- Editamos la tarea Data Profiling para configurar sus propiedades:

clip_image012

En esta pantalla de edición, damos clic al botón Quick Profile, para iniciar el asistente de profiling:

clip_image014

Seleccionamos en el ADO.NET, la conexión ya creada en los pasos anteriores, y la opción de Tabla o Vista, seleccionamos la vista [Sales].[vSalesPerson] y todos los check box:

clip_image016

A continuación nos mostrará los perfiles de datos que nos evaluará el profiling, por ejemplo: valores nulos, estadísticas de valores, distribución de tamaño de columnas, distribución de valores de las columnas, etc.

clip_image018

A continuación nos posicionamos en la pestaña General, Destination, para crear la conexión al archivo XML donde se guardarán el resultado del análisis realizado por el Data Profiling Task:

clip_image020

La opción que usaremos será Create file y el archivo se llamará Employee_Profile.xml:

clip_image022

5.- El paso final para esta primera parte es procesar el paquete Integration Services:

clip_image024

El resultado del Data Profiling ha sido generado por el paquete Integration Services, en un archivo XML, el cuál lo analizaremos en la segunda parte de este post.

Hasta la próxima…!!!!

Vea la parte 2 de este artículo hacindo clic aquí

Deja un comentario

Tu dirección de correo electrónico no será publicada.