MonografíadeAdscripción: …exa.unne.edu.ar/depar/areas/informatica/SistemasOperativ... · 2020....

Universidad Nacional del NordesteFacultad de Ciencias Exactas y Naturales y

Agrimensura

Monografía de Adscripción:Sistemas de Bases de Datos Multiplataforma

Integrados a Sistemas Móviles

Alumna: Paola Itatí Aguirre-LU: 38046Prof. Director: Mgter. David Luis La Red Martínez

Licenciatura en Sistemas de InformaciónCorrientes-Argentina

2010

Índice general

1. Introducción 1

2. ¿Qué es un Data Warehouse? 52.1. Nociones Acerca de un DW . . . . . . . . . . . . . . . . . . . . 52.2. ¿Qué es lo que Preocupa a los Ejecutivos? . . . . . . . . . . . . 62.3. Objetivos del Data Warehouse . . . . . . . . . . . . . . . . . . 6

3. Sistemas de Información 93.1. Esquema General de los SI . . . . . . . . . . . . . . . . . . . . . 9

3.1.1. Sistemas Estratégicos . . . . . . . . . . . . . . . . . . . 103.1.2. Sistemas Tácticos . . . . . . . . . . . . . . . . . . . . . 103.1.3. Sistemas Técnico-Operativos . . . . . . . . . . . . . . . 113.1.4. Sistemas Interinstitucionales . . . . . . . . . . . . . . . 11

3.2. Datos Operacionales y Datos Informativos . . . . . . . . . . . . 113.3. Características del Data Warehouse . . . . . . . . . . . . . . . . 133.4. Impactos Técnicos de un DW . . . . . . . . . . . . . . . . . . . 21

4. Modelos de Datos 234.1. El Modelo Relacional . . . . . . . . . . . . . . . . . . . . . . . . 234.2. El Modelo Dimensional . . . . . . . . . . . . . . . . . . . . . . 24

4.2.1. Esquemas del Modelo Dimensional . . . . . . . . . . . . 254.2.2. Ventajas del Modelo Dimensional . . . . . . . . . . . . . 27

5. Operaciones en un Data Warehouse 315.1. Tipos de Operaciones . . . . . . . . . . . . . . . . . . . . . . . 31

6. Herramientas de Acceso y Uso 376.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376.2. OLAP (On Line Analytical Processing) . . . . . . . . . . . . . 386.3. Data Mining (Minería de Datos) . . . . . . . . . . . . . . . . . 41

��

�� ÍNDICE GENERAL

7. Conclusión 47

Bibliografía 49

Índice alfabético 51

Índice de figuras

3.1. Sistema de Informción. Esquema. . . . . . . . . . . . . . . . . . 103.2. Características del Data Warehouse. Orientado a una materia. 143.3. Características del Data Warehouse. Integración. . . . . . . . . 183.4. Características del Data Warehouse. Tiempo Variante. . . . . . 193.5. Características del Data Warehouse. No Volátil. . . . . . . . . . 21

4.1. Modelo de Datos. Esquema en Estrella. . . . . . . . . . . . . . 264.2. Modelos de Datos. Esquema Copo de Nieve. . . . . . . . . . . . 28

5.1. Operaciones en el Data Warehouse. . . . . . . . . . . . . . . . . 32

6.1. Estructura Multidimensional. . . . . . . . . . . . . . . . . . . . 396.2. Modelo ROLAP y MOLAP. . . . . . . . . . . . . . . . . . . . . 406.3. Etapas en un Proyecto de MD. . . . . . . . . . . . . . . . . . . 43

�

Capítulo 1

Introducción

La ubicuidad es la propiedad por la cual una entidad existe o se encuen-tra en todos los sitios al mismo tiempo. La Computación Ubicua pretende laintegración de las nuevas tecnologías en el entorno personal, insertando dis-positivos inteligentes en las tareas diarias, haciendo que interactúen de formanatural y desinhibida en todo tipo de situaciones y circunstancias. De esta for-ma se pretende unir el mundo real con una representación virtual, apoyándosesobre la inteligencia ambiental y logrando el entorno inteligente.

Uno de los objetivos más importantes de la Computación Ubicua es inte-grar los dispositivos computacionales lo más posible, para hacer que se mezclenen la vida cotidiana, y permitir a los usuarios centrarse en las tareas que debenhacer, y no en las herramientas que deben usar, pudiendo suponer una revolu-ción que cambie el modo de vida.

Para lograr la integración de los dispositivos móviles se utiliza el protocolode aplicaciones inalámbricas, Wireless Application Protocol o WAP; es un es-tándar abierto internacional para aplicaciones que utilizan las comunicacionesinalámbricas, por ej., acceso a servicios de Internet desde un teléfono móvil.

Se trata de la especificación de un entorno de aplicación y de un conjunto deprotocolos de comunicaciones para normalizar el modo en que los dispositivosinalámbricos se pueden utilizar para acceder a correo electrónico, grupo denoticias y otros.

El organismo que se encarga de desarrollar el estándar WAP fue original-mente elWAP Forum, fundado por cuatro empresas del sector de las comuni-

1

2 CAPÍTULO 1. INTRODUCCIÓN

caciones móviles, Sony-Ericsson, Nokia, Motorola y Openwave (originalmenteUnwired Planet). Desde 2002 el WAP Forum es parte de la Open Mobile Al-liance (OMA), consorcio que se ocupa de la definición de diversas normasrelacionadas con las comunicaciones móviles, entre ellas las normas WAP.

Los dispositivos de computación inalámbrica han crecido rápidamente, re-quiriendo aplicaciones de software cada vez más potentes que puedan manejaresta nueva realidad. Los usuarios desean que las aplicaciones que corren ensus dispositivos móviles tengan la misma funcionalidad estando conectados odesconectados de la red. Esperan aplicaciones que puedan soportar conexionesintermitentes, anchos de banda cambiantes y que manejen eficientemente elproblema del roaming.

Los dispositivos móviles pueden acceder a sistemas de bases de datos multi-plataforma, término usado para referirse a los programas, sistemas operativos,lenguajes de programación, u otra clase de software, que puedan funcionaren diversas plataformas., ejemplo DB2. Una plataforma es una combinaciónde hardware y software usada para ejecutar aplicaciones, en su forma mássimple consiste únicamente de un sistema operativo, una arquitectura, o unacombinación de ambos.

En muchos sistemas no solo se accede a las bases de datos sino también alos Data Warehouse. Debido a que los niveles gerenciales necesitan a menudotomar decisiones de alto nivel, cruciales para el funcionamiento de la empresa.

El Data Warehouse permite que los gerentes tomen decisiones siguiendo unenfoque racional, basados en información confiable y oportuna. Consiste bási-camente en la transformación de los datos operacionales en información útilpara decidir. El uso del Data Warehouse permite también encontrar relacionesocultas entre los datos y predecir el comportamiento futuro bajo condicionesdadas.

El trabajo con los Data Warehouses es diferente al de los sistemas transac-cionales. Se modelan los datos a partir de dimensiones, en lugar del tradicionalmodelado relacional, y las herramientas de acceso a los datos se basan enuna tecnología de procesamiento analítico (OLAP), distinta al procesamientotransaccional (OLTP) de los sistemas operacionales.

Los datos operacionales que sirven de entrada al Data Warehouse general-mente están dispersos en distintos sistemas de la organización, desarrolladosen diferentes entornos de desarrollo, por diferentes personas y en diferentesmomentos. Es tarea fundamental del Data Warehouse recolectarlos, unificar-

los y depurarlos según las necesidades del negocio, eliminando inconsistenciasy conservando sólo la información útil para los objetivos empresariales. Estose lleva a cabo mediante procesos que se ejecutan periódicamente y conducena mantener la información actualizada.

Las aplicaciones de usuario final que acceden al Data Warehouse brindan alos gerentes la posibilidad de ver la información con diferentes niveles de agre-gación (detallados o resumidos) y filtrar las consultas por distintas variables.

Finalmente, el Data Warehouse permite aplicar herramientas como el DataMining , para encontrar relaciones entre los datos a fin de comprender lascausas de variabilidad presentes y realizar pronósticos con el apoyo de modelosestadísticos.

En la sociedad actual, la información constituye un activo esencial decualquier organización proporcionando beneficios significativos, tangibles ycuantificables. Como consecuencia, la integración de un Data Warehouse ala empresa representa una ventaja competitiva en el mundo de los negociosy acceder a ellos desde los dispositivos móviles es una alternativa adicionalimportante.

4 CAPÍTULO 1. INTRODUCCIÓN

Capítulo 2

¿Qué es un Data Warehouse?

2.1. Nociones Acerca de un DW

De acuerdo con W. H. Inmon, quien es considerado como el padre del DataWarehouse: un Data Warehouse es un conjunto de datos integrados orientadosa una materia que varían con el tiempo y que no son transitorios, los cualessoportan el proceso de toma de decisiones de una administración.

De acuerdo con algunas organizaciones, el Data Warehouse es una arquitec-tura. Para otras, es un depósito semánticamente consistente en datos (separa-dos y que no interfieren con los sistemas operativos y de producción existentes)que llenan por completo los diferentes requerimientos de acceso y reporte dedatos. Para algunos otros, el Data Warehouse es un proceso continuo quemezcla los datos de varias fuentes heterogéneas, incluyendo datos históricosy adquiridos para soportar la constante necesidad de consultas estructuradasy/o ad hoc, reportes analíticos y soporte de decisiones.

Así como hay gran divergencia para establecer una definición precisa deun Data Warehouse, hay un claro consenso de que la tecnología del DataWarehouse es un ingrediente esencial en el conjunto de soluciones para elsoporte de decisiones en una empresa.

Un DW es una base de datos corporativa que se caracteriza por integrary depurar información de una o más fuentes distintas, para luego procesarlapermitiendo su análisis desde infinidad de perspectivas y con grandes veloci-dades de respuesta. La creación de un DW representa en la mayoría de las

5

6 CAPÍTULO 2. ¿QUÉ ES UN DATA WAREHOUSE?

ocasiones el primer paso, desde el punto de vista técnico, para implantar unasolución completa y fiable de Business Intelligence.

Es un repositorio de datos de muy fácil acceso, alimentado de numerosasfuentes, transformadas en grupos de información sobre temas específicos denegocios, para permitir nuevas consultas, análisis y decisiones.

2.2. ¿Qué es lo que Preocupa a los Ejecutivos?

Se tienen montañas de datos en la compañía, pero no podemos llegar aellos adecuadamente. Nada enloquece más a los ejecutivos que dos personaspresentando el mismo resultado de operación pero con diferentes números ylos ejecutivos lo que buscan es ver la información pero desde diferentes án-gulos, mostrando únicamente lo que es importante para tomar una decisiónen la empresa, finalmente los ejecutivos saben que hay datos que nunca seránconfiables, por lo que prefieren que se eviten en los reportes ejecutivos.

Uno de los valores más importantes de una organización es la información.

Estos valores normalmente son guardados por la organización de dos for-mas:

Los sistemas operacionales de registros.

El Data Warehouse.

Crudamente hablando, los sistemas operacionales de registros son dondelos datos son depositados y el DW es de donde se extraen los datos para latoma de decisiones.

2.3. Objetivos del Data Warehouse

Hace que la información de la organización sea accesible: los contenidosdel DW son entendibles y navegables, y el acceso a ellos está caracterizadopor el rápido desempeño. Estos requerimientos no tienen fronteras y tampocolímites fijos. Cuando hablamos de entendible significa que los niveles de lainformación sean correctos y obvios. Navegables significa el reconocer el destino

en la pantalla y llegar a donde queramos con solo un click. Rápido desempeñosignifica, cero tiempos de espera. Todo lo demás es un compromiso y porconsiguiente algo que se quiere mejorar.

Hace que la información de la organización sea consistente: la informaciónde una parte de la organización puede hacerse coincidir con la informaciónde la otra parte de la organización. Si dos medidas de la organización tienenel mismo nombre, entonces deben significar la misma cosa. Y a la inversa, sidos medidas no significan la misma cosa, entonces son etiquetados diferentes.Información consistente significa, información de alta calidad. Significa quetoda la información es contabilizada y completada.

Es información adaptable y elástica: el DW está diseñado para cambioscontinuos. Cuando se le hacen nuevas preguntas al DW y se le agregan datosnuevos, los datos existentes y las tecnologías no cambian ni se corrompen.

Es fundamental para la toma de decisiones : el DW tiene los datos correctospara soportar la toma de decisiones. Podría decirse que la salida verdadera delDW son las decisiones que se toman después de que el DW haya presentado lasevidencias. Se pretende utilizar el DW para construir un sistema de soporte alas decisiones.

8 CAPÍTULO 2. ¿QUÉ ES UN DATA WAREHOUSE?

Capítulo 3

Sistemas de Información

3.1. Esquema General de los SI

Hay funciones dentro de la empresa que tienen que ver con el planeamiento,previsión y administración de la organización. Estas funciones son críticas parala supervivencia de la organización, especialmente en un mundo de rápidoscambios.

Las funciones como planificación de marketing, planeamiento de ingenieríay análisis financiero, requieren, además, de sistemas de información que lassoporte.

Pero estas funciones son diferentes de las operacionales y los tipos de sis-temas y la información requerida son también diferentes. Las funciones basadasen el conocimiento son los Sistemas de Soporte de Decisiones (SSD).

Estos sistemas están relacionados con el análisis de los datos y la toma dedecisiones, frecuentemente, decisiones importantes sobre cómo operará la em-presa, ahora y en el futuro. Estos sistemas no sólo tienen un enfoque diferenteal de los operacionales, sino que, por lo general, tienen un alcance diferente.

Mientras las necesidades de los datos operacionales se enfocan normalmentehacia una sola área, los datos para el soporte de decisiones, con frecuencia,toman un número de áreas diferentes y necesitan cantidades grandes de datosoperacionales relacionadas.

Son estos sistemas sobre los que se basa la tecnología Data Warehousing

9

10 CAPÍTULO 3. SISTEMAS DE INFORMACIÓN

Figura 3.1: Sistema de Informción. Esquema.

que se han dividido de acuerdo al esquema que se puede visualizar en la figura3.1 de la página 10.

3.1.1. Sistemas Estratégicos

Orientados a soportar la toma de decisiones, facilitan la labor de la direc-ción, proporcionándole un soporte básico, en forma de mejor información, parala toma de decisiones. Se caracterizan porque son sistemas sin carga periódicade trabajo, es decir, su utilización no es predecible. Destacan entre estos sis-temas: los Sistemas de Información Gerencial (MIS), Sistemas de InformaciónEjecutivos (EIS), Sistemas de Información Georeferencial (GIS), Sistemas deSimulación de Negocios (BIS y que en la práctica son Sistemas Expertos o deInteligencia Artificial-AI).

3.1.2. Sistemas Tácticos

Diseñados para soportar las actividades de coordinación de actividades ymanejo de documentación, definidos para facilitar consultas sobre informaciónalmacenada en el sistema, proporcionar informes y, en resumen, facilitar la

3.2. DATOS OPERACIONALES Y DATOS INFORMATIVOS 11

gestión independiente de la información por parte de los niveles intermedios dela organización. Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemasde Transmisión de Mensajería (E-mail y Fax Server), coordinación y control detareas (Work Flow) y tratamiento de documentos (Imagen, Trámite y Basesde Datos Documentarios).

3.1.3. Sistemas Técnico-Operativos

Cubren el núcleo de operaciones tradicionales de captura masiva de datos(Data Entry) y servicios básicos de tratamiento de datos, con tareas pre-definidas (contabilidad, facturación, almacén, presupuesto, personal y otrossistemas administrativos). Estos sistemas están evolucionando con la irrup-ción de sensores, autómatas, sistemas multimedia, bases de datos relacionalesmás avanzadas y data warehousing.

3.1.4. Sistemas Interinstitucionales

Este último nivel de sistemas de información recién está surgiendo, es con-secuencia del desarrollo organizacional orientado a un mercado de carácterglobal, el cual obliga a pensar e implementar estructuras de comunicaciónmás estrechas entre la organización y el mercado (Empresa Extendida, Or-ganización Inteligente e Integración Organizacional), todo esto a partir de lageneralización de las redes informáticas de alcance nacional y global (Inter-net), que se convierten en vehículo de comunicación entre la organización y elmercado, no importa dónde esté la organización (Intranet), el mercado de lainstitución (Extranet) y el mercado (Red Global).

Sin embargo, la tecnología data warehousing basa sus conceptos y diferen-cias entre dos tipos fundamentales de sistemas de información en todas lasorganizaciones: los sistemas técnico-operacionales y los sistemas de soporte dedecisiones. Este último es la base de un data warehouse [1].

3.2. Datos Operacionales y Datos Informativos

El proceso automatizado de un negocio utiliza datos operacionales, los queconstituyen el conjunto de registros de las transacciones del negocio.


Estos datos son creados durante la ejecución de estos procesos y son al-macenados en un archivo o en una base de datos. Frecuentemente contienenvalores incorrectos, son muy detallados y son de mínimo uso en los negociosdebido a su gran volumen, ubicación y formatos.

En conclusión, es difícil para los usuarios del negocio tener acceso a losdatos operacionales debido a las limitaciones de performance y tecnología.

Lo que el usuario del negocio necesita como entrada a sus actividades deanálisis son datos informativos.

Estos son una combinación de datos operacionales que han sido modifi-cados, depurados, transformados, consolidados y organizados desde diversasfuentes externas al proceso del negocio.

Este tipo de información generalmente es específico para un conjunto deusuarios del negocio que lo hacen significante y útil para su análisis.

Ambos tipos de datos y ambos tipos de uso son muy importantes, pero esdifícil cumplir con ambos propósitos en el mismo sistema.

Los datos operacionales son específicos para cada aplicación y usualmenteson almacenados de manera separada por otras aplicaciones. Estos datos sonútiles en la medida en que se aprovechen para satisfacer el proceso de lasaplicaciones predefinidas.

Mayormente se requieren sólo datos actuales y estos deben ser mantenidosal día haciendo actualizaciones frecuentes en la base de datos. En cambio,para los datos informativos, el usuario necesita datos que crucen por variasaplicaciones, que estén reorganizados por temas de negocio, que contenganvalores históricos, que se encuentren disponible para análisis durante períodoslargos y que sea accesible de manera fácil y flexible.

Los datos operacionales son manejados, precisamente, por los sistemas ope-racionales o transaccionales (On Line Transactional Processing, OLTP), loscuales se concentran en la administración y la medición de indicadores empre-sariales (capital e inversión), indicadores financieros (márgenes de utilidades,rotación de inventarios), indicadores de ventas (identificación de clientes per-sistentes), etc.

Por su parte, los datos informativos son los que conforman un DW, elcual tiene como fin comprender, medir y administrar parámetros empresarialesestratégicos, como el crecimiento del ingreso y rentabilidad, la participación

3.3. CARACTERÍSTICAS DEL DATA WAREHOUSE 13

del mercado y los segmentos del cliente.

En el siguiente cuadro se muestran las diferencias entre los datos operacio-nales y los datos informativos.

Datos Operacionales:

Orientados a una aplicación.

Integración limitada.

Constantemente actualizados.

Sólo valores actuales.

Soportan operaciones diarias.

Datos Informativos:

Orientados a un tema.

Integrados.

No volátiles.

Valores a lo largo del tiempo.

Soportan decisiones de administración.

3.3. Características del Data Warehouse

Entre sus principales características tenemos:

Orientado a Temas

Una primera característica del DW es que la información se clasifica en basea los aspectos que son de interés para la empresa. Siendo así, los datos tomadosestán en contraste con los clásicos procesos orientados a las aplicaciones.

El contraste entre los dos tipos de orientaciones se visualiza en la figura3.2 de la página 14.


Figura 3.2: Características del Data Warehouse. Orientado a una materia.


El ambiente operacional se diseña alrededor de las aplicaciones y funcionestales como préstamos, ahorros, tarjeta bancaria y depósitos para una insti-tución financiera. Por ejemplo, una aplicación de ingreso de órdenes puedeacceder a los datos sobre clientes, productos y cuentas. La base de datos com-bina estos elementos en una estructura que acomoda las necesidades de laaplicación.

El ambiente DW se organiza alrededor de sujetos tales como cliente, vende-dor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden serclientes, productos, proveedores y vendedores. Para una universidad puedenser estudiantes, clases y profesores. Para un hospital pueden ser pacientes,personal médico, medicamentos, etc.

La alineación alrededor de las áreas de los temas afecta el diseño y laimplementación de los datos encontrados en el DW. Las principales áreas delos temas influyen en la parte más importante de la estructura clave [2].

Las aplicaciones están relacionadas con el diseño de la base de datos y delproceso. En DW se enfoca el modelamiento de datos y el diseño de la basede datos. El diseño del proceso (en su forma clásica) no es separado de esteambiente.

Las diferencias entre la orientación de procesos, funciones de las aplica-ciones y la orientación a temas, radican en el contenido del dato a escaladetallada. En el DW se excluye la información que no será usada por el pro-ceso de sistemas de soporte de decisiones, mientras que la información de lasorientadas a las aplicaciones, contiene datos para satisfacer de inmediato losrequerimientos funcionales y de proceso, que pueden ser usados o no por elanalista de soporte de decisiones.

Otra diferencia importante está en la interrelación de la información. Losdatos operacionales mantienen una relación continua entre dos o más tablasbasadas en una regla comercial que está vigente. Las del DW miden un espec-tro de tiempo y las relaciones encontradas son muchas. Muchas de las reglascomerciales (y sus correspondientes relaciones de datos) se representan en elDW, entre dos o más tablas.

Integrado

Integra datos recolectados de diferentes sistemas operacionales de la orga-nización y o fuentes externas.


El aspecto más importante del ambiente DW es que la información encon-trada en el interior está siempre integrada.

La integración de los datos se muestra de muchas maneras: en conven-ciones de nombres consistentes, en la medida uniforme de variables, en lacodificación de estructuras consistentes, en atributos físicos de los datos con-sistentes, fuentes múltiples y otros.

A través de los años, los diseñadores de las diferentes aplicaciones hantomado sus propias decisiones sobre cómo se debería construir una aplicación.Los estilos y diseños personalizados se muestran de muchas maneras.

Se diferencian en la codificación, en las estructuras claves, en sus carac-terísticas físicas, en las convenciones de nombramiento y otros. La capacidadcolectiva de muchos de los diseñadores de aplicaciones, para crear aplicacionesinconsistentes.

Codificación. Los diseñadores de aplicaciones codifican el campo género envarias formas. Un diseñador representa género como una M y una F, otroscomo un 1 y un 0, otros como una X y una Y e inclusive, como masculino yfemenino.

No importa mucho cómo el género llega al DW. Probablemente M y Fsean tan buenas como cualquier otra representación. Lo importante es que seade cualquier fuente de donde venga, el género debe llegar al DW en un estadointegrado uniforme.

Por lo tanto, cuando el género se carga en el DW desde una aplicación,donde ha sido representado en formato M y F, los datos deben convertirse alformato del DW.

Medida de atributos. Los diseñadores de aplicaciones miden las unidadesde medida de las tuberías en una variedad de formas. Un diseñador almacenalos datos de tuberías en centímetros, otros en pulgadas, otros en millones depies cúbicos por segundo y otros en yardas.

Al dar medidas a los atributos, la transformación traduce las diversasunidades de medida usadas en las diferentes bases de datos para transfor-marlas en una medida estándar común.

Cualquiera que sea la fuente, cuando la información de la tubería llegue alDW necesitará ser medida de la misma manera.


Convenciones de nombramiento. El mismo elemento es frecuentementereferido por nombres diferentes en las diversas aplicaciones. El proceso detransformación asegura que se use preferentemente el nombre de usuario.

Fuentes múltiples. El mismo elemento puede derivarse desde fuentes múlti-ples. En este caso, el proceso de transformación debe asegurar que la fuenteapropiada sea usada, documentada y movida al depósito.

Tal como se muestra en la figura 3.3 de la página 18, los puntos de inte-gración afectan casi todos los aspectos de diseño - las características físicas delos datos, la disyuntiva de tener más de una de fuente de datos, el problema deestándares de denominación inconsistentes, formatos de fecha inconsistentes yotros.

Cualquiera que sea la forma del diseño, el resultado es el mismo; la infor-mación necesita ser almacenada en el DW en un modelo globalmente aceptabley singular, aun cuando los sistemas operacionales subyacentes almacenen losdatos de manera diferente.

Cuando el analista de sistema de soporte de decisiones observe el DW, suenfoque deberá estar en el uso de los datos que se encuentren en el depósito,antes que preguntarse sobre la confiabilidad o consistencia de los datos.

De Tiempo Variante (Variable en el Tiempo)

Los datos son relativos a un período de tiempo y estos deben ser integradosperiódicamente; los mismos son almacenados como fotos que se correspondena un período de tiempo como se puede visualizar en la figura 3.4 de la página19.

Toda la información del DW es requerida en algún momento. Esta carac-terística básica de los datos en un depósito, es muy diferente de la informaciónencontrada en el ambiente operacional. En éstos, la información se requiere almomento de acceder. En otras palabras, en el ambiente operacional, cuandose accede a una unidad de información, se espera que los valores requeridos seobtengan a partir del momento de acceso.

Como la información en el DW es solicitada en cualquier momento (esdecir, no ahora mismo), los datos encontrados en el depósito se llaman detiempo variante.

Los datos históricos son de poco uso en el procesamiento operacional. Lainformación del depósito, a su vez, debe incluir los datos históricos para usarse


Figura 3.3: Características del Data Warehouse. Integración.


Figura 3.4: Características del Data Warehouse. Tiempo Variante.

en la identificación y evaluación de tendencias [2].

El tiempo variante se muestra de varias maneras:

La más simple es que la información representa los datos sobre un hor-izonte largo de tiempo, desde cinco a diez años. El horizonte de tiemporepresentado para el ambiente operacional es mucho más corto; desde va-lores actuales hasta sesenta a noventa días. Las aplicaciones que tienen unbuen rendimiento y están disponibles para el procesamiento de transac-ciones, deben llevar una cantidad mínima de datos si tienen cualquiergrado de flexibilidad. Por ello, las aplicaciones operacionales tienen uncorto horizonte de tiempo, debido al diseño de aplicaciones rígidas.

La segunda manera en la que se muestra el tiempo variante en el DWestá en la estructura clave. Cada estructura clave en el DW contiene,implícita o explícitamente, un elemento de tiempo como día, semana,mes, etc.

La tercera manera en que aparece el tiempo variante es cuando la infor-mación del DW, una vez registrada correctamente, no puede ser actua-lizada. La información del DW es, para todos los propósitos prácticos,


una serie larga de snapshots (vistas instantáneas). Por supuesto, si lossnapshots de los datos se han tomado incorrectamente, entonces puedenser cambiados. Asumiendo que los snapshots se han tomado adecuada-mente, ellos no son alterados una vez hechos. En algunos casos puedeser no ético, e incluso ilegal, alterar los snapshots en el DW. Los datosoperacionales, siendo requeridos a partir del momento de acceso, puedenactualizarse de acuerdo a la necesidad [2].

No Volátil

Los datos que son almacenados no sufren ninguna actualización, sólo sonincrementados. El período cubierto para un DW va de 2 a 10 años.

La información es útil sólo cuando es estable. Los datos operacionales cam-bian sobre una base momento a momento. La perspectiva más grande, esencialpara el análisis y la toma de decisiones, requiere una base de datos estable.

Hay algunas consecuencias muy importantes de esta diferencia básica, entreel procesamiento operacional y del DW. En el nivel de diseño, la necesidad deser precavido para actualizar las anomalías no es un factor en el DW, yaque no se hace la actualización de datos. Esto significa que en el nivel físicode diseño, se pueden tomar libertades para optimizar el acceso a los datos,particularmente al usar la normalización y desnormalización física.

Otra consecuencia de la simplicidad de la operación del DW está en latecnología subyacente, utilizada para correr los datos en el depósito. Teniendoque soportar la actualización de registro por registro en modo on-line (como esfrecuente en el caso del procesamiento operacional) requiere que la tecnologíatenga un fundamento muy complejo debajo de una fachada de simplicidad [2].

Se muestra que la actualización (insertar, borrar y modificar), se hace re-gularmente en el ambiente operacional sobre una base de registro por registro.Pero la manipulación básica de los datos que ocurre en el DW es mucho mássimple. Hay dos únicos tipos de operaciones: la carga inicial de datos y elacceso a los mismos. No hay actualización de datos (en el sentido general deactualización) en el depósito, como una parte normal de procesamiento, comose puede visualizar en la figura 3.5 de la página 21.

3.4. IMPACTOS TÉCNICOS DE UN DW 21

Figura 3.5: Características del Data Warehouse. No Volátil.

3.4. Impactos Técnicos de un DW

Las principales razones para la construcción de un DW son las siguientes:

Proporciona una herramienta para la toma de decisiones en cualquierárea funcional, basándose en información integrada y global del negocio.

Facilita la aplicación de técnicas estadísticas de análisis y modelizaciónpara encontrar relaciones ocultas entre los datos del almacén; obteniendoun valor añadido para el negocio de dicha información.

Proporciona la capacidad de aprender de los datos del pasado y de pre-decir situaciones futuras en diversos escenarios.

Simplifica dentro de la empresa la implantación de sistemas de gestiónintegral de la relación con el cliente.

Supone una optimización tecnológica y económica en entornos de Centrode Información, estadística o de generación de informes con importantesretornos de la inversión.

Considerando las etapas de construcción, soporte del DW y soporte desistemas operacionales, se tienen los siguientes impactos técnicos:

Nuevas destrezas de desarrollo: Cuando se construye el DW, el im-pacto más grande sobre la gente técnica está dada por la curva de aprendizaje,muchas destrezas nuevas se deben aprender, incluyendo:

Conceptos y estructura DW.

El DW introduce muchas tecnologías nuevas (ETT, Carga, Acceso deDatos, Catálogo de Metadatos, Implementación de DSS/EIS), y cambiala manera en que se usa la tecnología existente. Nuevas responsabilidadesde soporte, nuevas demandas de recursos y nuevas expectativas, son losefectos de estos cambios.

Destrezas de diseño y análisis donde los requerimientos empresariales noson posibles de definir de una forma estable a través del tiempo.

Técnicas de desarrollo incremental y evolutivo.

Trabajo en equipo cooperativo con gente de negocios como participantesactivos en el desarrollo del proyecto.

Nuevas responsabilidades de operación: Cambios sobre los sistemasy datos operacionales deben ser examinados más cuidadosamente para deter-minar el impacto que estos cambios tienen sobre ellos, y sobre el DW.

Capítulo 4

Modelos de Datos

Para comprender uno de los aspectos más relevantes de la arquitecturadel DW, como es el modelado de datos, es necesario establecer primero lasdiferencias sustanciales entre los dos mundos de modelado existentes: entidad-relación (ER) y dimensional.

El modelado entidad-relación se utiliza habitualmente para crear un únicomodelo complejo de todos los procesos de una organización. Este enfoqueha demostrado ser efectivo para crear sistemas eficientes de procesamientotransaccional en línea (OLTP).

Por otra parte, el modelado dimensional crea modelos individuales parareflejar procesos discretos de negocio. Este modelado organiza la informaciónen estructuras que usualmente corresponden a la forma en que los analistasrealizan sus consultas de los datos del DW.

4.1. El Modelo Relacional

En la mayoría de los sistemas transaccionales el objetivo del modelo esgarantizar la integridad de los datos, además de eliminar cualquier tipo deredundancia en los datos. Este enfoque es perfecto para los entornos de proce-samiento transaccional, porque las transacciones son muy simples y determi-nistas.

El éxito del procesamiento transaccional en un entorno de bases de datos

23

24 CAPÍTULO 4. MODELOS DE DATOS

relacionales se debe básicamente a esta disciplina de modelado.

Sin embargo, para el propósito de un DW, el modelo relacional (ER) pre-senta los siguientes problemas:

Legibilidad limitada. Los usuarios finales no son capaces de entender elmodelo ER. Por tanto, no pueden navegar por dicho modelo en buscade información.

Dificultad para las herramientas de consulta en el acceso a un modeloER general. Las herramientas de consulta a menudo poseen prestacionesmediocres o inaceptables cuando se trabaja en entornos relacionales degrandes volúmenes de información.

La utilización de la técnica de modelado ER frustra el principal atractivodel DW. Al utilizar el modelado ER queda frustrada la recuperación deinformación intuitiva y con alto rendimiento.

4.2. El Modelo Dimensional

Es una técnica de diseño lógico que busca presentar la información enun marco estándar e intuitivo que permita un acceso de alto rendimiento.Este modelado se vale de los principios de la disciplina que emplea el modelorelacional con algunas importantes restricciones.

El modelado dimensional es esencialmente útil para resumir y organizar losdatos y la presentación de información para soportar el análisis de la misma.Existen algunos conceptos básicos para comprender la filosofía de este tipo demodelado: áreas tema, medidas, dimensiones y hechos.

Un área tema es una cuestión de interés de una función empresarial. Lasáreas tema en conjunto constituyen el ámbito de implementación del DW. Porejemplo, el departamento de Comercialización de una empresa puede estarinteresado en las áreas tema de pedidos, promociones, mercados y ventas.

Para especificar las áreas tema se deben identificar las medidas. Unamedi-da o indicador es un cuantificador del desempeño de un ítem o una actividaddel negocio. La información que brinda una medida es usada por los usuariosen sus consultas para evaluar el desempeño de un área tema.

4.2. EL MODELO DIMENSIONAL 25

El DW organiza un gran conjunto de datos operacionales mediante múlti-ples dimensiones. Una dimensión es una colección de miembros o entidadesdel mismo tipo y constituye un calificador conceptual que provee el contextoo significado para una medida.

La forma de representar la organización de los datos en un modelo di-mensional es a través de un cubo (el cual no necesariamente debe tener tresdimensiones). Los miembros de una dimensión pueden estar organizados enuna o más jerarquías.

Una jerarquía es un conjunto de miembros de una dimensión, los cuales sedefinen por su posición relativa con respecto a los otros miembros de la mismadimensión, y forman en su totalidad una estructura de árbol. Partiendo de laraíz del árbol, los miembros son progresivamente más detallados hasta llegara las hojas, donde se obtiene el mayor nivel de detalle.

Puede darse el caso en que una dimensión no necesite jerarquizarse debidoa que ninguno de sus miembros posee una posición relativa con respecto a losotros miembros. Por ejemplo, una dimensión cliente que tiene como miembrosnombre, sexo y fecha de nacimiento, no necesita organizar estos miembrosporque todos están al mismo nivel de detalle, a menos que se desee agruparlospor alguno de ellos para visualizar los datos.

4.2.1. Esquemas del Modelo Dimensional

Esquema Estrella (star): cada modelo dimensional está compuesto deuna tabla central con una clave primaria compuesta, denominada tabla dehechos; y un conjunto de tablas periféricas denominadas tablas de dimensiones.

Cada una de las tablas de dimensiones tiene una clave primaria que corres-ponde exactamente con uno de los componentes de la clave compuesta de latabla de hechos. Las tablas de hechos, además de sus campos clave, contienenuna o más medidas, indicadores o hechos. Las medidas más útiles en una tablade hechos son numéricas y aditivas. La aditividad es crucial porque las apli-caciones DW casi nunca recuperan un solo registro de la tabla de hechos, sinoque acceden a cientos, miles o incluso millones de registros a la vez.

Las tablas de dimensiones, por el contrario, contienen información textualdescriptiva. Los atributos de las dimensiones se emplean como fuente de lasrestricciones en las consultas al DW.


Figura 4.1: Modelo de Datos. Esquema en Estrella.

En el modelo estrella las dimensiones no se normalizan. Con ello se lograminimizar el número de uniones y, por consiguiente, incrementar el rendimien-to de las consultas (una tabla de hechos está relacionada con numerosas tablasde dimensiones), como se puede ver en la figura 4.1 de la página 26.

Esquema Copo de Nieve (snowflake): en este modelado se normalizanlas dimensiones reflejando las jerarquías en las mismas y conservando lo esen-cial del modelo en estrella que son las tablas de hechos. La ventaja del modelocopo de nieve es eliminar la redundancia de datos y por lo tanto ocupar menosespacio en disco.

En las bases de datos usadas para DW, un esquema en estrella es un modelode datos que tiene una tabla de hechos (o tabla fact) que contiene los datospara el análisis, rodeada de las tablas de dimensiones. Este aspecto, de tabla

4.2. EL MODELO DIMENSIONAL 27

de hechos (o central) más grande rodeada de radios o tablas más pequeñas eslo que asemeja a una estrella, dándole nombre a este tipo de construcciones.

Las tablas de dimensiones tendrán siempre una clave primaria simple,mientras que en la tabla de hechos, la clave principal estará compuesta por lasclaves principales de las tablas dimensionales.

Esquema en copo de nieve (bola de nieve) es una variedad más complejadel esquema estrella. Se utiliza cuando las tablas de dimensiones están muygrandes o complejas y es muy difícil representar los datos en esquema estrella.El problema es que para extraer datos de las tablas en esquema de copo denieve, a veces hay que vincular muchas tablas en las sentencias SQL, lo quepuede llegar a ser muy complejo y difícil para mantener. El afinamiento estáorientado a facilitar mantenimiento de dimensiones.

Lo que distingue a la arquitectura en esquema copo de nieve de la arqui-tectura en esquema estrella, es que las tablas de dimensiones en este modelorepresentan relaciones normalizadas (3NF) y forman parte de un modelo rela-cional de base de datos; como se puede ver en la figura 4.2 de la página 28.

4.2.2. Ventajas del Modelo Dimensional

El modelo dimensional presenta importantes ventajas de las que carece elmodelo relacional. Uno de los puntos fuertes del modelo dimensional es que elmarco predecible del esquema estrella resiste a los cambios inesperados en elcomportamiento del usuario.

Cada dimensión es equivalente a las demás y todas las dimensiones puedenser concebidas como puntos de entrada hacia la tabla de hechos. El diseño lógi-co puede realizarse independientemente de los patrones de consulta esperados,siendo consideradas de la misma forma tanto las interfaces de usuario comolas estrategias de consulta, así como el lenguaje de consulta generado contrael modelo dimensional.

Otra cualidad del modelo dimensional es la flexibilidad. Los nuevos elemen-tos de datos y las nuevas decisiones de diseño son fácilmente adaptables. Todaslas tablas pueden modificarse simplemente agregando nuevos registros de datoso se pueden incluir nuevas dimensiones al modelo sin necesidad de volver acargar los datos posteriormente. Además no es necesario volver a programarlas herramientas de consulta o de informes para adaptarse a los cambios, y las


Figura 4.2: Modelos de Datos. Esquema Copo de Nieve.

aplicaciones existentes pueden continuar su ejecución brindando los mismosresultados.

Las modificaciones ante las cuales el modelo dimensional es flexible in-cluyen:

Agregar medidas a la tabla de hechos, siempre que sean aditivas y con-sistentes con el mayor nivel de detalle de las dimensiones.

Agregar atributos a las dimensiones.

Agregar nuevas dimensiones, siempre que exista un único valor de dichadimensión definido para cada registro de la tabla de hechos.

Particionar los registros de una dimensión a un mayor nivel de detallea partir de un determinado punto en el tiempo. Los registros anteriorespermanecerán sin cambios mientras que los futuros registros se almace-narán de acuerdo al nuevo modelo.

Una ventaja adicional del modelo dimensional es el creciente número deutilidades administrativas y aplicaciones que gestionan y utilizan los agrega-dos. Los agregados son registros resumidos que son lógicamente redundantescon la información ya existente en el DW y son empleados para mejorar elrendimiento de las consultas.

Cualquier implementación de tamaño mediano o grande del DW requierela creación de una estrategia de agregados. Todas las aplicaciones softwarede gestión de agregados, así como las utilidades de navegación de agregados,dependen de una estructura específica de las tablas de hechos y dimensionesque es absolutamente dependiente del modelo dimensional. Si no se emplea elenfoque del modelo dimensional no es posible beneficiarse de tales aplicaciones.

Capítulo 5

Operaciones en un DataWarehouse

5.1. Tipos de Operaciones

En la figura 5.1 de la página 32 se muestran algunos de los tipos de opera-ciones que se efectúan dentro de un ambiente DW.

Sistemas Operacionales

Los datos administrados por los sistemas de aplicación operacionales sonla fuente principal de datos para el DW.

Las bases de datos operacionales se organizan como archivos indexados(UFAS, VSAM), bases de datos de redes / jerárquicas (I-D-S / II, IMS, IDMS)o sistemas de base de datos relacionales (DB2, Oracle, Informix, etc.). Segúnlas encuestas, aproximadamente del 70% a 80% de las bases de datos de lasempresas se organizan usando DBMSs no relacional.

Extracción, Transformación y Carga de los Datos

Se requieren herramientas de gestión de datos para extraer datos desdebases de datos y / o archivos operacionales, luego es necesario manipular otransformar los datos antes de cargar los resultados en el DW.

Tomar los datos desde varias bases de datos operacionales y transformarlosen datos requeridos para el depósito, se refiere a la transformación o a la inte-

31

32 CAPÍTULO 5. OPERACIONES EN UN DATA WAREHOUSE

Figura 5.1: Operaciones en el Data Warehouse.

5.1. TIPOS DE OPERACIONES 33

gración de datos. Las bases de datos operacionales, diseñadas para el soportede varias aplicaciones de producción, frecuentemente difieren en el formato.

Los mismos elementos de datos, si son usados por aplicaciones diferenteso administrados por diferentes software DBMS, pueden definirse al usar nom-bres de elementos inconsistentes, que tienen formatos inconsistentes y/o sercodificados de manera diferente. Todas estas inconsistencias deben resolverseantes que los elementos de datos sean almacenados en el DW.

Las operaciones de extracción, transformación y carga son conocidas comoETL, por su sigla en inglés; las mismas constan de lo siguiente:

Extracción: obtención de información de las distintas fuentes tanto in-ternas como externas.

Transformación: filtrado, limpieza, depuración, homogeneización y agru-pación de la información.

Carga: organización y actualización de los datos y los metadatos en labase de datos.

Metadata

La metadata (es decir, datos acerca de datos) describe los contenidos delDW. La metadata consiste de definiciones de los elementos de datos en eldepósito, se integra y transforma antes de ser almacenada en informaciónsimilar.

Acceso de Usuario Final

Los usuarios acceden al DW por medio de herramientas de productivi-dad basadas en GUI (Graphical User Interface - Interfase gráfica de usuario).Pueden proveerse a los usuarios del DWmuchos de estos tipos de herramientas.

Estos pueden incluir software de consultas, generadores de reportes, proce-samiento analítico en línea, herramientas data / visual mining, etc., dependien-do de los tipos de usuarios y sus requerimientos particulares. Sin embargo, unasola herramienta no satisface todos los requerimientos, por lo que es necesariala integración de una serie de herramientas.

Plataforma del DW


La plataforma para el DW es casi siempre un servidor de base de datosrelacional. Cuando se manipulan volúmenes muy grandes de datos puede re-querirse una configuración en bloque de servidores UNIX con multiprocesadorsimétrico (SMP) o un servidor con procesador paralelo masivo (MPP) espe-cializado.

Los extractos de la data integrada / transformada se cargan en el DW. Laelección de la plataforma es crítica. El depósito crecerá y hay que comprenderlos requerimientos después de 3 o 5 años.

El sistema de depósito ejecuta las consultas que se pasa a los datos porel software de acceso a los datos del usuario. Aunque un usuario visualizalas consultas desde el punto de vista de un GUI, las consultas típicamentese formulan como pedidos SQL, porque SQL es un lenguaje universal y elestándar de hecho para el acceso a datos.

Datos Externos

Dependiendo de la aplicación, el alcance del DW puede extenderse por lacapacidad de accesar a la data externa. Por ejemplo, los datos accesibles pormedio de servicios vía Internet, pueden estar disponibles a los usuarios delDW.

Evolución del Depósito

Construir un DW es una tarea grande. No es recomendable emprender eldesarrollo del DW de la empresa como un proyecto cualquiera. Más bien, serecomienda que los requerimientos de una serie de fases se desarrollen e imple-menten en modelos consecutivos que permitan un proceso de implementaciónmás gradual e iterativo.

Los datos en el DW no son volátiles y es un repositorio de datos de sólolectura (en general). Sin embargo, pueden añadirse nuevos elementos sobreuna base regular para que el contenido siga la evolución de los datos en labase de datos fuente, tanto en los contenidos como en el tiempo.

Uno de los desafíos de mantener un DW, es idear métodos para identi-ficar datos nuevos o modificados en las bases de datos operacionales. Algunasmaneras para identificar estos datos incluyen insertar fecha / tiempo en losregistros de base de datos y entonces crear copias de registros actualizados ycopiar información de los registros de transacción y / o base de datos diarias.

Estos elementos de datos nuevos y / o modificados son extraídos, inte-

grados, transformados y agregados al DW en pasos periódicos programados.Como se añaden las nuevas ocurrencias de datos, los datos más antiguos soneliminados.

Capítulo 6

Herramientas de Acceso yUso

6.1. Introducción

Sin las herramientas adecuadas de acceso y análisis el DW se puede conver-tir en una mezcla de datos sin ninguna utilidad. Es necesario poseer técnicasque capturen los datos importantes de manera rápida y puedan ser analizadosdesde diferentes puntos de vista.

También deben transformar los datos capturados en información útil parael negocio. Actualmente a este tipo de herramientas se las conocen como He-rramientas de Inteligencia de Negocio (Business Intelligence Tools, BIT) yestán situadas conceptualmente sobre el DW.

Cada usuario final debe seleccionar la herramienta que mejor se ajusta a susnecesidades y a su DW. Entre ellas se pueden citar las Consultas SQL (Struc-tured Query Language), las Herramientas MDA (Multidimensional Analysis)y OLAP (On-Line Analytical Processing) y las herramientas Data Mining.Este bloque también incluye el hardware y software involucrados en mostrarla información en pantalla y emitir reportes de impresión, hojas de cálculo,gráficos y diagramas para el análisis y presentación.

37

38 CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO

6.2. OLAP (On Line Analytical Processing)

Son aplicaciones que generan información táctica y estratégica que sirve ala organización como soporte para la toma de decisiones.

A diferencia de los sistemas OLTP, que utilizan BD relacionales u otrosarchivos, OLAP (On Line Analytical Process - Procesamiento Analítico EnLínea) logra su máximo rendimiento y flexibilidad trabajando sobre un DW.

Presentan al usuario un esquema multidimensional en el cual se puedenrealizar consultas seleccionando atributos sobre el tema en particular que setrate; esto desconociendo totalmente la estructura interna del DW. La apli-cación OLAP se encarga de generar la consulta y enviarla al gestor, por ejem-plo, a través de una sentencia Select.

La estructura multidimensional consta de una tabla de sucesos o hechos,cuyos atributos describen la actividad que es el objeto del análisis (por ejemploventas), y varias tablas llamadas dimensiones. Los atributos de cada dimensióntienen el objetivo de aportar información particular sobre cada tupla de latabla de hechos, por ejemplo, lugar donde se realizan las ventas, fecha o períodoen que fueron realizadas, sucursal, etc., como se puede observar en la figura6.1 de la página 39.

Estas vistas multidimensionales son llamadas Cubos y pueden ser construi-dos de distintas formas:

ROLAP

Se implementa sobre tecnología relacional. Utiliza un esquema en estrellacuyo nodo central representa a la tabla de hechos y sus extremos a las dimen-siones [3]. Con esta metodología, cuando la consulta es realizada se genera elcubo correspondiente. Esta alternativa de generación de cubos se utiliza cuan-do no se posee gran capacidad de almacenamiento. Al generarse los cubos entiempo de ejecución su rendimiento no es óptimo.

MOLAP

Tiene la estructura de arrays multidimensionales. Los cubos son generadosy almacenados antes de ser consultados. Los datos son tomados de la tablade hechos y las dimensiones son calculadas y almacenadas. Si se dispone desuficiente espacio en disco, esta alternativa aumenta el rendimiento y mejoralos tiempos de respuesta [4].

6.2. OLAP (ON LINE ANALYTICAL PROCESSING) 39

Figura 6.1: Estructura Multidimensional.


Figura 6.2: Modelo ROLAP y MOLAP.

HOLAP

Es una combinación de las técnicas ROLAP y MOLAP. Los cubos fre-cuentemente consultados son generados y almacenados. Cualquier otra con-sulta debe generarse en tiempo de ejecución.

Las principales diferencias entre un sistema OLTP y OLAP, se expresanen la figura 6.2 de la página 40.

6.3. DATA MINING (MINERÍA DE DATOS) 41

6.3. Data Mining (Minería de Datos)

La MD se define formalmente como un conjunto de técnicas y herramientasaplicadas al proceso no trivial de extraer y presentar conocimiento implícito,previamente desconocido, potencialmente útil y humanamente comprensible,a partir de grandes conjuntos de datos, con objeto de predecir, de forma au-tomatizada, tendencias o comportamientos y descubrir modelos previamentedesconocidos [5].

Desde el punto de vista empresarial los términos Data Mining y Extraccióndel Conocimiento son tratados como sinónimos, y se los define como: La in-tegración de un conjunto de áreas que tienen como propósito la identificaciónde conocimiento obtenido a partir de las bases de datos que aporten un sesgohacia la toma de decisiones [6].

Características y Objetivos

En la actualidad, para realizar una investigación con el método científicotradicional, generalmente, primero se formula la hipótesis y luego el experi-mento, para posteriormente coleccionar los datos necesarios que confirmen orefuten la hipótesis. De esta manera se obtiene el nuevo conocimiento.

Una de las características principales de la MD es que invierte la dinámicadel método científico. Es decir, primero se coleccionan los datos y luego se losescucha para que de ellos emerjan las hipótesis. Luego se validan esas hipótesisen los datos mismos.

Por lo antes expuesto es que la MD debe presentar un enfoque exploratorio,y no confirmador. Usar la MD para confirmar las hipótesis no sería correcto,ya que se está haciendo una inferencia poco válida y acotando el análisis sóloa la hipótesis elaborada.

El objetivo de la MD es extraer la información oculta en las profundidadesde las BD para luego intentar predecir futuras tendencias y comportamientos.De esta forma permiten a las organizaciones tomar decisiones proactivas y asíadaptarse a un entorno permanentemente cambiante y sumamente competiti-vo.

Las técnicas utilizadas en la MD son el resultado de un largo proceso de in-vestigación y desarrollo de productos que comenzó cuando los datos de negociofueron almacenados por primera vez en computadoras y luego, con tecnologíasgeneradas para permitir que los usuarios naveguen entre los datos en tiempo


real. La MD engloba todas estas técnicas para brindar información prospecti-va y proactiva. La MD está lista para su aplicación ya que está sostenida porcuatro tecnologías que ya se encuentran suficientemente maduras:

Recolección masiva de datos.

Potentes computadoras con multiprocesadores.

Data Warehouse.

Algoritmos de Data Mining.

La MD produce cinco tipos de información:

Asociaciones.

Secuencias.

Clasificaciones.

Agrupamientos.

Pronósticos.

Uno de los factores claves que define la verdadera MD es que la aplicaciónmisma realiza el análisis sobre los datos. En otros casos, el análisis es guiadopor una interacción con el usuario. Las aplicaciones que no son, en algún grado,auto guiadas, están realizando análisis de datos y no MD.

Arquitectura

Para que el proceso de MD sea óptimo, se recomienda que la fuente deinformación de los algoritmos provenga de una DW. El contar con una DWsimplifica considerablemente la etapa de preproceso.

Existen herramientas de DM que operan fuera del ámbito de una DW,pero esto requiere varios pasos extras para unificar fuentes, extraer, importary analizar los datos.

Por otra parte, cuando se introducen nuevos conceptos en los sistemasOLTP, la integración con el DW simplifica la aplicación de los resultados dela MD.

6.3. DATA MINING (MINERÍA DE DATOS) 43

Figura 6.3: Etapas en un Proyecto de MD.

Otra ventaja de incluir en la arquitectura un DW, es que ésta permite quea medida que las BD operacionales de los distintos sistemas crece, los datosson integrados al DW. Luego de este proceso la organización puede realizar laMD, obtener patrones y conocimiento de los mismos y aplicarlos en el futuro.

Podríamos decir que un DW constituye la fuente de información o en la“memoria” de la organización, y que la MD dota a esta de inteligencia [7].

En un proyecto de MD se deben tener en cuenta las siguientes etapas, comose puede observar en la figura 6.3 de la página 43.

Selección de Datos

Los datos pueden tener un gran volumen y contener una cantidad ingentede datos. En esta etapa se reduce considerablemente el volumen de los datosseleccionando sólo los atributos y tuplas que aporten la información y seanmás influyentes sobre el tema a tratar.

Existen varios métodos para la selección de este subconjunto de atributos[7]. Entre algunos de ellos se pueden citar:

Selección por Pasos Hacia Adelante: se comienza con un conjuntovacío de atributos, en cada paso se agrega al conjunto el mejor atributo delconjunto original.

Eliminación por Pasos Hacia Atrás: se comienza con un conjunto queposee todos los atributos originales, en cada paso se elimina del conjunto elpeor atributo.

Combinación de Selección por Pasos Hacia Adelante y Elimi-nación por Pasos Hacia Atrás: es una combinación de los dos anteriores.Se puede utilizar un umbral de medición para establecer cuándo detener laeliminación y agregación de los atributos.


Inducción con árboles de decisión: se utilizan algoritmos como ID3 yC4.5. Los atributos que no son representados en el árbol se consideran irre-levantes y se los descarta. Por el contrario, los atributos que aparecen en elárbol son los elegidos para conformar el subconjunto de atributos.

Pre Procesamiento de Datos

El formato de los datos de las distintas fuentes (OLPT, Fuentes Externas,etc.) por lo general no suele ser apropiado. Esto dificulta que los algoritmosde minería obtengan buenos modelos trabajando sobre estos datos en bruto.

El objetivo del preprocesado es adecuar los datos para que la aplicación alos algoritmos de minería sea óptima. Para esto hay que filtrar, eliminar datosincorrectos, no válidos, crear nuevos valores y categorías para los atributos eintentar completar o descartar los valores desconocidos e incompletos.

Extracción de Conocimiento

Es la aplicación de diferentes algoritmos sobre los datos ya pre procesados,para extraer patrones.

Evaluación e Interpretación de Patrones

Una vez obtenidos los patrones se debe comprobar su validez. Si los modelosson varios, se debe elegir el que se ajuste mejor al problema. Si ninguno de losmodelos alcanza los resultados esperados, se debe volver a las etapas anterioresy modificar alguna entrada para, de esta manera, generar nuevos modelos.

Algoritmos para la Extracción de Conocimiento

En la MD, según el tipo de algoritmo que se utilice, se realizan algunas delas siguientes tareas:

Asociación: descubre relaciones entre dos sucesos aparentemente inde-pendientes. Estas se expresan en el conjunto de datos como condicionesatributo-valor y deben estar presentes varias veces en ellos. La expresióntiene dos componentes, el antecedente y el consecuente.

Secuenciación o análisis a través del tiempo: si además de lo anterior latarea incluye comparaciones de tiempo, búsqueda de patrones secuen-ciales, periódicos, desviaciones, entonces estamos frente a un algoritmodel tipo secuencial. Éste incluye en el análisis el tiempo transcurridoentre el suceso inductor y el suceso inducido.

Clasificación: se analiza un conjunto de datos cuya clasificación se conocey se le asigna a cada uno una clase o grupo de pertenencia. Este mode-lo puede utilizarse para un mayor entendimiento de los datos actualeso para realizar la clasificación de futuros sucesos. Son utilizados en ladetección de fraudes, análisis de riesgo en la entrega de créditos, identi-ficación de procedimientos médicos, etc.

Agrupamiento: realiza una clasificación resumida sobre el conjunto dedatos. A la clasificación se la nombra como caracterización, y a la dis-tinción entre los datos como discriminación o comparación. Se diferenciade la clasificación en que no se parte de un conjunto de entrenamiento.Se utiliza en marketing (población con las mismas afinidades), medicina(pacientes con los mismos malestares), etc.

Predicción: cuando existen datos faltantes intenta predecir los posiblesvalores de los atributos.

Regresión: es similar a los algoritmos de clasificación. El modelo generadointenta predecir el valor más probable para una situación observada.

Clústering : un cluster es un conjunto de datos con características simi-lares. Esta similitud puede medirse con funciones de distancia. La MDintenta encontrar clústeres de buena calidad para que luego puedan serutilizados en grandes BD o DW.

También suelen utilizarse combinaciones entre los diferentes tipos de algo-ritmos. Los algoritmos de clasificación y regresión pertenecen a la MD predic-tiva, mientras que los demás están dentro de la MD descriptiva.

Capítulo 7

Conclusión

La Computación Ubicua permite integrar los dispositivos computacionalesy las nuevas tecnologías en el entorno personal, insertando dispositivos in-teligentes en las tareas diarias, haciendo que interactúen de forma natural ydesinhibida en todo tipo de situaciones y circunstancias. Permiten así que losusuarios puedan centrarse en las tareas que deben hacer, y no en las herra-mientas que deben usar.

El DW permite analizar y realizar preguntas sobre años, más que sobremeses de información. Las aplicaciones de usuario final que acceden al DWbrindan a los gerentes la posibilidad de ver la información a diferentes nivelesde agregación y filtrar las consultas.

Los Sistemas de Bases de Datos Multiplataforma Integrados a SistemasMóviles no solo acceden a bases de datos, sino también pueden acceder a losDW. La integración de un DW a la empresa representa una ventaja competiti-va en el mundo de los negocios y acceder a ellos desde los dispositivos móvileses una alternativa adicional importante.

48 CAPÍTULO 7. CONCLUSIÓN

Bibliografía

[1] “http://www.lawebdelprogramador.com”. (Visita realizada el21/04/2010).

[2] “http://www.sqlmax.com/dataw1.asp”. (Visita realizada el 20/04/2010).

[3] R. K��. “The Data Warehouse Toolkit”. John Wiley-Sons (1996).

[4] L� R�� M�� D�� L��. “Sistemas Operativos”. UNNE (2004).

[5] M�� F��, P��-S�� . “Knowledge Discovery in Data-bases: an Overview”. AI Magazine (1992).

[6] M �� L�� C�� F"�#. “Torturando a los Datos hasta que Con-fiesen”. UOC (2001).

[7] H �� A�&�� S�� E��(�� M�� R��)�, B�� P� � V��)��,�. “Minería de datos Basada en Sistemas Inteligentes”.(2005).

49

Índice alfabético

data mining, 3arquitectura, 42

datosinformativos, 12

datosoperacionales, 11

DW, 5características, 13data warehouse, 2Operaciones, 31

ETL, 33

herramientas de acceso y uso, 37DMdata mining, 41

OLAP, 38HOLAP, 40

modelo de datos, 23modelo dimensional, 24modelo relacional, 23

MOLAP, 38

OLAP, 2, 38OLTP, 2, 12OMA, 2

ROLAP, 38

SIsistemas de información, 9

SSD

sistemas de soporte de decisiones,9

ubicuidad, 1

WAP, 1

51

MonografíadeAdscripción: …exa.unne.edu.ar/depar/areas/informatica/SistemasOperativ... · 2020....

Documents

Transcript of MonografíadeAdscripción: …exa.unne.edu.ar/depar/areas/informatica/SistemasOperativ... · 2020....