DataMining y Oracle

“Minería de datos es el análisis de conjuntos de datos observables para encontrar relaciones inesperadas y resumir los datos en novedosas formas que son tanto entendibles como útiles para el dueño de los datos”. Hand

Ya hace algunos años que el termino Businness Inteligence ha venido en crecimiento en nuestras organizaciones en sus diferentes expresiones: reporting, etl, datawarehouse y data mining, siendo este último muy poco usado, en gran parte debido a que no es un tema trivial, que en muchas organizaciones está gobernado por estadistas de los centros de planeación, operaciones y similares. De hecho el área DM es una confluencia de áreas como estadística, inteligencia artificial, Bases de datos, algoritmia, aprendizaje de máquina, cuya finalidad es la de definir un marco para la exploración y explotación de grandes repositorios de datos hacia la detección de patrones que puedan en algunos escenarios explicar y en otros describir comportamientos que se suceden.

La complejidad en la construcción de un modelo de Mineria de Datos, junto al carácter científico purista de estas soluciones hasta ahora, ha hecho precisamente que esta área no sea tan cercana a muchas organizaciones, que podrían beneficiarse enormemente de este tipo de soluciones. Sin embargo las organizaciones han demandado un tratamiento más práctico de esta área buscando incorporar inteligencia y poder predictivo en las aplicaciones para añadir características como: recomendación basada en colaboración, detección de intrusiones en tiempo real, segmentación de mercado y clientes (CRM), evaluación de clientes,  rankings entre otras.

Un proceso más practico


El proceso de MD ha venido depurándose a través de los años, movido por la variedad de tesis, investigaciones, casos de éxito, herramientas, metodologías, y se sintetiza en:


1.    Conocimiento del negocio.


2.    Conocimiento de los datos. Busca tener un acercamiento inicial de los datos y poder determinar a priori tendencias, inconsistencias, redundancias, correlaciones. Análisis exploratorio (visualización)


3.    Pre-procesamiento de los datos. Incluye tareas para la limpieza, selección y transformación de los datos, que serán la base para la construcción del modelo.


4.    Construccion del modelo: Consiste en la configuración, personalización  y aplicación de los algoritmos de MD
Modelamiento descriptivo(segmentación y análisis de cluster), Modelamiento predictivo (clasificación y regresión),Descubrimiento de reglas y patrones, Recuperación basada en contenido.


5.    Evaluación del modelo:  Consiste en la medición objetiva de la calidad de un modelo, para determinar si se ajusta a los requerimientos hechos, la precisión en los resultados, el margen de error, la efectividad, entre otras características.


6.    Despliegue: La etapa final del proceso que busca que el modelo seleccionado como “mejor”, sea desplegado en la infraestructura de IT , de tal manera que sea fácil de usar por los actores y muy fácil de interpretar.

Las etapas anteriormente expuestas fueron luego consolidadas en el conocido modelo CrispDM (http://www.crisp-dm.org/) Fig 1, un modelo de implementación de soluciones de DM orientado a la industria, y que es valioso un marco de referencia en este campo.
 

Fig 1. Modelo CRISP DM

Herramientas más intuitivas

 
Fig 2. ODMiner

Oracle Data Miner, es una herramienta que se ha orientado a ser mas usable, consistente con las etapas del modelo CRISP, que ha venido en crecimiento en los últimos años y que además presenta las siguientes características:


1.    El carácter nativo de la solución es un plus fuerte, en tanto que las implementaciones de cada una de las etapas del proceso se encuentran incluidas en el motor.


2.    Los mapings entre tipos de datos y tipos de variables son prácticamente automáticos.


3.    La creación de modelos es de manera asistida (para la versión grafica) en odminer.


4.    Integración con datawarehousing.


5.    Los términos utilizados tienden a ser más intuitivos al igual que su interfaz de usuario(Fig 2) la cual es enriquecida por tablas, diversos tipos de gráficos, estructuras jerárquicas y notación simple.


6.    Permite la documentación del proceso.


7.    Permite desplegar el modelo en un ambiente de producción basado en oracle forms, reports, JEE, SOA  de una  manera sencilla.

Sin embargo he visto también desventajas con respecto de otros competidores como clementine, weka, Enterprise miner (sas):


Limitada implementación de algoritmos. No cuenta con algunos de los algoritmos mas importantes como redes neuronales multicapa, lógica difusa, ensambles, entre otros.


Acceso a distintos tipos de fuentes de datos, lo cual es muy importante en una tarea de extracción de conocimiento.

En conclusión,  Podemos agregar valor a nuestras aplicaciones incorporando características de DM, que aprovechen datos históricos, patrones recurrentes haciendo un buen uso de estas herramientas.


Oracle Data Miner es una de las herramientas que permite la búsqueda de conocimiento en Bases de datos Oracle, que reduce la complejidad del proceso por su carácter nativo, que también puede convertirse en un punto débil si se tiene diversidad de DBMS en una organización.


En cualquier caso, siempre el acompañamiento de un asesor puede ayudarle a construir su estrategia de DM, para descubrir  las perlas que tanto ha buscado y  colocarlas en uso en función del negocio.

Arturo Tocarruncho T

MsC OCP DBA

ZonaOracle.com

atocarrunchot  zonaoracle   com

Leave a Reply