jueves, 7 de junio de 2012

Algoritmos de Mineria de Datos usados en SQL Server 2008 R2

Un algoritmo de minería de datos es un mecanismo que crea un modelo de minería de datos. Para crear un modelo, un algoritmo analiza primero un conjunto de datos y luego busca patrones y tendencias específicos. El algoritmo utiliza los resultados de este análisis para definir los parámetros del modelo de minería de datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadísticas detalladas.


El modelo de minería de datos que crea un algoritmo puede tomar diversas formas, incluyendo:
  • Un conjunto de reglas que describen cómo se agrupan los productos en una transacción.
  • Un árbol de decisión que predice si un cliente determinado comprará un producto.
  • Un modelo matemático que predice las ventas.
  • Un conjunto de clústeres que describe cómo se relacionan los casos de un conjunto de datos.
Microsoft SQL Server 2008 R2 proporciona varios algoritmos que se pueden usar en las soluciones de minería de datos, siendo los siguientes tipos de algoritmos:
  • Algoritmos de clasificación, que predicen una o más variables discretas, basándose en otros atributos del conjunto de datos. Un ejemplo de algoritmo de clasificación es el Algoritmo de árboles de decisión de Microsoft.
  • Algoritmos de regresión, que predicen una o más variables continuas, como las pérdidas o los beneficios, basándose en otros atributos del conjunto de datos. Un ejemplo de algoritmo de regresión es el Algoritmo de serie temporal de Microsoft.
  • Algoritmos de segmentación, que dividen los datos en grupos, o clústeres, de elementos que tienen propiedades similares. Un ejemplo de algoritmo de segmentación es el Algoritmo de clústeres de Microsoft.
  • Algoritmos de asociación, que buscan correlaciones entre diferentes atributos de un conjunto de datos. La aplicación más común de esta clase de algoritmo es la creación de reglas de asociación, que pueden utilizarse en un análisis de la cesta de compra. Un ejemplo de algoritmo de asociación es el Algoritmo de asociación de Microsoft.
  • Algoritmos de análisis de secuencias, que resumen secuencias o episodios frecuentes en los datos, como un flujo de rutas Web. Un ejemplo de algoritmo de análisis de secuencias es el Algoritmo de clústeres de secuencia de Microsoft.

Técnicas de Minería de Datos

Las técnicas más representativas son:
  • Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:
    • El Perceptrón.
    • El Perceptrón multicapa.
    • Los Mapas Autoorganizados, también conocidos como redes de Kohonen.
  • Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.
  • Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:
    • Algoritmo ID3.
    • Algoritmo C4.5.
  • Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
  • Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:
    • Algoritmo K-means.
    • Algoritmo K-medoids.
  • Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

Ejemplos de aplicaciones de Minería de Datos

En la actualidad, la implantación de la Minería de Datos para recuperar información en las diversas organizaciones (bibliotecas y centros de documentación) así como en el ámbito empresarial es una técnica habitual.Tradicionalmente, quienes más han empleado las técnicas de la Minería de Datos para recuperar información han sido las relacionadas con la publicidad y con los negocios de la distribución. Sin embargo, existen multitud de áreas que han integrado en su actividad las técnicas de la Minería de Datos para recuperar información, entre ellas destacan las siguientes:
  • Económicas
  • Uso fraudulento de tarjetas de crédito
  • Cálculo de indicadores financieros
  • Análisis de riesgos de crédito
  • Educación
  • Procesos Industriales
  • Modelos de calidad
  • Extracción de modelos de coste
  • Predicción de fallos y accidentes
  • Medicina
  • Gestión hospitalaria
  • Mejorar el uso de consultas, habitaciones y salas
  • Recomendación de fármacos
  • Análisis de procedimientos médicos solicitados
  • Biología y demás ciencias afines
  • Análisis de los genes
  • Análisis de proteínas
  • Telecomunicaciones
  • Modelos de carga en redes
  • Establecimiento de patrones de llamadas
  • Turismo
  • Indentificar patrones de reserva
  • Trafico
  • Establecimiento de cámaras, GPS, etc
  • Política
  • Diseño de campañas

Minería de Datos-¿Qué es?

La minería de datos (DMData Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos preparasondea y explora los datos para sacar la información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos
Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.