Los árboles de decisión
Es un modelo de predicción bastante similar al que se encuentra apoyado en aquellas reglas que funcionan para representar un conjunto de condiciones presentadas de manera sucesiva en la resolución de problemas; Este mismo es empleado en un campo de inteligencia artificial a partir de una base de datos en donde se crean diagramas de construcciones lógicas.
Los modelos estadísticos
Tienen el propósito de reconocer aquellos factores que cambian la variable de respuesta, para ser más exactos, son expresiones simbólicas en forma de igualdad empleados en aquellos diseños experimentales y además en la regresión.
El agrupamiento
Se clasifican en dos tipos, los supervisados y los no supervisados; en el primer grupo se encuentran aquellos que predicen un dato desconocido en un inicio a partir de nueva información sobre un conocimiento previo. Y en el segundo grupo, los que encuentran patrones y tendencias que van apareciendo en los datos. Ambos consisten en la agrupación de una serie de vectores que son determinados bajo criterios que frecuentemente se encuentran a distancia.
Algoritmo de árboles de decisión de Microsoft
Considerado como uno de los algoritmos que ofrecen clasificación y regresión para el análisis de la información a partir de técnicas de minería y datos en la arquitectura SSAS (SQL Server Analysis Services) en el modelo predictivo de dos tipos de atributos, discretos y continuos.
En lo que se refiere a los atributos discretos, se realizan predicciones a partir del algoritmo apoyadas en las relaciones entre un conjunto de datos de varias columnas; además utilizan los valores, también conocidos como ESTADOS, de estas mismas para pronosticar los valores que cada uno elija como probables; principalmente reconocer el algoritmo de las columnas de entrada, las cuales se encuentran directamente relacionadas con las factibles.
Ejemplo:
“En una venta de bicicletas, se puede predecir qué clientes tienen mayor probabilidad de comprar uno de estos equipos, ya que nueve de cada diez clientes, más jóvenes, adquieren una; pero solo dos de cada diez mayores lo hacen. El algoritmo deduce que la edad es un factor influyente en cuanto a la compra de bicicletas.”
Es así como el árbol de decisiones realiza predicciones fomentadas en la tendencia hacia posibles resultados en particular.
En cuanto a los atributos continuos, se utiliza la regresión lineal en los algoritmos para determinar la división de un árbol de decisión. Considerando las columnas, si en más de una se manifiesta algún predecible, se construirá un árbol de decisión separado para cada una de ellas.
Este particular tipo de algoritmos de árboles de decisión de Microsoft, construyen un modelo de minería de datos por medio del establecimiento de una secuencia de divisiones en el árbol, estas mismas son representadas como NODOS. En donde el algoritmo anexa uno al modelo en cada ocasión en el que se ubica que una columna de entrada se encuentra considerablemente correlacionada con la columna de mayor probabilidad.
Por otra parte, la forma en la que el algoritmo determina si alguna división es distinta depende en gran medida de si se está prediciendo una columna continua o columna discreta. El mismo utiliza la selección de una serie de características para guiar la selección de los atributos más útiles.
Las funciones seleccionada para emplear todos aquellos algoritmos de minería de datos de SQL Server; son principalmente para mejorar el rendimientos y la calidad de los análisis que se formulan. Esta misma selección es de suma importancia ya que evita que los atributos, que no se consideran tan importantes, utilicen el tiempo de trabajo del procesador. Al utilizarse demasiados atributos, sean de entrada o predecibles, al diseñarse un modelo de minería de datos, puede ocasionar que el modelo demore bastante tiempo en procesar e incluso agotar su memoria existente.
Por otra parte, los métodos empleados para establecer la división del árbol, incluye métricas estándar por parte de la Industria para Entropía y Redes Bayesianas. Y aunque un problema frecuente en la minería de datos, consiste en que el modelo se torna un tanto sensible hacia las pequeñas diferencias en los datos de entrenamiento, en estos casos se refiere a que se encuentra sobre equipado o también sobre entrenado; un modelo de esta clase no es capaz de generalizar otros conjuntos de datos. Entonces para evitar este tipo de sobre ajustes, es necesario que el algoritmo de árboles, de decisión de Microsoft, utilice técnicas que controlen su crecimiento; esto con el fin de que se obtenga una explicación con mayor detalle en cuanto a su funcionamiento y consulta de referencia técnica.
Predicción de columnas discretas
Este tipo de predicción se refiere a la forma en la que el algoritmo de árboles inicia su construcción para establecer una columna predecible discreta, la cual puede manifestarse por medio de un histograma.
A continuación, el siguiente diagrama nos muestra un Histograma trazando una columna predecible contra una columna de entrada; tomando como referencia el ejemplo anterior acerca de la compra de bicicletas de acuerdo a las edades, es aquí donde el histograma nos demuestra que es un factor para ayudar a distinguir si esa personas comprará o no una bicicleta:
Hasta ahora la correlación que se manifiesta, indica que el diagrama causa que el algoritmo construya un nuevo nodo en el modelo principal; como se observa en el diagrama a continuación:
Asimismo conforme el algoritmo anexe nuevos nodos a un modelo, se formara una nueva estructura de árbol, creciendo continuamente y considerando cada una de las columnas que se formen. No obstante el nodo superior siempre describirá la separación de la columna predecible para la población en general de clientes.
Predicción de columnas continúas
Una vez que el algoritmo de árboles construye uno mismo apoyado en la columna predecible continua, cada uno de los nodos que se formen contará con una fórmula de regresión, produciendo una división en un punto no lineal a la misma ecuación. Como ejemplo, consideraremos el siguiente diagrama:
Esto es un modelo de regresión estándar el cual intenta derivar una fórmula única que represente una tendencia hacía las relaciones de un conjunto de datos; sin embargo el obtener una sola fórmula significa que se podría realizar un trabajo incorrecto en el momento que se requiera capturar la discontinuidad en datos más complejos. Es entonces cuando el algoritmo de árboles localiza secciones del árbol, con mayor tendencia lineal, y establece fórmulas separadas para cada una de estas secciones; al hacer esto el modelo realiza un mejor trabajo en cuanto a la aproximación de datos.
Ahora bien, en el diagrama de árbol de a continuación, se representa la forma de dispersión antes mencionada para predecir un resultado proporcionando dos fórmulas distintas:
rama izquierda con la fórmula y = .5x x 5, y
rama derecha con la fórmula y = .25x + 8.75
Ubicándose el punto en donde ambas líneas se unen en el diagrama como el punto de no linealidad, siendo el lugar donde el nodo del modelo se dividirá.
Siendo un modelo simple con dos simple ecuaciones lineales, la división ocurre inmediatamente después del nodo. Por otra parte la división es probable a ocurrir en cualquier nivel del árbol, lo cual significa que el mismo cuenta con múltiples niveles y nodos, en donde cada uno se caracteriza por contar con una colección de distintos atributos, y los cuales una fórmula puede llegar a ser compatible para varios de los mismos o simplemente para uno solo.
Datos requeridos para los modelos del árbol de decisión
Al habilitar los datos para utilizarlos en un modelo de árboles de decisión, es necesario comprender los requisitos para cada algoritmo en particular, además de la cantidad de datos que se requieren y como llevarlos a cabo; entonces los requisitos para el modelo son los siguientes:
Una columna de clave única Cada modelo debe contener una columna numérica o de texto que identifique de forma única cada registro. Las claves compuestas no están permitidas.
Una columna predecible Requiere al menos una columna predecible. Puede incluir múltiples atributos predecibles en un modelo, y los atributos predecibles pueden ser de diferentes tipos, ya sean numéricos o discretos. Sin embargo, aumentar el número de atributos predecibles puede aumentar el tiempo de procesamiento.
Columnas de entrada Requiere columnas de entrada, que pueden ser discretas o continúas. Aumentar el número de atributos de entrada afecta el tiempo de procesamiento.
Creando Predicciones
En el momento en el que se procesó el modelo, es entonces cuando los resultados se almacenan como un conjunto de patrones y estadísticas, que podrán ser utilizadas para explorar diferentes relaciones o hacer distintas predicciones.
En cuanto a los requerimientos para su uso son los siguientes:
Admite el uso del Lenguaje de marcado de modelos predictivos (PMML) para crear modelos de minería de datos.
Soporta perforaciones.
Admite el uso de modelos de minería de datos OLAP y la creación de dimensiones de minería de datos.
Algoritmo de Microsoft Clustering
También llamado como algoritmo de segmentación, repite su proceso en los casos en los que se manifiesta un conjunto de datos con la finalidad de agruparlos en categorías con características similares. Este tipo de agrupaciones son de gran utilidad para explorar datos, identificar anomalías en los mismos y crear predicciones.
En los modelos de agrupación se identifican relaciones en un grupo de datos que inicialmente no tendrían lógica por su simple observación; tomando el ejemplo de la compra de bicicletas, se puede pronosticar de manera simple que las personas que viajan en bicicleta a sus trabajos viven relativamente cerca de los mismos; pero en el algoritmo se observa que las características que creíamos que tenían este grupo de personas, no son tan obvias como pensábamos. Analizando el siguiente diagrama, se representan los datos de dos grupos de personas, el grupo A son aquellas personas que suelen transportarse a sus centros de trabajo en automóvil y en el grupo B se presentan los datos de las personas que tienden a ir en bicicleta a trabajar.
Esta clase de algoritmos de segmentación, se distinguen por no designar una columna predecible para poder construir un modelo de agrupación en segmentos; es decir educa al modelo especialmente tomando en cuenta las relaciones que existen en los datos y agrupaciones que se identifican.
Funcionamiento
Primero identifica las relaciones que existen en un conjunto de datos generando una serie de segmentos dependiendo las relaciones existentes entre cada uno de los mismos.
Ahora bien, el diagrama de dispersión resulta ser una forma útil de representar visualmente cómo es que el algoritmo agrupa los datos. Este mismo representa los casos existentes en el conjunto de datos, y es a partir de cada caso que se encuentra un punto en el gráfico, por otra parte los grupos son los que unen los puntos en la representación y muestran las relaciones que se identifican en el algoritmo.
Una vez definidos los grupos, se calcula que tan adecuado se representan los grupos en los puntos y se intentan redefinir a los mismos para conseguir que se muestren de una mejor forma. El mismo algoritmo verifica este proceso una y otra vez hasta que los resultados son exactos.
Por consiguiente se puede personalizar la forma en la que funciona el algoritmo a una técnica dada de agrupación específica; limitando así el número máximo de agrupaciones y cambiar la cantidad de requerimientos para crear una agrupación única; este tipo de algoritmo toma en cuenta dos métodos de agrupación bastante conocidos en agrupaciones de segmentos:
K-significa agrupación en clústeres
Maximización de Expectativas
Datos requeridos para modelos de clustering
Los datos que se utilicen en la capacitación de un modelo de agrupación en segmentación (clústeres) deberán contar con los requisitos para el algoritmo en particular, incluyendo la cantidad de los datos y como utilizarlos.
Los requisitos para un modelo de clustering son los siguientes:
Una columna de clave única Cada modelo debe contener una columna numérica o de texto que identifique de forma única cada registro. Las claves compuestas no están permitidas.
Columnas de entrada Cada modelo debe contener al menos una columna de entrada que contenga los valores que se utilizan para crear los clústeres. Puede tener tantas columnas de entrada como desee, pero dependiendo del número de valores en cada columna, la adición de columnas adicionales puede aumentar el tiempo que toma entrenar el modelo.
Columna predecible opcional El algoritmo no necesita una columna predecible para construir el modelo, pero puede agregar una columna predecible de casi cualquier tipo de datos. Los valores de la columna predecible se pueden tratar como entrada al modelo de agrupación en clúster, o puede especificar que se use solo para la predicción. Por ejemplo, si desea predecir los ingresos de los clientes agrupándose en grupos demográficos como la región o la edad, debe especificar los ingresos como PredictOnly y agregar todas las demás columnas, como la región o la edad, como entradas.
Para obtener información más detallada sobre los tipos de contenido y los tipos de datos compatibles con los modelos de agrupación en clústeres, consulte la sección Requisitos de la Referencia técnica del algoritmo de agrupación en Microsoft.
Viendo un modelo de clustering
Al explorar un modelo de agrupación de segmentos o clúster, se puede utilizar Microsoft Clúster Viewer, es ahí donde Analysis Services presenta las agrupaciones en un diagrama en el que se describen las distintas relaciones entre las agrupaciones que existen y además proporcionan un perfil detallada de cada una de ellas, con una lista de atributos y características que las distinguen unas de otras entre todo un conjunto de datos. Si se requiere conocer más detalles se podrá examinar el modelo en el Visor de árbol de contenido genérico de Microsoft; este contenido incluye la distribución de los valores en cada nodo, así como la probabilidad de cada grupo y más información.
Predicciones
En el momento en que el modelo sea entrenado, los resultados que se presenten serán almacenados como un conjunto de patrones, en los que se podrán explorar o utilizar para realizar predicciones. Además se tendrá la posibilidad de crear consultas para retomar predicciones acerca de nuevos datos que se ajusten a los segmentos o clústers encontrados para así obtener una estadística descriptiva sobre los mismos.
Observaciones
Entre lo que implica utilizar este tipo de algoritmos, se necesita admitir:
el uso del Lenguaje de marcado de modelos predictivos (PMML) para crear modelos de minería de datos
Soportar perforaciones
el uso de modelos de minería de datos OLAP y la creación de dimensiones de minería de datos
Dimensiones
Las dimensiones de base de datos son colecciones de objetos relacionados (también conocidos como atributos) que pueden ser utilizados para proporcionar información acerca de los datos realizados en uno o varios cubos. Un ejemplo de lo anterior son los atributos típicos de un producto pueden ser catalogados por nombre, línea, tamaño y precio del mismo. Todo esto se encuentra enlazado en una o varias columnas de una o varias tablas de un solo origen de datos, por lo tanto los atributos se encuentran visibles como jerarquías y pueden utilizarse para comprender los datos dentro de un cubo. Estas jerarquías pueden ser organizadas y definidas por el usuario quien proporciona las rutas de navegación para ayudar a otros a examinar los datos.
Por otra parte los cubos cuentan con las dimensiones en las que los usuarios fundamentan sus análisis de los datos ya realizados. En cuanto a la dimensión de cubo, se entiende que es la instancia de una dimensión de base de datos dentro de un cubo, relacionándose con uno o más grupos en la medida del mismo. Una de estas dimensiones se podrá utilizar varias veces en el cubo, un ejemplo del mismo es en una tabla de hechos se podrán tener varios de ellos relacionados con el tiempo y se tendrá la posibilidad de definir una dimensión de un cubo independiente que sirva de ayuda para analizar cada uno de ellos. Aunque no es necesario que exista una dimensión de base de datos relacionada con el tiempo, sólo es necesario que exista una tabla de bases de datos para aceptar varias dimensiones de cubo relacionadas con esta categoría.
Definir dimensiones, atributos y jerarquías
Uno de los métodos más sencillos para definir dimensiones, atributos y jerarquías de base de datos y de cubo, es implementar el Asistente para cubos el cual realiza dimensiones y las define en un cubo. Al mismo tiempo el Asistente creará las dimensiones fundamentadas en las tablas de las mismas desde el origen de datos que se identifique o que el usuario especifique para su uso.
De la misma forma cuando se crea un cubo, también se pueden anexar las dimensiones que existen en la base de datos, las cuales pueden haber sido definidas previamente para otro cubo; de esta forma una vez definida la dimensión no puede haber modificación o configuración de la misma en el diseñador de dimensiones; por lo tanto se pueden personalizar de forma ilimitada antes de haberse definido. De esta forma se procede con la ayuda del asistente de dimensiones que servicios de análisis ofrece.
Measures (Medidas)
Las medidas representan columnas las cuales contienen datos cuantificables, los cuales normalmente son numéricos; además muestran aspectos de la actividad de organización en términos económicos como
ingresos, márgenes, costos, entre otras cosas
cuentas de niveles de inventario, cantidad de empleados, clientes o pedidos
cálculos más complejos que incorporan la lógica de negocios
Cada cubo deberá contar con al menos una medida, aunque la mayoría tienen muchas o cientos. De manera estructural una medida se asigna por lo general a una columna de origen de una tabla de hechos; esta columna proporciona los valores usados para mostrar la medida, y de forma alternativa, también puede definir una medida mediante MDX (Multi-Dimensional eXpressions).
Las medidas son consideradas contextuales, esto significa que funcionan con datos numéricos en un contexto que está determinado por la cantidad de miembros de la dimensión que están incluidos en la consulta. Además generan resultados válidos cuando la tabla de hechos, la cual cuenta con datos de origen numérico, contiene marcadores a las tablas de dimensión que se utilizan en la consulta.
Measure Groups (Grupos de Medida)
Las medidas son categorizadas por grupos, por medio de las tablas de hechos subyacentes en un cubo. Estos grupos se utilizan para dos situaciones, asociar dimensiones a las medidas correspondientes; y la otra situación es aquellas medidas que tienen un recuento distintivo como comportamiento de agregación, en estos casos se optimiza el procesamiento de la agregación de datos.
Por otra parte un objeto de Measure Group, se compone de información básica, como es:
Nombre del grupo
Modo de almacenamiento
Modo de procesamiento
Y además cuenta con partes constitutivas como son: medidas, dimensiones y participaciones que componen el grupo de medida.
De modo que la estructura de la minería de datos está fundada en un origen de datos que cuentan con distintas tablas o vistas, todas estas combinadas en el campo de Customer ID. Cada una de estas tablas contiene información como: clientes, región geográfica, edad, ingresos y el sexo. Por otro lado la tabla anexada contiene varias filas con información adicional sobre cada uno de los clientes y los productos que han adquirido.
Debido a que los modelos utilizan columnas diferentes para la entrada, y por otra parte dos de estos modelos restringen sus datos por medio de la aplicación de filtros, debido a esto se pueden obtener resultados diferentes entre ellos aunque estén fundamentados en datos iguales.
Asimismo para definir una estructura de minería de datos se necesita de una serie de pasos:
1. Definir un origen de datos.
2. Seleccionar las columnas de datos que se van a incluir en la estructura (no es necesario agregar todas las columnas al modelo) y definir una clave.
3. Definir una clave para la estructura, incluyendo la clave de la tabla anidada, si procede.
4. Especificar si los datos de origen se deben separar en un conjunto de entrenamiento y en un conjunto de prueba. Este paso es opcional.
5. Procesar la estructura.
Por consiguiente en las secciones siguientes se describen estos pasos de forma más detallada.
1. Orígenes de datos para estructuras de minería de datos
Al definirse una estructura de minería de datos, se utilizan columnas que se encuentran disponibles en una vista del origen de datos ya existente. Esta vista de origen es un objeto que permite combinar varios datos y utilizarlos como un origen único. Aunque estos orígenes de datos originales no son visibles para las aplicaciones del cliente, si puede hacer uso de las propiedades de la vista del origen de datos para modificar los tipos de los mismos y así crear agregaciones o asignar alias a las columnas.
Al generar varios modelos a partir de la misma estructura de minería de datos, estos pueden utilizar columnas diferentes de la estructura; un ejemplo es crear una estructura única y enseguida generar modelos independientes de árbol de decisiones o de agrupaciones en clústeres, a partir de la misma, en donde cada uno de ellos puede utilizar columnas distintas y predecir atributos diferentes.
Por otra parte cada modelo puede utilizar las columnas de la estructura de diferente forma; por ejemplo: una vista del origen de datos puede incluir una columna de ingresos que pudiera enlazarse de distintas maneras para los diferentes modelos, de forma la estructura almacena la definición del origen de datos y de manera simultánea las columnas forman enlaces al mismo.
NOTA: Tener en cuenta que también se puede crear una estructura de minería de datos sin enlazarla a un origen de datos concreto; para ello, se deberá utilizar la instrucción DMX CREATE MINING STRUCTURE (DMX).
2. Columnas de la estructura de minería de datos
Estas columnas se reconocen como las unidades de creación de la estructura de la minería de datos, las cuales describen los datos que contiene el origen, además contienen amplia información sobre el tipo de datos, tipo de contenido y el modo en que se distribuyen los mismos. Aunque no contiene información sobre el modo en el que las columnas se utilizan para un modelo de minería de datos concreto, ni sobre el tipo de algoritmos que se utilizan para crearlo; toda esta información es definida por el propio modelo de minería de datos.
No obstante, una estructura de minería de datos puede contener tablas anidadas, las cuales representan una relación de uno o varios entre la entidad de un caso y sus atributos relacionados; un ejemplo: cuando la información que describe al cliente se encuentra en una tabla y las compras de el en otra, se pueden utilizar tablas anidadas para combinar la información en un único caso; en este suceso el identificador del cliente funciona como la entidad y las compras son los atributos relacionados.
Por consiguiente, para crear un modelo de minería de datos en SQL Server Data Tools (SSDT), es necesario que primero se realice una estructura de minería de datos, el cual guiará el proceso para crear una estructura de minería de datos y así elegir y agregar los datos a un modelo.
Asimismo si se crea un modelo de minería de datos utilizando el lenguaje de Extensiones de Minería de Datos (DMX), se puede especificar el modelo y las columnas existentes en él; por lo tanto el DMX creará automáticamente la estructura necesaria.
3. Dividir los datos en conjuntos de entrenamiento y de prueba
Al momento de definir los datos para la estructura de minería de datos, también es posible especificar que algunos de los datos se utilicen para entrenamientos y otros para pruebas, esto quiere decir que ya no es necesario separarlos antes de crear una estructura de minería. En su lugar, se puede especificar el porcentaje determinado de los datos que se reserven para pruebas y el resto para uso de entrenamiento, o en cambio especificar un número de casos para que se utilicen como un conjuntos de datos de pruebas; de esta forma esta información se almacena en la memoria caché con la estructura de minería de datos, lo que genera que el mismo conjunto de pruebas pueda utilizarse con todos los modelos que se encuentre fundamentados en esa estructura.
4. Habilitar la obtención de detalles
De la misma forma se pueden agregar columnas a la estructura de minería de datos, aunque no se tenga estimado utilizarlas en un modelo concreto; lo que resulta útil si por ejemplo se desea recuperar las direcciones de correo electrónico de los clientes de un modelo de agrupación en clústeres, aunque no se utilice durante el proceso de análisis. Además si se requiere omitir una columna durante la fase de análisis y predicción, se puede hacer aunque no se deberá especificar un uso para ella o se establecerá solo en Omitir; de esta forma los datos que se encuentren marcados podrá utilizarse si se habilita la obtención de detalles en el modelo y si se tienen los permisos adecuados. Por ejemplo, se podrán revisar los clústeres resultantes del análisis de todos los clientes, y enseguida utilizarlos en una consulta de obtención de detalles para obtener los nombres y direcciones de correo electrónico de los clientes de un clúster determinado, aunque esas columnas de datos no se hayan usado para generar el modelo.
5. Procesar estructuras de minería de datos
Una estructura de minería de datos no es más que un contenedor de metadatos hasta que se procesa, y hacer esto Analysis Services crea una caché que almacena estadísticas sobre los datos así como información sobre cómo se convierten en datos discretos aquellos atributos continuos además de información que utilizará posteriormente los modelos de minería. Aunque por sí mismo, el modelo de minería de datos no almacena esta información de resumen, si hace referencia a la información almacenada en la memoria caché sobre cuando se procesó la estructura de minería de datos. Por lo tanto, no es necesario volver a procesar la estructura cada vez que se agrega un nuevo modelo a una estructura existente; se puede procesar solamente el modelo.
Además se puede descartar la memoria caché después del procesamiento, si esta es muy grande o desea quitar los datos detallados, y si no desea almacenar los datos en la memoria caché, se puede cambiar la propiedad Cache Mode de la estructura de minería de datos a Clear After Processing, lo cual destruirá la caché una vez procesados los modelos; y al realizar esto se deshabilitará la obtención de detalles del modelo de minería de datos.
Asimismo una vez destruida la memoria caché, no se podrán agregar nuevos modelos a la estructura de minería de datos; y si sucediera así o se cambiarán las propiedades de los modelos existentes, primero se deberá procesar de nuevo la estructura de minería de datos.
Ver estructuras de minería de datos
Aunque no es posible usar los visores para examinar los datos de una estructura de minería de datos, en SQL Server Data Tools (SSDT), se puede utilizar la pestaña Estructura de minería de datos del Diseñador de minería de datos para ver las columnas de estructura y sus definiciones.
Además si se desea revisar los datos de la estructura de minería de datos, se podrán crear consultas mediante el lenguaje Extensiones de minería de datos (DMX). Por ejemplo: la instrucción SELECT * FROM .CASES devuelve todos los datos de la estructura de minería de datos y para recuperar esta información, la estructura de minería de datos se deberá de haberlos procesado y los resultados de dicho procesamiento deberán estar almacenados en la caché. De la misma forma la instrucción SELECT * FROM .CASES devuelve las mismas columnas, pero solo para los casos de ese modelo concreto. .
Utilizar modelos de minería de datos con estructuras de minería de datos
Un modelo de minería de datos aplica un algoritmo de modelo de minería a los datos que se representan en una estructura de minería de datos. Un modelo de minería de datos es un objeto que pertenece a una determinada estructura de minería de datos; el modelo hereda todos los valores de las propiedades que están definidas en la estructura de minería de datos. El modelo puede utilizar todas las columnas que contiene la estructura de minería de datos o un subconjunto de las columnas. Es posible agregar varias copias de una columna de estructura a una estructura. También se pueden agregar varias copias de una columna de estructura a un modelo y, a continuación, asignar nombres diferentes, o alias, a cada columna de estructura del modelo. Para obtener más información sobre cómo crear alias para las columnas de estructura.
Separar los datos en conjuntos de entrenamiento y de prueba es una parte importante de la evaluación de los modelos de minería de datos. Normalmente, al dividir un conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba, la mayoría de los datos se usan para el entrenamiento y una parte menor se emplea para las pruebas. Analysis Services muestra los datos de forma aleatoria para asegurarse de que los conjuntos de entrenamiento y de prueba son similares. Si usa datos similares para el entrenamiento y las pruebas, puede minimizar los efectos de las diferencias en los datos y comprender mejor las características del modelo.
Una vez procesado un modelo utilizando el conjunto de entrenamiento, se prueba realizando predicciones con el conjunto de pruebas. Dado que los datos del conjunto de prueba ya contienen valores conocidos para el atributo que desea predecir, es fácil determinar si las estimaciones del modelo son correctas.
Crear conjuntos de entrenamiento y de prueba para las estructuras de minería de datos
En SQL Server 2017, el conjunto de datos original se separa en el nivel de la estructura de minería de datos. La información sobre el tamaño de los conjuntos de datos de entrenamiento y de prueba, y qué filas pertenecen a cada conjunto, se almacena junto con la estructura, y todos los modelos basados en esa estructura pueden usar los conjuntos de entrenamiento y de prueba.
Para definir un conjunto de datos de prueba en una estructura de minería de datos puede realizar una de las acciones siguientes:
Usar el Asistente para minería de datos para dividir la estructura de minería de datos en el momento de crearla.
Modificar las propiedades de la estructura en la pestaña Estructura de minería de datos del Diseñador de minería de datos.
Crear y modificar estructuras mediante programación si usa Objetos de administración de análisis (AMO) o el Lenguaje de definición de datos XML (DDL).
Uso del Asistente para minería de datos para dividir una estructura de minería de datos
Entre tanto, de manera predeterminada, una vez que se han definido los orígenes de datos para una estructura de minería, el Asistente dividirá lo datos en dos conjuntos:
1) con el 70 por ciento de los datos de origen para entrenar el modelo
2) con el 30 por ciento para probarlo
Se eligió este valor porque la proporción 70-30 suele usarse en la minería de datos, pero con Analysis Services puede cambiarla para que se ajuste a cada necesidad y requisitos.
Además se puede configurar el asistente para establecer un número máximo de casos de entrenamiento, o para combinar los límites que permitan un porcentaje máximo de casos hasta un número máximo especificado de los mismos. Asimismo al especificar un porcentaje máximo de casos y un número máximo de casos, Analysis Services usa el menor de los dos límites como el tamaño del conjunto de pruebas. Por ejemplo, si especifica una exclusión del 30 por ciento para los casos de pruebas, y el número máximo de casos de pruebas como 1000, el tamaño del conjunto de pruebas nunca superará 1000 casos. Esto resulta de gran utilidad cuando se requiere asegurar que el tamaño de su conjunto de pruebas permanece coherente incluso si se agregan más datos de aprendizaje al modelo.
Por consiguiente, si se utiliza la vista del origen de datos para diferentes estructuras de minería de datos, y se requiere asegurar que los datos se dividan aproximadamente de la misma manera para todas las estructuras de minería y sus modelos, entonces se deberá especificar el valor de inicialización que se usa para comenzar el muestreo aleatorio. Al realizar estas especificaciones de un valor para HoldoutSeed, Analysis Services lo usará para iniciar el muestreo. Aunque de no ser así, el muestreo aplicará un algoritmo hash al nombre de la estructura de minería de datos para crear el valor de inicialización.
Modificación de las propiedades de la estructura para crear un conjunto de datos de prueba
Al crear y procesar una estructura de minería de datos, se decide que es necesario reservar un conjunto de datos de prueba, que pueden modificar las propiedades de la estructura de minería de datos. Para cambiar la manera en que se crean las particiones de los datos, se hacen las modificaciones a las siguientes propiedades:
Property
Descripción
HoldoutMaxCases
Especifica el número máximo de casos que se van a incluir en el conjunto de pruebas.
HoldoutMaxPercent
Especifica el número de casos que se van a incluir en el conjunto de pruebas como porcentaje del conjunto de datos completo. Para no tener ningún conjunto de datos, especificaría 0.
HoldoutSeed
Especifica un valor entero para usarlo como valor de inicialización al seleccionar los datos para las particiones de forma aleatoria. Este valor no afecta al número de casos del conjunto de entrenamiento; sino que sirve para asegurarse de que la partición se puede repetir.
Aunque si se agregara un conjunto de datos de prueba a una estructura existente, o lo cambia, se deberá iniciar una vez con el proceso de la estructura y todos los modelos asociados. Además, de ser que al dividir el origen de datos resulte que el modelo se entrene con un subconjunto diferente al de los datos, se podrían ver resultados diferentes al modelo inicial.
Especificación de los datos de exclusión mediante programación
Se pueden definir conjuntos de datos de entrenamiento y de prueba en una estructura de minería de datos usando instrucciones DMX, AMO o XML DDL. Aunque la instrucción ALTER MINING STRUCTURE no admite el uso de parámetros de datos de exclusión. A continuación se presenta en qué consiste el proceso de cada uno de ellos:
DMX En el lenguaje de Extensiones de minería de datos (DMX), la instrucción CREATE MINING STRUCTURE se ha extendido para incluir una cláusula WITH HOLDOUT.
ASSL Puede crear una estructura de minería de datos o agregar un conjunto de datos de prueba a una estructura de minería de datos existente con el lenguaje de scripting de Analysis Services (ASSL).
AMO También puede ver y modificar los conjuntos de datos de exclusión mediante AMO.
Para ver información sobre el conjunto de datos de exclusión de una estructura de minería de datos existente, se requiere hacer una consulta en el conjunto de filas de esquema de minería de datos; y para esto, se puede realizar una llamada a DISCOVER ROWSET o puede usar una consulta DMX.
Recuperar información acerca de los datos de exclusión
Aunque de manera predeterminada se almacena en la memoria caché toda la información sobre los conjuntos de datos de entrenamiento y de prueba, con el fin de que pueda usar los datos existentes para entrenar y probar los nuevos modelos. También hay la posibilidad para definir filtros y aplicarlos a los datos de exclusión almacenados en caché para evaluar el modelo con los subconjuntos de los datos.
Existe una manera en que los casos se dividen en conjuntos de datos de entrenamiento y de prueba que depende principalmente de la forma en que se configuren los datos de exclusión y en los datos que se proporcionen. Por otra parte si se desea determinar el número de casos usados para el entrenamiento o las pruebas, o buscar detalles adicionales sobre los casos incluidos en los conjuntos de entrenamiento y de prueba, se puede consultar la estructura de modelo creando una consulta DMX.
Limitaciones en el uso de los datos de exclusión
Existen ciertas limitaciones para el uso de datos de exclusión, a continuación se presentan cuáles son las principales:
Para usar datos de exclusión, es necesario establecer la propiedad Mining Structure Cache Mode de la estructura de minería en el valor predeterminado, Keep Training Cases. Si cambia la propiedad Cache Mode a Clear After Processingy, vuelve a procesar la estructura de minería de datos y se perderá la partición.
No puede quitar datos de un modelo de serie temporal, o dicho de otra manera, no puede dividir los datos de origen en conjuntos de entrenamiento y de prueba. Si empieza a crear una estructura y un modelo de minería de datos, y elige el algoritmo de serie temporal de Microsoft, la opción que permite crear un conjunto de datos de exclusión aparece deshabilitada. También se deshabilita el uso de datos de exclusión si la estructura de minería de datos contiene una columna KEY TIME en el nivel de tabla anidada o caso.
Se puede configurar accidentalmente el conjunto de datos de exclusión de tal manera que el conjunto de datos completo se use para las pruebas y no queden datos para el entrenamiento. Sin embargo, si lo hace, Analysis Services mostrará un error para que pueda corregir el problema. También le advierte si al procesar la estructura más del 50 por ciento de los datos se han reservado para las pruebas.
En la mayoría de los casos, el valor de exclusión predeterminado de 30 proporciona un buen equilibrio entre los datos de pruebas y los de entrenamiento. No es fácil determinar lo grande que debería ser el conjunto de datos para proporcionar entrenamiento suficiente, ni el grado de dispersión que puede alcanzar el conjunto de entrenamiento antes de que se llegue al sobreajuste. Sin embargo, después de haber generado un modelo, puede usar la validación cruzada para evaluar el conjunto de datos con respecto a un modelo determinado.
Dado que el tamaño real de una partición no se puede determinar con precisión, hasta que se haya procesado la estructura, deberán comprobar si se ha llevado a cabo el modelo, antes de recuperar el valor de la propiedad Hold out Actual Size.
Descripción del gráfico de mejora respecto al modelo predictivo
Para ilustrar el uso de las herramientas del gráfico de mejora respecto al modelo predictivo y la información del gráfico, se mostrará un escenario en el que se usa un gráfico de mejora respecto al modelo predictivo para calcular la respuesta a una campaña de envío de correo directo:
“El departamento de marketing de este escenario sabe que las campañas de correo suelen tener más o menos una tasa de respuesta del 10 por ciento. Tienen una lista de 10.000 clientes potenciales almacenada en una tabla de la base de datos. Según el índice típico de respuesta, normalmente pueden esperar que solo respondan unos 1.000 clientes potenciales. Sin embargo, el dinero presupuestado para el proyecto no es suficiente para llegar a los 10.000 clientes de la base de datos, y desean mejorar la tasa de respuesta. Para este escenario, supongamos que el presupuesto solo les permite enviar un anuncio a 5.000 clientes. El departamento de marketing tiene dos opciones:
Seleccionar aleatoriamente 5.000 clientes como objetivo.
Usar un modelo de minería de datos para dirigirse a los 5.000 clientes con mayores probabilidades de respuesta.
En estos casos gracias a un gráfico de mejora respecto al modelo predictivo, se puede comparar los resultados esperados de ambas opciones. Por ejemplo, si la compañía seleccionara de forma aleatoria 5.000 clientes, podrían esperar recibir solo 500 respuestas, según la tasa de respuesta típica. La línea aleatoria del gráfico de mejora respecto al modelo predictivo representa esta situación. Sin embargo, si el departamento de marketing usara un modelo de minería de datos para dirigir la distribución de correo, podría esperar un mejor índice de respuesta debido a que el modelo identificaría los clientes que tienen más probabilidades de responder. Si el modelo fuera perfecto, crearía predicciones infalibles y la empresa podría esperar recibir 1.000 respuestas con solo enviar la distribución de correo a los 1.000 clientes potenciales recomendados por el modelo. La línea ideal del gráfico de mejora respecto al modelo predictivo representa esta situación”.
Aunque la realidad es que el modelo de minería de datos probablemente se sitúa entre estos dos extremos:
estimación aleatoria predicción perfecta
Cualquier mejora con respecto a la estimación aleatoria se considera una "mejora respecto al modelo predictivo”.
Aunque al crear un gráfico de mejora respecto al modelo predictivo, podrá establecerse como objetivo un valor específico y medir la mejora, respecto al mismo modelo, solo para ese resultado o se podrá crear una evaluación general del modelo que mida las mejoras respecto al modelo predictivo para todos los resultados posibles. Estas selecciones afectan al gráfico final; como se describirá posteriormente.
Gráfico de mejora respecto al modelo predictivo con un valor de destino
El gráfico de mejora respecto al modelo predictivo muestra la mejora proporcionada por el modelo al identificar a posibles datos específicos.
Este gráfico contiene varios modelos basados en los mismos datos. Uno de ellos se ha personalizado para dirigirse a clientes concretos y puede ser personalizado con filtros para los datos utilizados que permitan entrenarlo. Un efecto de este filtro es que el modelo básico y el modelo filtrado usan conjuntos de datos distintos, por lo que el número de casos usados para la evaluación en el gráfico de mejora respecto al modelo predictivo también es diferente. Es importante recordar este punto al interpretar los resultados de predicción y otras estadísticas.
Por otra parte el eje X del gráfico representa el porcentaje del conjunto de datos de prueba que se usa para comparar las predicciones. El eje Y del gráfico representa el porcentaje de valores de predicción.
Y la línea recta diagonal, aparece en cada gráfico; representando los resultados de la estimación aleatoria y es la línea base con la que se evalúa la mejora respecto al modelo predictivo. Con cada modelo que agrega a un gráfico de mejora respecto al modelo predictivo, obtiene dos líneas adicionales:
la primera muestra los resultados ideales para los conjuntos de datos de entrenamiento establecidos, si pudiera crear un modelo que siempre predijera perfectamente;
la segunda línea muestra la mejora respecto al modelo predictivo real, o mejora en los resultados, para el modelo.
Asimismo la Leyenda de minería de datos contiene los valores reales de cualquier punto de las curvas y puede cambiar el lugar que se mide haciendo clic en la barra gris vertical y moviéndola; también contiene puntuaciones y estadísticas que ayudan a interpretar el gráfico.
Interpretación de los resultados
En estos resultados puede establecer que cuando se mide en el 30% de todos los casos, el modelo general, (correo destinado a todos), puede predecir el comportamiento de compra de bicicletas en el 47,40% de la población de destino. En otras palabras, si enviara correo directo solo al 30% de los clientes de la base de datos, podría llegar a algo menos de la mitad de los destinatarios pretendidos y si se utilizara el modelo filtrado, podría obtener resultados ligeramente mejores y llegar aproximadamente al 51% de los clientes de destino.
El valor de Probabilidad de predicción representa el umbral necesario para incluir un cliente entre los casos "con probabilidad de comprar". Para cada caso, el modelo calcula la exactitud de cada predicción y almacena ese valor, que puede utilizar para filtrar o elegir clientes. Por ejemplo: para identificar los clientes del modelo básico que son compradores probables, se utilizara una consulta para recuperar los casos con una probabilidad de predicción de al menos el 61%, de esta forma se obtendrán los clientes de destino del modelo filtrado y se creará una consulta que recuperara los casos que cumplan todos los criterios, como son: la edad y un valor de Predict Probability de al menos el 46%.
Para esto, es importante comparar los modelos, iniciando con el modelo filtrado, el cual parece capturar más clientes potenciales, pero al elegir a los clientes con una puntuación de probabilidad de predicción del 46%, tiene una posibilidad del 53% de enviar correo a alguien que no va a comprar una bicicleta. Por lo tanto, si se decidiera qué modelo es mejor, sería conveniente equilibrar la mayor precisión y el menor tamaño de destino del modelo filtrado con respecto a la capacidad de selección del modelo básico.
En cuanto al Valor de Puntuación, se encarga de ayudar a comparar los modelos calculando la efectividad del modelo a través de una población normalizada; el contar con una mayor puntuación siempre es mejor, por lo que se podría decidir que seleccionar a los clientes menores de 30 años es la estrategia más eficiente, a pesar de la menor probabilidad de predicción.
¿Cómo se calcula la puntuación?
La puntuación se calcula como la puntuación de la media geométrica de todos los puntos que constituyen un gráfico de dispersión en el que el eje X contiene los valores reales, el eje Y contiene el valor de predicción y cada punto tiene una probabilidad asociada.
El significado estadístico de la puntuación de cualquier punto individual resulta ser la elevación de predicción para el modelo que se está midiendo en ese punto; es así como el promedio de todos los puntos constituye la puntuación del modelo.
Además en al análisis de las validaciones correspondientes se tiene una matriz de clasificación, la cual ordena todos los casos del modelo en categorías, determinando si el valor de predicción coincide con el valor real, asimismo es una herramienta estándar de evaluación de modelos estadísticos a la que a veces se denomina matriz de confusión.
El gráfico que se crea cuando se elige la opción Matriz de clasificación compara los valores reales con los valores de predicción para cada estado de predicción especificado, y las filas de la matriz representan los valores de predicción para el modelo, mientras que las columnas representan los valores reales. En cuanto a las categorías usadas en el análisis pueden resultar ser falso positivo, verdadero positivo, falso negativo y verdadero negativo.
Una matriz de clasificación es una herramienta indispensable para valorar los resultados de la predicción, logrando que resulte fácil de entender y explicar los efectos de las predicciones erróneas. De la misma forma al ver la cantidad y los porcentajes en cada celda de la matriz, se podrá conocer rápidamente, en cuántas ocasiones ha sido exacta la predicción del modelo.
Descripción de la matriz de clasificación
Consideraremos el modelo del Tutorial básico de minería de datos; en este modelo de árboles de decisión se utilizará para crear una campaña de distribución de correo directo y se podrá usar para predecir ¿qué clientes tienen más probabilidad de comprar una bicicleta?; por lo tanto para probar esta utilidad, se usará un conjunto de datos para el que ya se conocen los valores del atributo de resultados. Este conjunto de datos de prueba que se reservó al crear la estructura de minería de datos se obtiene para entrenar el modelo. Y solo hay dos resultados posibles:
sí (es probable que el cliente compre una bicicleta)
no (no es probable que el cliente compre una bicicleta)
Por lo que, la matriz de clasificación resultante es relativamente sencilla.
Interpretación de los resultados
En la siguiente tabla se muestra la matriz de clasificación para el modelo de árboles de decisión. Aunque para este atributo de predicción, 0 significa No y 1 significa Sí.
Previsto
0 (real)
1 (real-
Observamos que en la primera celda de resultados, se encuentra el valor 362, indicando el número de verdaderos positivos para el valor 0, sabemos que 0 indica que el cliente no compró una bicicleta, por lo que en esta estadística se muestra que el modelo predijo el valor correcto para quienes no compraron bicicleta en 362 casos.
Ahora bien, la celda situada directamente debajo de esa, que contiene el valor 121, indica el número de falsos positivos, o número de veces que el modelo predijo que alguien compraría una bicicleta cuando en realidad no lo hizo. Y la celda que contiene el valor 144 indica el número de falsos positivos para el valor 1, lo cual significa que el cliente compró una bicicleta, entonces esta estadística indica que, en 144 casos, el modelo predijo que alguien no compraría una bicicleta cuando sí lo hizo.
Por último, la celda que contiene el valor 373 indica el número de verdaderos positivos para el valor de destino 1. O en otras palabras, en 373 casos el modelo predijo correctamente que alguien compraría una bicicleta.
Realizando la suma de los valores de las celdas contiguas diagonalmente, se podrá determinar la exactitud total del modelo. Tomando en cuenta que una diagonal indica el número total de predicciones exactas y la otra indica el número total de predicciones erróneas.
Uso de varios valores de predicción
Tomando en cuenta el ejemplo de la compra de bicicletas, el caso de localización de proveedores es especialmente fácil de interpretar porque hay solo dos valores posibles; pero cuando el atributo de predicción tiene varios valores posibles, la matriz de clasificación agrega una columna nueva por cada valor real posible y cuenta el número de coincidencias para cada valor predicho. En la siguiente tabla se observan los resultados de un modelo diferente, donde hay tres valores (0, 1, 2) posibles.
Previsto
0 (real)
1 (real)
2 (Real-
Y a pesar de que la existencia de columnas adicionales hace que el informe parezca un poco más difícil de entender, el detalle que se anexo puede resultar ser muy útil cuando se desea calcular el costo acumulativo de realizar una predicción errónea. Ahora bien, para poder sumar las diagonales o comparar los resultados de combinaciones diferentes de filas, se necesita hacer clic en el botón Copiar que se proporciona en la pestaña Matriz de clasificación y pegar el informe en Excel.
O también puede usar uno de los clientes como el Cliente de minería de datos para Excel, que admite resultado del mismo y versiones posteriores, de esta manera se podrá crear directamente un informe de clasificación en Excel que incluya recuentos y porcentajes.
Restricciones en la matriz de clasificación
Una de las restricciones para la clasificación en la matriz, es que solo se puede usar con atributos de predicción discretos, y aunque puede agregar varios modelos mientras selecciona modelos (en la pestaña selección de entrada del diseñador Gráfico de precisión de minería de datos) la pestaña Matriz de clasificación expondrá una matriz independiente para cada modelo.
Conjuntos de datos de entrenamiento y de prueba
Una de las partes más importantes de la evaluación de modelos de minería de datos, consiste en separar los datos en conjuntos de entrenamiento y de prueba; aunque normalmente, al dividir un conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba, la mayoría de los datos se usan para el entrenamiento y una menor parte se emplea para las pruebas. El Analysis Services muestrea los datos de forma aleatoria para estar seguros de que los conjuntos de entrenamiento y de prueba son similares, y por lo tanto puede minimizar los efectos de las diferencias en los datos y comprender mejor las características del modelo.
Una vez procesado un modelo utilizando el conjunto de entrenamiento, se prueba realizando predicciones con el conjunto de pruebas. Dado que los datos del conjunto de prueba ya contienen valores conocidos para el atributo que desea predecir, es fácil determinar si las estimaciones del modelo son correctas.
Establecer conjuntos de entrenamiento y de prueba para las estructuras de minería de datos
En SQL Server 2017, el conjunto de datos se separa en el nivel de la estructura de minería de datos, y por lo tanto la información sobre el tamaño de los conjuntos de datos de entrenamiento y de prueba, y qué filas pertenecen a cada conjunto, es almacenada junto a la estructura, y todos los modelos fundamentados en la misma que pueden utilizar los conjuntos de entrenamiento y de prueba.
Entonces para definir un conjunto de datos de prueba en una estructura de minería de datos se pueden realizar una de las siguientes acciones:
Usar el Asistente para minería de datos para dividir la estructura de minería de datos en el momento de crearla.
Modificar las propiedades de la estructura en la pestaña Estructura de minería de datos del Diseñador de minería de datos.
Crear y modificar estructuras mediante programación si usa Objetos de administración de análisis (AMO) o el Lenguaje de definición de datos XML (DDL).
Configurar la validación cruzada
Es posible personalizar el modo de funcionamiento de la validación cruzada con el fin de controlar:
el número de secciones cruzadas
los modelos probados
la barra de precisión para las predicciones.
Si se utilizan los procedimientos almacenados de validación cruzada, también permitirá que se especifique el conjunto de datos que se usan para validar los modelos. Para esta variedad de opciones se necesita producir con facilidad muchos conjuntos de resultados diferentes que a continuación se deben comparar y analizar. Y sus ventajas serán que
Se proporciona información para ayudarle a configurar la validación cruzada correctamente.
Establecer el número de particiones
Al especificar el número de particiones, se determina cuántos modelos temporales se van a crear.
Para cada partición se marca una sección transversal de los datos para su uso como conjunto de pruebas
Se crea un nuevo modelo mediante entrenamiento en los datos restantes y no en la partición.
Este proceso se repite hasta que Analysis Services ha creado y probado el número de modelos especificado, es ahí donde los datos especificados como disponibles para validación cruzada se distribuyen uniformemente entre todas las particiones.
El ejemplo del diagrama muestra el uso de los datos si se especifican tres plegamientos.
1. En el escenario del diagrama, la estructura de minería de datos contiene un conjunto de datos de exclusión que se usa para pruebas, pero el conjunto de datos de pruebas no se ha incluido para la validación cruzada. Como resultado, todos los datos del conjunto de datos de aprendizaje, el 70% de los datos de la estructura de minería de datos, se utilizan para validación cruzada. Por lo que el informe de validación cruzada muestra el número total de casos usados en cada partición.
2. Además se puede especificar la cantidad de datos que se usan durante la validación cruzada, siempre y cuando si especifica el número de casos totales que se van a usar; entonces los casos se distribuyen de forma uniforme en todos los plegamientos.
3. En las estructuras de minería de datos almacenada en una instancia de SQL Server Analysis Services, el valor máximo que se puede establecer para el número de plegamientos es 256, o el número de casos, lo que sea menor., por lo que si se utiliza una estructura de minería de datos de sesión, el número máximo de plegamientos será 10.
Emplear el Asistente para minería de datos para dividir una estructura de minería de datos
En el momento en que se designe, de manera predeterminada, los orígenes de datos para una estructura de minería, el asistente de la misma dividirá los datos en dos conjuntos: uno con el 70% de los datos de origen para entrenar el modelo y otro con el 30% para probarlo ( Se ha elegido este valor predeterminado porque la proporción 70-30 suele usarse en la minería de datos, pero con Analysis Services puede cambiarla para que se ajuste a sus requisitos.
También puede configurar el asistente para establecer un número máximo de casos de entrenamiento o bien, puede combinar los límites para permitir un porcentaje máximo de casos hasta un número máximo especificado de casos. Al especificar ambos un porcentaje máximo de casos y un número máximo de casos, Analysis Services usa el menor de los dos límites como el tamaño del conjunto de pruebas. Por ejemplo, si especifica una exclusión del 30 por ciento para los casos de pruebas, y el número máximo de casos de pruebas como 1000, el tamaño del conjunto de pruebas nunca superará 1000 casos. Esto puede ser útil si desea asegurarse de que el tamaño de su conjunto de pruebas permanece coherente incluso si se agregan más datos de aprendizaje al modelo.
Si usa la misma vista del origen de datos para diferentes estructuras de minería de datos, y desea asegurarse de que los datos se dividen aproximadamente de la misma manera para todas las estructuras de minería de datos y sus modelos, debe especificar el valor de inicialización que se usa para inicializar el muestreo aleatorio. Al especificar un valor para HoldoutSeed, Analysis Services usará ese valor para empezar el muestreo. De lo contrario, el muestreo aplica un algoritmo hash al nombre de la estructura de minería de datos para crear el valor de inicialización.
Gráfico de mejora respecto al modelo predictivo (Analysis Services - Minería de datos)
A mejora respecto al modelo predictivo chart representa gráficamente la mejora que proporciona un modelo de minería de datos en comparación con una estimación aleatoria, y mide el cambio en términos de puntuación de la mejora respecto al modelo predictivo . Si compara las puntuaciones de mejora de los distintos modelos, puede determinar qué modelo es mejor. También puede determinar el punto en que las predicciones del modelo pasa a ser menos útiles.Por ejemplo, revisando el gráfico de elevación, podría observar que es probable que una campaña de promoción solo sea eficaz para un 30 % de los clientes y usar esa cifra para limitar el ámbito de la campaña.
En la minería de datos de SQL Server , el gráfico de elevación puede comparar la precisión de varios modelos que tienen el mismo atributo de predicción.También puede evaluar la exactitud de la predicción para un único resultado (un único valor del atributo de predicción) o para todos los resultados (todos los valores del atributo especificado).
Un gráfico de beneficios es un tipo de gráfico relacionado que contiene la misma información que un gráfico de mejora respecto al modelo predictivo, pero que también muestra el aumento proyectado en los beneficios asociado al uso de cada modelo.
Este gráfico contiene varios modelos basados en los mismos datos. Uno de ellos se ha personalizado para dirigirse a clientes concretos. Puede personalizar un modelo agregando filtros para los datos usados para entrenarlo. Este filtro restringe los casos que se usan tanto en el entrenamiento como en la evaluación a los clientes menores de 30 años. Observe que un efecto del filtrado es que el modelo básico y el modelo filtrado usan conjuntos de datos distintos, por lo que el número de casos usados para la evaluación en el gráfico de mejora respecto al modelo predictivo también es diferente. Es importante recordar este punto al interpretar los resultados de predicción y otras estadísticas.
El eje X del gráfico representa el porcentaje del conjunto de datos de prueba que se usa para comparar las predicciones. El eje Y del gráfico representa el porcentaje de valores de predicción.
La línea recta diagonal, mostrada aquí en azul, aparece en cada gráfico.Representa los resultados de la estimación aleatoria y es la línea base con la que evaluar la mejora respecto al modelo predictivo. Con cada modelo que agrega a un gráfico de mejora respecto al modelo predictivo, obtiene dos líneas adicionales: una muestra los resultados ideales para los conjuntos de datos de entrenamiento establecidos, si pudiera crear un modelo que siempre predijera perfectamente; y la segunda línea muestra la mejora respecto al modelo predictivo real, o mejora en los resultados, para el modelo.
En este ejemplo, la línea ideal para el modelo filtrado se muestra en azul marino y la línea para la mejora respecto al modelo predictivo real en amarillo. Puede deducir del gráfico que la línea ideal alcanza el máximo cerca del 40 por ciento, lo que significa que si tuviera un modelo perfecto, podría llegar al 100 por ciento de los clientes de destino enviando correo únicamente al 40 por ciento de la población total. La mejora respecto al modelo predictivo real para el modelo filtrado al destinarse al 40 por ciento de la población está entre el 60 y el 70 por ciento, lo que significa que se podría llegar al 60 ó 70 por ciento de los clientes de destino enviando correo al 40 por ciento de la población total de clientes.
La Leyenda de minería de datos contiene los valores reales de cualquier punto de las curvas. Puede cambiar el lugar que se mide haciendo clic en la barra gris vertical y moviéndola. En el gráfico, la línea gris se ha movido al 30 por ciento, porque se trata del punto donde tanto el modelo filtrado como el modelo sin filtrar parecen ser más eficientes, y después de este punto la cantidad de mejora respecto al modelo predictivo decae.
Validación cruzada (Analysis Services - Minería de datos)
Información general sobre el proceso de validación cruzada
La validación cruzada consta de dos fases: entrenamiento y generación de resultados. En estas fases se incluyen los pasos siguientes:
Debe seleccionar una estructura de minería de datos de destino.
Luego especifica los modelos que desea probar. Este paso es opcional; puede probar solo la estructura de minería de datos.
Especifique los parámetros para probar los modelos entrenados.
El atributo de predicción, el valor de predicción y el umbral de precisión.
El número de plegamientos en los que desea crear particiones de los datos del modelo o de la estructura.
Analysis Services crea y entrena tantos modelos como plegamientos.
Analysis Services devuelve un conjunto de medidas de precisión para cada plegamiento de cada modelo o para el conjunto de datos en conjunto.