Data Miner Recipes

Un proceso paso a paso la receta, como para guiarle a través del proceso de minería de datos:

* Conectar a los datos
* Modificar / preparar los datos
* Realizar cálculos
* Revisar los resultados
* Guardar / Implementar
* Los archivos de proyecto se puede crear y guardar en cualquier paso del proceso y de datos Proyectos Miner receta se puede implementar en STATISTICA Enterprise para anotar

Una tendencia general en la minería de datos es el creciente énfasis en soluciones basadas en simples procesos de análisis, en lugar de la creación de cada vez más sofisticadas herramientas de análisis general.

El Statistica Data Miner Receta (IMGD) enfoque proporciona una interfaz gráfica intuitiva para que los que tienen una experiencia limitada de minería de datos para ejecutar una «receta-como» paso a paso del proceso analítico.

Con estos diálogos intuitivos, puede realizar diversas tareas de minería de datos como la regresión, la clasificación y agrupamiento. Otras recetas se pueden construir más rápidamente soluciones a medida. recetas completas se pueden guardar y desplegar como archivos de proyecto a los datos de puntaje.

Association Rules

 

Este módulo contiene una implementación completa de la llamada A-algoritmo para detectar a priori («la minería para») reglas de asociación, tales como «Los clientes que soliciten el producto A, a menudo también para el producto B o C» o «los empleados que dijo cosas positivas sobre iniciativa X, también con frecuencia se quejan de tema Y, pero están contentos con la edición Z «(ver Agrawal y Swami, 1993; Agrawal y Srikant, 1994, Han y Lakshmanan de 2001, véase también Witten y Frank, 2000).

En concreto, el programa detectará las relaciones o asociaciones entre los valores específicos de las variables categóricas en grandes conjuntos de datos. Esta es una tarea común en muchos proyectos de minería de datos aplicada a las bases de datos que contienen registros de transacciones de los clientes (por ejemplo, los artículos comprados por cada cliente), y también en el ámbito de la minería de textos.El módulo de reglas de asociación le permite procesar rápidamente enormes conjuntos de datos de las asociaciones (relaciones), basado en pre-definido «umbral» para la detección de valores.

Al igual que todos los módulos de Statistica, los datos en bases de datos externas pueden ser procesados por el módulo de Statistica de reglas de asociación en el lugar (ver la tecnología de desplazados internos), por lo que el programa está preparado para manejar eficientemente las tareas de análisis muy grande.

Interactive Drill-Down Explorer

 

Un primer paso de muchos proyectos de minería de datos es la de explorar los datos de forma interactiva, para obtener una primera impresión «de los tipos de variables en el análisis, y sus posibles relaciones.

Drill-down Obras Explorer. El «drill-down» metáfora en el contexto de minería de datos resume el funcionamiento básico de este proceso analítico muy bien: El programa le permite seleccionar las observaciones de grandes conjuntos de datos mediante la selección de subgrupos basados en valores específicos o rangos de valores de las variables de interés particular (por ejemplo, género y medio de compra en el ejemplo anterior), en un sentido que puede exponer a las «capas más profundas» o «estratos» en los datos mediante la revisión de los subconjuntos más pequeños de las observaciones seleccionadas por las condiciones de selección cada vez más compleja lógica.El propósito de la interactivo permite profundizar Explorer es proporcionar una combinación de análisis gráfico, exploratorio de datos, tabulación y la herramienta que le permitirá revisar rápidamente las distribuciones de las variables en el análisis, sus relaciones con otras variables, e identificar las observaciones reales que pertenecen a subgrupos específicos en los datos.

Perforación de pozos «arriba». La naturaleza interactiva del Explorador de Drill Down permite no sólo profundizar en los datos o base de datos (grupos selectos de las observaciones con las condiciones de selección cada vez más específicos lógico), sino también a «sintetizar»: En cualquier momento, usted puede seleccionar uno de la variable especificada anteriormente (categoría) y de los grupos-que seleccione de la lista de drill-down condiciones, al procesar los datos del programa a continuación, seleccione sólo las observaciones que encajan en el resto de lógica (el caso) las condiciones de selección, y actualizar en consecuencia los resultados .

General CHAID

Al igual que la aplicación de la clasificación y regresión árboles (GTrees) en STATISTICA, otro método de partición recursiva, la Asamblea General de Chi-cuadrado del módulo de detección automática de interacción, no sólo proporciona una implementación completa de la técnica original, sino que se extiende estos métodos para el análisis de ANOVA / ANCOVA – diseños similares.

Norma CHAID. El análisis CHAID se puede realizar tanto continua y categórica dependiente (criterio) las variables. Numerosas opciones están disponibles para controlar la construcción de árboles jerárquicos: el usuario tiene control sobre el n mínimo por nodo, el número máximo de nodos, y las probabilidades para dividir y para la fusión de categorías, el usuario también puede solicitar búsquedas exhaustivas de la mejor solución (exhaustiva CHAID), las estadísticas de validación V veces se puede calcular para evaluar la estabilidad de la solución final, por problemas de clasificación, los costos de los errores de clasificación definidos por el usuario puede especificar.

Multivariate Adaptive Regression Splines

 

El Statistica MAR Splines (multivariado de regresión adaptativa Splines) módulo se basa en una implementación completa de esta técnica, como se había propuesto por Friedman (1991; multivariado de regresión adaptativa Splines, Anales de Estadísticas, 19, un-ciento cuarenta y uno), en Statistica Data Miner, las opciones MARSplines tienen más ha mejorado para dar cabida a problemas de regresión y clasificación, con predictores continuas y categóricas.

C / C + +, C #, STATISTICA Visual Basic, la sintaxis basada en XML PMML generadores de código. La información contenida en el modelo puede ser rápidamente incorporado en sus propios programas personalizados a través de la opción C / C + + / C #, STATISTICA Visual Basic, o (XML, la sintaxis de base) PMML opciones generador de código.El programa, que en términos de su funcionalidad puede ser considerada una generalización y la modificación de regresión múltiple y de clasificación y regresión de los árboles (GC & RT), está diseñado específicamente (optimizado) para el procesamiento de conjuntos de datos muy grandes. Un gran número de opciones de los resultados y diagnósticos extendidos están disponibles para que usted pueda evaluar numéricamente y gráficamente la calidad de la solución MAR Splines.

Rapid Deployment of Predictive Models

 

El rápido despliegue de modelos de predicción del módulo le permite cargar uno o más PMML (Lenguaje de marcado de modelos predictivos) archivos con información de implementación, y para calcular muy rápidamente (en una sola pasada a través de los datos) las predicciones de un gran número de observaciones (de una o modelos más).

El rápido despliegue de opciones de modelos de predicción ofrecen el más rápido, los métodos más eficientes para el cálculo de predicciones de los modelos de formación completa.PMML puede generarse a partir de prácticamente todos los módulos para la minería de datos predictivos (así como el EM generalizado y k-medias opciones de análisis cluster). PMML es uno basado en XML (Extensible Markup Language) estándar de la industria conjunto de convenciones de sintaxis que está particularmente bien adaptado para permitir el intercambio.

Todos los modelos están pre-programados en forma genérica en un programa altamente optimizado compilado, el código PMML sólo provee los parámetros estimados, etc para los modelos de formación completa, para permitir el rápido despliegue de modelos de predicción del programa para calcular predicciones o clasificaciones previsto (o grupo asignaciones) en una sola pasada a través de los datos.