Text Miner

Statistica Text Miner es una extensión opcional de Statistica Data Miner, ideal para traducir los datos no estructurados del texto en grupos significativos y valiosos de la toma de decisiones «de oro».

Analizar el contenido de las páginas web. Por ejemplo, los usuarios pueden proceso y un resumen de todas las páginas web de las empresas en particular, foros, etc¿Cómo se puede utilizar Miner STATISTICA texto?

  •  Incluye notas estructuradas en proyectos de predicción de minería de datos. Por ejemplo, los usuarios pueden incluir respuestas a preguntas de la entrevista abierta, las descripciones de los propios pacientes de los síntomas médicos, etc en los proyectos de minería de datos implican el agrupamiento de los pacientes y los síntomas.

Analizar los grandes repositorios de documentos. Por ejemplo, los usuarios pueden analizar los repositorios de documentos, tales como descripciones de las reclamaciones de seguros, etc, para incluir dicha información en los proyectos de detección de fraudes.

Statistica Text Miner fue diseñado específicamente como una herramienta general y de arquitectura abierta para la minería información no estructurada. La extracción de características y selección y otras herramientas de análisis disponibles en Statistica Text Miner no sólo son aplicables a los documentos de texto o páginas web, pero también puede ser utilizado para indexar, clasificar, agrupar, o no incluir en su análisis de la información no estructurada, como (pre- procesados) mapas de bits importados como matrices de datos, etc.

Processing Documents

Los documentos pueden ser pre-procesado, antes (en realidad, coincidiendo con la) indexación de todos los documentos.

Las reglas de exclusión y las listas de código auxiliar se pueden aplicar para eliminar palabras comunes, pero útil no como «a», «la», «a», «es». A continuación, un algoritmo derivado se aplica de manera que las palabras de Inglés como «recorrido», «viajar», ambos cuentan como casos de «viaje».

A continuación, el programa índice de la «apagó y de tallo» documentos, para crear una cuenta de la frecuencia de todas las palabras y de todos los documentos. Esta «prima-data» (contar) la información es la base para todos los análisis numéricos posteriores.Statistica Text Miner incluye listas de talón y los algoritmos derivados de danés, holandés, Inglés, francés, alemán, italiano, portugués, español, sueco y otros idiomas. Por favor, info@statsoft.com correo electrónico sobre las necesidades de su idioma. listas de código auxiliar se puede editar (aumentado) por el usuario cuando sea necesario. El programa está diseñado para que soporte de idiomas adicionales se pueden agregar con el mínimo esfuerzo.

Data Miner Recipes

Un proceso paso a paso la receta, como para guiarle a través del proceso de minería de datos:

* Conectar a los datos
* Modificar / preparar los datos
* Realizar cálculos
* Revisar los resultados
* Guardar / Implementar
* Los archivos de proyecto se puede crear y guardar en cualquier paso del proceso y de datos Proyectos Miner receta se puede implementar en STATISTICA Enterprise para anotar

Una tendencia general en la minería de datos es el creciente énfasis en soluciones basadas en simples procesos de análisis, en lugar de la creación de cada vez más sofisticadas herramientas de análisis general.

El Statistica Data Miner Receta (IMGD) enfoque proporciona una interfaz gráfica intuitiva para que los que tienen una experiencia limitada de minería de datos para ejecutar una «receta-como» paso a paso del proceso analítico.

Con estos diálogos intuitivos, puede realizar diversas tareas de minería de datos como la regresión, la clasificación y agrupamiento. Otras recetas se pueden construir más rápidamente soluciones a medida. recetas completas se pueden guardar y desplegar como archivos de proyecto a los datos de puntaje.

Association Rules

 

Este módulo contiene una implementación completa de la llamada A-algoritmo para detectar a priori («la minería para») reglas de asociación, tales como «Los clientes que soliciten el producto A, a menudo también para el producto B o C» o «los empleados que dijo cosas positivas sobre iniciativa X, también con frecuencia se quejan de tema Y, pero están contentos con la edición Z «(ver Agrawal y Swami, 1993; Agrawal y Srikant, 1994, Han y Lakshmanan de 2001, véase también Witten y Frank, 2000).

En concreto, el programa detectará las relaciones o asociaciones entre los valores específicos de las variables categóricas en grandes conjuntos de datos. Esta es una tarea común en muchos proyectos de minería de datos aplicada a las bases de datos que contienen registros de transacciones de los clientes (por ejemplo, los artículos comprados por cada cliente), y también en el ámbito de la minería de textos.El módulo de reglas de asociación le permite procesar rápidamente enormes conjuntos de datos de las asociaciones (relaciones), basado en pre-definido «umbral» para la detección de valores.

Al igual que todos los módulos de Statistica, los datos en bases de datos externas pueden ser procesados por el módulo de Statistica de reglas de asociación en el lugar (ver la tecnología de desplazados internos), por lo que el programa está preparado para manejar eficientemente las tareas de análisis muy grande.

Interactive Drill-Down Explorer

 

Un primer paso de muchos proyectos de minería de datos es la de explorar los datos de forma interactiva, para obtener una primera impresión «de los tipos de variables en el análisis, y sus posibles relaciones.

Drill-down Obras Explorer. El «drill-down» metáfora en el contexto de minería de datos resume el funcionamiento básico de este proceso analítico muy bien: El programa le permite seleccionar las observaciones de grandes conjuntos de datos mediante la selección de subgrupos basados en valores específicos o rangos de valores de las variables de interés particular (por ejemplo, género y medio de compra en el ejemplo anterior), en un sentido que puede exponer a las «capas más profundas» o «estratos» en los datos mediante la revisión de los subconjuntos más pequeños de las observaciones seleccionadas por las condiciones de selección cada vez más compleja lógica.El propósito de la interactivo permite profundizar Explorer es proporcionar una combinación de análisis gráfico, exploratorio de datos, tabulación y la herramienta que le permitirá revisar rápidamente las distribuciones de las variables en el análisis, sus relaciones con otras variables, e identificar las observaciones reales que pertenecen a subgrupos específicos en los datos.

Perforación de pozos «arriba». La naturaleza interactiva del Explorador de Drill Down permite no sólo profundizar en los datos o base de datos (grupos selectos de las observaciones con las condiciones de selección cada vez más específicos lógico), sino también a «sintetizar»: En cualquier momento, usted puede seleccionar uno de la variable especificada anteriormente (categoría) y de los grupos-que seleccione de la lista de drill-down condiciones, al procesar los datos del programa a continuación, seleccione sólo las observaciones que encajan en el resto de lógica (el caso) las condiciones de selección, y actualizar en consecuencia los resultados .

General CHAID

Al igual que la aplicación de la clasificación y regresión árboles (GTrees) en STATISTICA, otro método de partición recursiva, la Asamblea General de Chi-cuadrado del módulo de detección automática de interacción, no sólo proporciona una implementación completa de la técnica original, sino que se extiende estos métodos para el análisis de ANOVA / ANCOVA – diseños similares.

Norma CHAID. El análisis CHAID se puede realizar tanto continua y categórica dependiente (criterio) las variables. Numerosas opciones están disponibles para controlar la construcción de árboles jerárquicos: el usuario tiene control sobre el n mínimo por nodo, el número máximo de nodos, y las probabilidades para dividir y para la fusión de categorías, el usuario también puede solicitar búsquedas exhaustivas de la mejor solución (exhaustiva CHAID), las estadísticas de validación V veces se puede calcular para evaluar la estabilidad de la solución final, por problemas de clasificación, los costos de los errores de clasificación definidos por el usuario puede especificar.

Multivariate Adaptive Regression Splines

 

El Statistica MAR Splines (multivariado de regresión adaptativa Splines) módulo se basa en una implementación completa de esta técnica, como se había propuesto por Friedman (1991; multivariado de regresión adaptativa Splines, Anales de Estadísticas, 19, un-ciento cuarenta y uno), en Statistica Data Miner, las opciones MARSplines tienen más ha mejorado para dar cabida a problemas de regresión y clasificación, con predictores continuas y categóricas.

C / C + +, C #, STATISTICA Visual Basic, la sintaxis basada en XML PMML generadores de código. La información contenida en el modelo puede ser rápidamente incorporado en sus propios programas personalizados a través de la opción C / C + + / C #, STATISTICA Visual Basic, o (XML, la sintaxis de base) PMML opciones generador de código.El programa, que en términos de su funcionalidad puede ser considerada una generalización y la modificación de regresión múltiple y de clasificación y regresión de los árboles (GC & RT), está diseñado específicamente (optimizado) para el procesamiento de conjuntos de datos muy grandes. Un gran número de opciones de los resultados y diagnósticos extendidos están disponibles para que usted pueda evaluar numéricamente y gráficamente la calidad de la solución MAR Splines.

Rapid Deployment of Predictive Models

 

El rápido despliegue de modelos de predicción del módulo le permite cargar uno o más PMML (Lenguaje de marcado de modelos predictivos) archivos con información de implementación, y para calcular muy rápidamente (en una sola pasada a través de los datos) las predicciones de un gran número de observaciones (de una o modelos más).

El rápido despliegue de opciones de modelos de predicción ofrecen el más rápido, los métodos más eficientes para el cálculo de predicciones de los modelos de formación completa.PMML puede generarse a partir de prácticamente todos los módulos para la minería de datos predictivos (así como el EM generalizado y k-medias opciones de análisis cluster). PMML es uno basado en XML (Extensible Markup Language) estándar de la industria conjunto de convenciones de sintaxis que está particularmente bien adaptado para permitir el intercambio.

Todos los modelos están pre-programados en forma genérica en un programa altamente optimizado compilado, el código PMML sólo provee los parámetros estimados, etc para los modelos de formación completa, para permitir el rápido despliegue de modelos de predicción del programa para calcular predicciones o clasificaciones previsto (o grupo asignaciones) en una sola pasada a través de los datos.

Statistica Neural Networks

 

Todo el poder de las Redes Neuronales para previsión, clasificación, series temporales, etc., en una herramienta única de utilización sencilla. Las Redes Neuronales posibilitan a los usuarios menos experimentados elegir la mejor red neuronal para sus datos. El SNN también permite controlar todo el proceso de construcción de la red neuronal.

Hacer frente a los problemas reales de Computación Neural

Uso de redes neuronales implica más que simplemente la alimentación de datos a una red neuronal.

STATISTICA automatizado Redes Neuronales (SANN) tiene la funcionalidad para ayudarle a través de las etapas de diseño críticos, incluyendo no sólo el estado de la técnica Arquitectura de Redes Neuronales y Algoritmos de formación, sino también nuevos enfoques innovadores para el diseño de arquitectura de red mediante el uso específico y significativo funciones de error que permiten la interpretación de los resultados de salida.

Por otra parte, los desarrolladores de software y los usuarios que experimentar con aplicaciones personalizadas apreciarán el hecho de que una vez que su prototipo experimentos se realicen mediante simple e intuitiva Statistica automatizado Neural Networks interfaz de usuario, análisis de redes neuronales pueden ser incorporados en aplicaciones personalizadas utilizando ya sea la biblioteca de la Statistica de las funciones COM que expone plenamente toda la funcionalidad del programa o mediante el uso de la C / C + + código generado por el programa de ayuda en el despliegue de redes con buena formación.

 

 


 

La entrada de datos

Statistica automatizado Redes Neuronales está totalmente integrado con el sistema Statistica , por lo que una gran selección de herramientas para la edición (la preparación) de datos para el análisis está disponible (transformaciones, las condiciones de selección de casos, herramientas de verificación de datos, etc.)

Al igual que todos los análisis Statistica, el programa puede ser «conectado» con bases de datos remotas a través de las herramientas para el procesamiento en el lugar de bases de datos, o puede estar vinculada a los datos activos para que los modelos son nueva formación o aplicada (por ejemplo, para calcular los valores pronosticados o clasificaciones ) automáticamente cada vez que el cambio de datos.

 

 


 

Los datos de escala y preparación de valor nominal

En general, los datos deben estar específicamente preparado para la entrada en las redes neuronales, y también es importante que la salida de la red pueden ser interpretados correctamente.

Statistica automatizado Redes Neuronales (SANN) incluye automatizado de datos de escala para ambas entradas y salidas, también hay recodificación automática de un valor nominal de las variables (por ejemplo, Sexo = (hombre, mujer)), entre ellos uno de codificación-N. SANN también tiene instalaciones para manejar los datos faltantes. Hay preparación de datos especiales y servicios de interpretación para su uso con series de tiempo. Un gran número de herramientas relevantes también se incluyen en Statistica.

Por problemas de clasificación, SANN asigna los casos a miembros de clase e interpreta los resultados de la red como probabilidades verdad. En combinación con la función especializada SANN activación Softmax y funciones de error transversal de entropía, esto apoya un enfoque basado en principios, probabilístico para la clasificación.

 

 


 

Selección de un modelo de red neuronal, redes neuronales Conjuntos

La gama de modelos de redes neuronales y el número de parámetros que deben ser decididas (incluyendo el tamaño de la red, y los parámetros de formación algoritmo de control) puede parecer desconcertante [la red de búsqueda automática (SNA) está disponible para buscar automáticamente a través de numerosas arquitecturas de red de diferentes complejidades , véase más adelante]. Statistica  automatizado Redes Neuronales (SANN) es compatible con las clases más importantes de las redes neuronales para el problema del mundo real de problemas, incluyendo:

* Perceptrones multicapa
* Función de base radial redes
* Self-Organizing mapas de características

La arquitectura de arriba puede ser utilizado para la regresión, clasificación, series de tiempo de regresión, series temporales, clasificación y análisis de conglomerados.

Además, apoya a las redes SNA conjunto formado por arbitraria (cuando significativa) combinaciones de los tipos de red antes mencionados. La combinación de redes para formar grupo predicciones son particularmente fáciles de usar en SANN, especialmente para los conjuntos de datos ruidosos o pequeño. SANN contiene numerosos servicios para ayudar en la selección de una arquitectura de red adecuada. Para la visualización de datos, SANN también puede mostrar diagramas de dispersión 3D y superficies de respuesta para ayudar al usuario a entender la red de «comportamiento». Naturalmente, puede utilizar la información de cualquiera de estas fuentes para nuevos análisis con otras herramientas de Statistica o para su inclusión en los informes, analyis más, o personalización.

SANN automáticamente conserva copias de las mejores redes que se encuentran a medida que experimente un problema, que puede ser recuperada en cualquier momento. La utilidad y validez predictiva de la red de forma automática puede ser evaluada mediante la inclusión de la prueba y las muestras de validación y evaluación del tamaño y eficiencia de la red, así como el costo de clasificación errónea.

Para un mejor rendimiento, Statistica automatizado Redes Neuronales apoya una serie de opciones de personalización de la red. Puede especificar una capa de salida lineal de las redes utilizadas en (pero no se limitan a) los problemas de regresión o funciones softmax de activación de la estimación de probabilidad en problemas de clasificación. funciones de error de la Cruz-entropía, basada en modelos de la teoría de la información, también se incluyen, y hay una amplia gama de funciones de activación especializados, incluyendo exponencial, hiperbólica tangente, sigmoide logística, y las funciones de seno, tanto para las neuronas ocultas y de salida.