Text Miner

Statistica Text Miner es una extensión opcional de Statistica Data Miner, ideal para traducir los datos no estructurados del texto en grupos significativos y valiosos de la toma de decisiones «de oro».

Analizar el contenido de las páginas web. Por ejemplo, los usuarios pueden proceso y un resumen de todas las páginas web de las empresas en particular, foros, etc¿Cómo se puede utilizar Miner STATISTICA texto?

  •  Incluye notas estructuradas en proyectos de predicción de minería de datos. Por ejemplo, los usuarios pueden incluir respuestas a preguntas de la entrevista abierta, las descripciones de los propios pacientes de los síntomas médicos, etc en los proyectos de minería de datos implican el agrupamiento de los pacientes y los síntomas.

Analizar los grandes repositorios de documentos. Por ejemplo, los usuarios pueden analizar los repositorios de documentos, tales como descripciones de las reclamaciones de seguros, etc, para incluir dicha información en los proyectos de detección de fraudes.

Statistica Text Miner fue diseñado específicamente como una herramienta general y de arquitectura abierta para la minería información no estructurada. La extracción de características y selección y otras herramientas de análisis disponibles en Statistica Text Miner no sólo son aplicables a los documentos de texto o páginas web, pero también puede ser utilizado para indexar, clasificar, agrupar, o no incluir en su análisis de la información no estructurada, como (pre- procesados) mapas de bits importados como matrices de datos, etc.

Processing Documents

Los documentos pueden ser pre-procesado, antes (en realidad, coincidiendo con la) indexación de todos los documentos.

Las reglas de exclusión y las listas de código auxiliar se pueden aplicar para eliminar palabras comunes, pero útil no como «a», «la», «a», «es». A continuación, un algoritmo derivado se aplica de manera que las palabras de Inglés como «recorrido», «viajar», ambos cuentan como casos de «viaje».

A continuación, el programa índice de la «apagó y de tallo» documentos, para crear una cuenta de la frecuencia de todas las palabras y de todos los documentos. Esta «prima-data» (contar) la información es la base para todos los análisis numéricos posteriores.Statistica Text Miner incluye listas de talón y los algoritmos derivados de danés, holandés, Inglés, francés, alemán, italiano, portugués, español, sueco y otros idiomas. Por favor, info@statsoft.com correo electrónico sobre las necesidades de su idioma. listas de código auxiliar se puede editar (aumentado) por el usuario cuando sea necesario. El programa está diseñado para que soporte de idiomas adicionales se pueden agregar con el mínimo esfuerzo.