Los documentos pueden ser pre-procesado, antes (en realidad, coincidiendo con la) indexación de todos los documentos.
Las reglas de exclusión y las listas de código auxiliar se pueden aplicar para eliminar palabras comunes, pero útil no como «a», «la», «a», «es». A continuación, un algoritmo derivado se aplica de manera que las palabras de Inglés como «recorrido», «viajar», ambos cuentan como casos de «viaje».
A continuación, el programa índice de la «apagó y de tallo» documentos, para crear una cuenta de la frecuencia de todas las palabras y de todos los documentos. Esta «prima-data» (contar) la información es la base para todos los análisis numéricos posteriores.Statistica Text Miner incluye listas de talón y los algoritmos derivados de danés, holandés, Inglés, francés, alemán, italiano, portugués, español, sueco y otros idiomas. Por favor, info@statsoft.com correo electrónico sobre las necesidades de su idioma. listas de código auxiliar se puede editar (aumentado) por el usuario cuando sea necesario. El programa está diseñado para que soporte de idiomas adicionales se pueden agregar con el mínimo esfuerzo.