Porter Stemmer es un algoritmo de lematización publicado por Martin Porter en 1980 . La versión original del lematizador era para inglés y estaba escrita en BCPL . Posteriormente, Martin creó el proyecto Snowball y, utilizando la idea básica del algoritmo, escribió lematizadores para los idiomas indoeuropeos comunes , incluido el ruso [1] .
El algoritmo no utiliza bases de raíces de palabras , sino únicamente, aplicando una serie de reglas en secuencia, elimina terminaciones y sufijos , en función de las características del idioma, y por lo tanto funciona rápidamente, pero no siempre correctamente.
El algoritmo era muy popular y replicado, a menudo lo cambiaban diferentes desarrolladores y no siempre tenía éxito. Alrededor de 2000, Porter decidió "congelar" el proyecto y, en adelante, distribuir una sola implementación del algoritmo (en varios lenguajes de programación populares ) desde su sitio web.