Descripción indicativa

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 2 de diciembre de 2017; la verificación requiere 1 edición .

Una descripción de características de un objeto ( ing.  vector de características ) es un vector que se compone de valores que corresponden a un determinado conjunto de características para un objeto dado. Los valores de características pueden ser de tipo diferente, no necesariamente numérico . Es uno de los métodos de entrada de datos más comunes en el aprendizaje automático .

Formal definición

Denotar por X el conjunto de objetos, situaciones, precedentes de alguna materia . Por ejemplo, en los problemas de aprendizaje automático que se encuentran en la medicina, los precedentes pueden ser pacientes, en el campo de los préstamos cuando se realiza la calificación crediticia  : prestatarios , en el problema del filtrado de correo no deseado  , mensajes individuales.

Feature ( feature en inglés  ) es el resultado de medir alguna característica de un objeto, es decir, una visualización:

,

donde  es el conjunto de valores de atributo admisibles.

Los valores de características pueden ser textos , gráficos , imágenes digitalizadas , secuencias numéricas , registros de bases de datos, etc. Dependiendo del conjunto, las características se dividen en los siguientes tipos:

A menudo existen problemas aplicados con diferentes tipos de características, para los cuales no todos los métodos son adecuados.

Si se dan características , entonces el vector se denomina descripción de características del objeto .

En el aprendizaje automático, las descripciones de funciones se pueden identificar con los propios objetos, es decir: . En este caso, el conjunto se denomina espacio de características .

Una matriz de objetos de características (matriz de información, matriz de datos de entrada) es un conjunto de descripciones de características de objetos de muestra de aprendizaje delongitud, escrita como una matriz de tamaño(filas,columnas). Las columnas de esta matriz corresponden a característicasy cada fila es una descripción de características de un objeto de aprendizaje. Este tipo de representación es aceptado en los problemas de clasificación y análisis de regresión , y un gran número de métodos de aprendizaje implican tal representación de datos.

En aplicaciones

Los problemas encontrados en la práctica pueden no contener datos adecuados para el procesamiento matemático. Por ejemplo, en la tarea de filtrado de spam, los objetos (mensajes) están representados por textos de longitud arbitraria, pueden contener archivos adjuntos de varios formatos, etc. Para llevar los datos a un formulario estándar, se utiliza un procedimiento: extracción de características de los datos o generación de características . ( generación .feature ) . Por lo tanto, cualquier asignación de un conjunto a un conjunto de valores que sea conveniente para el procesamiento puede tomarse como una característica. Nada nos impide tomar algún algoritmo de clasificación (o regresión) como tal mapeo, lo que hace posible obtener composiciones complejas de algoritmos.   

Literatura

Enlaces