Sistema de preguntas y respuestas

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 6 de septiembre de 2019; las comprobaciones requieren 4 ediciones .

El sistema de preguntas y respuestas ( QA-system ; del inglés  QA  - English  Question-answering system ) es un sistema de información capaz de recibir preguntas y responderlas en lenguaje natural , en otras palabras, es un sistema con una interfaz de lenguaje natural.

Clasificación

Los sistemas de preguntas y respuestas se pueden dividir en:

Arquitectura

Los primeros sistemas de control de calidad [1] se desarrollaron en la década de 1960 y eran shells de lenguaje natural para sistemas expertos de dominio específico . Los sistemas modernos están diseñados para buscar respuestas a preguntas en documentos proporcionados utilizando tecnologías de procesamiento de lenguaje natural (NLP).

Los sistemas de control de calidad modernos generalmente incluyen un módulo especial: clasificador de preguntas , que determina el tipo de pregunta y, en consecuencia, la respuesta esperada. Después de este análisis, el sistema aplica gradualmente métodos de PNL cada vez más complejos y sutiles a los documentos proporcionados, descartando información innecesaria. El método más rudimentario, las búsquedas de documentos  , implica el uso de un sistema de recuperación de información para seleccionar porciones de texto que potencialmente contienen una respuesta. A continuación, el filtro resalta las frases que son similares a la respuesta esperada (por ejemplo, para la pregunta "Quién...", el filtro devolverá fragmentos de texto que contengan nombres de personas). Y, finalmente, el módulo de resaltado de respuestas encontrará la respuesta correcta entre estas frases.

Esquema de trabajo

El rendimiento de un sistema de preguntas y respuestas depende de la eficacia de los métodos de análisis de texto utilizados y de la calidad de la base del texto; si no contiene respuestas a las preguntas, el sistema de control de calidad no podrá encontrar mucho. Cuanto más grande sea la base de datos, mejor, pero solo si contiene la información necesaria. Los repositorios grandes (como Internet) contienen mucha información redundante [2] . Esto lleva a los siguientes puntos:

  1. Dado que la información se presenta en diferentes formas, la integridad de la información es mayor. Es más probable que un sistema de control de calidad encuentre una respuesta.
  2. La información correcta se repite más a menudo, por lo que se pueden minimizar los errores en la búsqueda de respuestas.
  3. La precisión de la recuperación de información depende significativamente de la confiabilidad de la información almacenada, así como de la efectividad de los métodos para analizar la información y generar respuestas.

Problemas

En 2002, un grupo de investigadores escribió un plan de investigación para los sistemas de preguntas y respuestas [3] . Se propuso considerar las siguientes preguntas:

Tipos de preguntas Diferentes preguntas requieren diferentes métodos para encontrar respuestas. Por lo tanto, es necesario compilar o mejorar listas metodológicas de tipos de preguntas posibles. Manejo de preguntas Una misma información puede ser solicitada de diferentes formas. Se requiere crear métodos efectivos para comprender y procesar la semántica (significado) de la oración. Es importante que el programa reconozca preguntas que tengan un significado equivalente, independientemente del estilo , las palabras, las relaciones sintácticas y los modismos utilizados . Me gustaría que el sistema de control de calidad divida las preguntas complejas en varias simples e interprete correctamente las frases sensibles al contexto, posiblemente aclarándolas con el usuario durante el diálogo. Problemas contextuales Las preguntas se hacen en un contexto específico . El contexto puede refinar una consulta, eliminar la ambigüedad o seguir la línea de pensamiento del usuario a través de una serie de preguntas. Fuentes de conocimiento para un sistema de QA Antes de responder a la pregunta, sería bueno consultar sobre las bases de texto disponibles. Independientemente de los métodos de procesamiento de texto que se utilicen, no encontraremos la respuesta correcta si no está en las bases de datos. Resaltar respuestas La ejecución correcta de este procedimiento depende de la complejidad de la pregunta, su tipo, contexto, la calidad de los textos disponibles, el método de búsqueda, etc. - una gran cantidad de factores. Por lo tanto, es necesario abordar el estudio de los métodos de procesamiento de textos con toda cautela, y este problema merece especial atención. Redacción de la respuesta La respuesta debe ser lo más natural posible. En algunos casos, basta con resaltarlo del texto. Por ejemplo, si se requiere un nombre (nombre de una persona, nombre de un dispositivo, enfermedad), valor (tipo de cambio, longitud, tamaño) o fecha ("¿Cuándo nació Iván el Terrible?"), una respuesta directa es suficiente . Pero a veces tiene que lidiar con consultas complejas, y aquí necesita algoritmos especiales para fusionar respuestas de diferentes documentos. Respondiendo preguntas en tiempo real Es necesario hacer un sistema que encuentre respuestas en los repositorios en unos pocos segundos, independientemente de la complejidad y ambigüedad de la pregunta, el tamaño y la inmensidad de la base de documentos. Consultas multilingües Desarrollo de sistemas de trabajo y búsqueda en otros idiomas (incluyendo traducción automática ). interactividad A menudo, la información que ofrece un sistema de control de calidad como respuesta es incompleta. Quizás el sistema identificó mal el tipo de pregunta o lo entendió mal. En este caso, el usuario puede querer no solo reformular su solicitud, sino también "explicar" con el programa mediante un diálogo. Mecanismo de razonamiento (inferencia) A algunos usuarios les gustaría una respuesta que vaya más allá de los textos disponibles. Para ello, es necesario añadir al sistema de QA conocimientos comunes a la mayoría de las áreas (ver Ontologías generales en informática ), así como herramientas para la derivación automática de nuevos conocimientos. Perfiles de usuarios de los sistemas de control de calidad La información sobre el usuario, como el área de interés, la forma de hablar y el razonamiento, los datos predeterminados, podría aumentar significativamente el rendimiento del sistema.

Instrucciones para el desarrollo de sistemas de preguntas y respuestas

Desde la aparición de los primeros prototipos de sistemas de preguntas y respuestas, su alcance se ha ampliado significativamente [4] . Por ejemplo, se utilizan en respuestas a preguntas relacionadas con el tiempo, preguntas de geolocalización, preguntas de definición, preguntas bibliográficas, multilingües, preguntas relacionadas con multimedia (información visual, de audio y video). Se estudian áreas relacionadas, como la creación de sistemas de control de calidad interactivos (aclarar las preguntas necesarias para aclarar el original), reutilizar las respuestas y representar el conocimiento, usar la inferencia de la información disponible para obtener respuestas a las preguntas, etc., predecir qué preguntas se pueden hacer, sentimiento análisis.

Evaluación de la calidad de los sistemas de preguntas y respuestas

Los sistemas de preguntas y respuestas se discuten de forma continua en el marco de los proyectos: TREC [5] , CLEF[6] , NTCIR [7] , ROMIP [8] .

Notas

  1. Hirschman, L. & Gaizauskas, R. (2001) Respuesta a preguntas en lenguaje natural. The View from Here Archivado el 29 de enero de 2012 en Wayback Machine . Ingeniería del Lenguaje Natural (2001), 7:4:275-300 Cambridge University Press.
  2. Lin, J. (2002). La web como recurso para responder preguntas: perspectivas y desafíos. En Actas de la Tercera Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC 2002).
  3. Burger, J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, CY., Maiorano, S., Miller, G. , Moldovan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. Problemas, tareas y programa Estructuras para la investigación de hojas de ruta en respuesta a preguntas (QA) Archivado el 25 de abril de 2012 en Wayback Machine .
  4. Maybury, editor de MT. 2004. Nuevas direcciones en la respuesta a preguntas. Archivado el 3 de marzo de 2021 en Wayback Machine AAAI/MIT Press.
  5. Competencia TREC Archivado el 24 de junio de 2007 en Wayback Machine . 
  6. Campaña de evaluación de CLEF Archivado el 23 de junio de 2007 en Wayback Machine . 
  7. Proyecto NTCIR Archivado el 1 de julio de 2007 en Wayback Machine . 
  8. ROMIP . Consultado el 4 de junio de 2014. Archivado desde el original el 18 de junio de 2014.

Literatura

Enlaces

Sistemas de control de calidad y demostraciones Sistemas de control de calidad especializados