Sistema de preguntas y respuestas

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 6 de septiembre de 2019; las comprobaciones requieren 4 ediciones .

El sistema de preguntas y respuestas ( QA-system ; del inglés QA - English Question-answering system ) es un sistema de información capaz de recibir preguntas y responderlas en lenguaje natural , en otras palabras, es un sistema con una interfaz de lenguaje natural.

Clasificación

Los sistemas de preguntas y respuestas se pueden dividir en:

Los sistemas de control de calidad altamente especializados funcionan en áreas específicas (por ejemplo, medicina o mantenimiento de automóviles).
Los sistemas de control de calidad generales trabajan con información en todas las áreas de conocimiento, por lo que es posible buscar en áreas relacionadas.

Arquitectura

Los primeros sistemas de control de calidad [1] se desarrollaron en la década de 1960 y eran shells de lenguaje natural para sistemas expertos de dominio específico . Los sistemas modernos están diseñados para buscar respuestas a preguntas en documentos proporcionados utilizando tecnologías de procesamiento de lenguaje natural (NLP).

Los sistemas de control de calidad modernos generalmente incluyen un módulo especial: clasificador de preguntas , que determina el tipo de pregunta y, en consecuencia, la respuesta esperada. Después de este análisis, el sistema aplica gradualmente métodos de PNL cada vez más complejos y sutiles a los documentos proporcionados, descartando información innecesaria. El método más rudimentario, las búsquedas de documentos , implica el uso de un sistema de recuperación de información para seleccionar porciones de texto que potencialmente contienen una respuesta. A continuación, el filtro resalta las frases que son similares a la respuesta esperada (por ejemplo, para la pregunta "Quién...", el filtro devolverá fragmentos de texto que contengan nombres de personas). Y, finalmente, el módulo de resaltado de respuestas encontrará la respuesta correcta entre estas frases.

Esquema de trabajo

El rendimiento de un sistema de preguntas y respuestas depende de la eficacia de los métodos de análisis de texto utilizados y de la calidad de la base del texto; si no contiene respuestas a las preguntas, el sistema de control de calidad no podrá encontrar mucho. Cuanto más grande sea la base de datos, mejor, pero solo si contiene la información necesaria. Los repositorios grandes (como Internet) contienen mucha información redundante [2] . Esto lleva a los siguientes puntos:

Dado que la información se presenta en diferentes formas, la integridad de la información es mayor. Es más probable que un sistema de control de calidad encuentre una respuesta.
La información correcta se repite más a menudo, por lo que se pueden minimizar los errores en la búsqueda de respuestas.
La precisión de la recuperación de información depende significativamente de la confiabilidad de la información almacenada, así como de la efectividad de los métodos para analizar la información y generar respuestas.

Problemas

En 2002, un grupo de investigadores escribió un plan de investigación para los sistemas de preguntas y respuestas [3] . Se propuso considerar las siguientes preguntas:

Tipos de preguntas Diferentes preguntas requieren diferentes métodos para encontrar respuestas. Por lo tanto, es necesario compilar o mejorar listas metodológicas de tipos de preguntas posibles. Manejo de preguntas Una misma información puede ser solicitada de diferentes formas. Se requiere crear métodos efectivos para comprender y procesar la semántica (significado) de la oración. Es importante que el programa reconozca preguntas que tengan un significado equivalente, independientemente del estilo , las palabras, las relaciones sintácticas y los modismos utilizados . Me gustaría que el sistema de control de calidad divida las preguntas complejas en varias simples e interprete correctamente las frases sensibles al contexto, posiblemente aclarándolas con el usuario durante el diálogo. Problemas contextuales Las preguntas se hacen en un contexto específico . El contexto puede refinar una consulta, eliminar la ambigüedad o seguir la línea de pensamiento del usuario a través de una serie de preguntas. Fuentes de conocimiento para un sistema de QA Antes de responder a la pregunta, sería bueno consultar sobre las bases de texto disponibles. Independientemente de los métodos de procesamiento de texto que se utilicen, no encontraremos la respuesta correcta si no está en las bases de datos. Resaltar respuestas La ejecución correcta de este procedimiento depende de la complejidad de la pregunta, su tipo, contexto, la calidad de los textos disponibles, el método de búsqueda, etc. - una gran cantidad de factores. Por lo tanto, es necesario abordar el estudio de los métodos de procesamiento de textos con toda cautela, y este problema merece especial atención. Redacción de la respuesta La respuesta debe ser lo más natural posible. En algunos casos, basta con resaltarlo del texto. Por ejemplo, si se requiere un nombre (nombre de una persona, nombre de un dispositivo, enfermedad), valor (tipo de cambio, longitud, tamaño) o fecha ("¿Cuándo nació Iván el Terrible?"), una respuesta directa es suficiente . Pero a veces tiene que lidiar con consultas complejas, y aquí necesita algoritmos especiales para fusionar respuestas de diferentes documentos. Respondiendo preguntas en tiempo real Es necesario hacer un sistema que encuentre respuestas en los repositorios en unos pocos segundos, independientemente de la complejidad y ambigüedad de la pregunta, el tamaño y la inmensidad de la base de documentos. Consultas multilingües Desarrollo de sistemas de trabajo y búsqueda en otros idiomas (incluyendo traducción automática ). interactividad A menudo, la información que ofrece un sistema de control de calidad como respuesta es incompleta. Quizás el sistema identificó mal el tipo de pregunta o lo entendió mal. En este caso, el usuario puede querer no solo reformular su solicitud, sino también "explicar" con el programa mediante un diálogo. Mecanismo de razonamiento (inferencia) A algunos usuarios les gustaría una respuesta que vaya más allá de los textos disponibles. Para ello, es necesario añadir al sistema de QA conocimientos comunes a la mayoría de las áreas (ver Ontologías generales en informática ), así como herramientas para la derivación automática de nuevos conocimientos. Perfiles de usuarios de los sistemas de control de calidad La información sobre el usuario, como el área de interés, la forma de hablar y el razonamiento, los datos predeterminados, podría aumentar significativamente el rendimiento del sistema.

Instrucciones para el desarrollo de sistemas de preguntas y respuestas

Desde la aparición de los primeros prototipos de sistemas de preguntas y respuestas, su alcance se ha ampliado significativamente [4] . Por ejemplo, se utilizan en respuestas a preguntas relacionadas con el tiempo, preguntas de geolocalización, preguntas de definición, preguntas bibliográficas, multilingües, preguntas relacionadas con multimedia (información visual, de audio y video). Se estudian áreas relacionadas, como la creación de sistemas de control de calidad interactivos (aclarar las preguntas necesarias para aclarar el original), reutilizar las respuestas y representar el conocimiento, usar la inferencia de la información disponible para obtener respuestas a las preguntas, etc., predecir qué preguntas se pueden hacer, sentimiento análisis.

Evaluación de la calidad de los sistemas de preguntas y respuestas

Los sistemas de preguntas y respuestas se discuten de forma continua en el marco de los proyectos: TREC [5] , CLEF[6] , NTCIR [7] , ROMIP [8] .

Notas

↑ Hirschman, L. & Gaizauskas, R. (2001) Respuesta a preguntas en lenguaje natural. The View from Here Archivado el 29 de enero de 2012 en Wayback Machine . Ingeniería del Lenguaje Natural (2001), 7:4:275-300 Cambridge University Press.
↑ Lin, J. (2002). La web como recurso para responder preguntas: perspectivas y desafíos. En Actas de la Tercera Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC 2002).
↑ Burger, J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, CY., Maiorano, S., Miller, G. , Moldovan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. Problemas, tareas y programa Estructuras para la investigación de hojas de ruta en respuesta a preguntas (QA) Archivado el 25 de abril de 2012 en Wayback Machine .
↑ Maybury, editor de MT. 2004. Nuevas direcciones en la respuesta a preguntas. Archivado el 3 de marzo de 2021 en Wayback Machine AAAI/MIT Press.
↑ Competencia TREC Archivado el 24 de junio de 2007 en Wayback Machine .
↑ Campaña de evaluación de CLEF Archivado el 23 de junio de 2007 en Wayback Machine .
↑ Proyecto NTCIR Archivado el 1 de julio de 2007 en Wayback Machine .
↑ ROMIP . Consultado el 4 de junio de 2014. Archivado desde el original el 18 de junio de 2014. (indefinido)

Literatura

Dragomir R. Radev, John Prager y Valerie Samn. Clasificación de las respuestas sospechosas a las preguntas del lenguaje natural mediante la anotación predictiva . En Actas de la 6ª Conferencia sobre Procesamiento Aplicado del Lenguaje Natural, Seattle, WA, mayo de 2000.
Hovy, E., Gerber, L., Hermjakob, U., Junk, M. y Lin, C. (2000) Respuesta a preguntas en Webclopedia. En: 9ª Conferencia de Recuperación de Texto.
Huettner, A. (2000) Respuesta a preguntas. En: 5° Encuentro de Motores de Búsqueda.
John Prager, Eric Brown, Anni Coden y Dragomir Radev. Pregunta-respuesta por anotación predictiva . In Proceedings, 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Atenas, Grecia, julio de 2000.
Katz, B., Felshin, S. & Lin, J. (2002) El sistema de información multimedia START: tecnología actual y direcciones futuras. En: Taller Internacional de Sistemas de Información Multimedia.
Wong, W. (2005) Enfoque práctico para la respuesta a preguntas basada en el conocimiento con comprensión del lenguaje natural y razonamiento avanzado . En: Maestro; Colegio Universitario Nacional Técnico de Malasia.

Enlaces

Sistemas de control de calidad y demostraciones

Uno de los primeros sistemas de preguntas y respuestas START publicados en Internet en el sitio web del MIT .
AskNet Search sistema de preguntas y respuestas en asknet.ru (originalmente Stocona Search).
Sistema de preguntas y respuestas BrainBoost en Answers.com(originalmente BrainBoost.com).
Sistema de control de calidad integrado en el motor de búsqueda de Ask.com .
Sistema de preguntas y respuestas OpenEphyra de código abierto.
Sistema de control de calidad multilingüe askEd!m ( inglés , japonés (enlace descendente desde el 13-05-2013 [3451 días] - historial ) , chino (enlace descendente desde el 13-05-2013 [3451 días] - historial ) , ruso (enlace descendente desde el 13/05 ) /2013 [3451 días] - historial ) y sueco (enlace no disponible desde el 13/05/2013 [3451 días] - historial ) ).
Proyecto Evi de True Knowledge.

Sistemas de control de calidad especializados

EAGLi: motor de respuesta a preguntas de MEDLINE .

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcado parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva

Web y sitios web
globalmente	La red mundial Internet 1.0 web 2.0 Internet 3.0 web semántica Neuronet
En la zona	Sitio web Portal Página Servicio Anillo
Tipos de sitios y servicios	atlas virtuales red de banners Biblioteca Blog ( plataforma ) Alojamiento de videos wiki sitio de tarjeta de visita Pregunta respuesta Marcadores servicios de citas juego de navegador Directorio de recursos Tienda en línea microblog sitio de noticias Sistema de búsqueda sitio porno Correo web Red social Tumblelog Rastreador de BitTorrent Alojamiento de archivos Foro Servicio Tablero de imagen Alojamiento de fotos Charlar
Creación y mantenimiento	Maestro Desarrollo Diseño Diseño Programación usabilidad Experiencia de interacción promoción del sitio web Optimización de motores de búsqueda (SEO) Alojamiento Administrador de sistema moderador Cuenta Autorización
Tipos de diseños, páginas, sitios.	Estático Dinámica Fijado Goma dinámicamente elástico Adaptado
Técnico	Servidor web Navegador DNS CMF CMS HTTP ( respuestas encabezados ) SPDY RÁPIDO CGI HTML XHTML CSS PHP JavaScript DHTML Galleta DOM XML AJAX JSON Destello RSS átomo informador microformato favicon.ico_ _ robots.txt Mapas del sitio mapa del sitio .htaccess
Marketing	Mercadeo por Internet publicidad en Internet Bandera publicidad contextual Rompecabezas ciberocupación
sociedad y Cultura	Blogosfera Comunidad de Internet ( distrito ) Literatura de red