2022-09-05

Tagger

El Proyecto  |  El Equipo  |  Resultados |  Contacto 

Desarrollo y evaluación de un sistema de anotación de textos y codificación de contenido en español

CONTEXTO:

La inteligencia artificial (IA) está cada vez más desarrollada gracias a los significativos avances tecnológicos, y son innegables sus aportaciones para la ciencia de datos y el desarrollo del aprendizaje automático, que han sido aprovechados en el ámbito académico e investigador. Sin embargo, a la hora de automatizar procesos, nos encontramos con limitaciones en la realización de tareas de análisis y moderación de contenidos, sobre todo en el caso de que el material a clasificar sea complejo y requiera de una capacidad crítica e interpretativa que los seres humanos tienen mucho más avanzada.

OBJETIVOS DEL PROYECTO:

Los principales objetivos del proyecto son los siguientes: 

  • O1. Programar una herramienta especializada de anotación de texto, clasificación y etiquetado de secuencias en español. 
  • O2. Formar a un conjunto de codificadores especializados en la codificación de textos de diversas áreas. 
  • O3. Evaluar y validar el prototipo completo desarrollado.

DESCRIPCIÓN:

Esta prueba de concepto propone desarrollar y evaluar el prototipo de un sistema de anotación de textos y codificación de contenido a gran escala en español, que puede ser útil para etiquetar grandes volúmenes de datos, necesarios para el trabajo de investigadores académicos, empresas privadas (consultoras, tecnológicas, medios de comunicación, redes sociales, agencias), instituciones gubernamentales (gobiernos de diverso ámbito, policymakers, instituciones) y organizaciones no gubernamentales (fundaciones, ONGs).

La propuesta está pensada en dos partes que unen tecnología y aplicación procedimental. 

1 – Una herramienta para la anotación de datos

Para el desarrollo de la herramienta tecnológica de anotación, el prototipo será construido a partir de la adaptación de la plataforma de software libre “Doccano”

2 – Análisis de datos con codificadores humanos, tanto formados como no.

Para ello se ofrecerá un servicio mixto: por un lado, con la posibilidad de utilizar anotación masiva y abierta, que permite que grandes cantidades de ciudadanos diversos se conviertan en etiquetadores independientes de contenidos; y por otro lado, con un servicio de codificadores formados específicamente para estas tareas, cuya eficiencia y calidad estará probada gracias a su especialización.

De este modo, el prototipo incluirá la construcción de una inteligencia colectiva por medio de una estrategia que implica el desarrollo de una plataforma técnica, y la implementación de un servicio de contacto, formación y gestión de un equipo de codificadores especializados en el análisis de datos sistematizado, empleando un sistema innovador de crowdsourcing.

ASPECTOS INNOVADORES

El principal aspecto novedoso del prototipo está en su propuesta de establecer una única plataforma específicamente diseñada para adaptarse a las condiciones necesarias para el funcionamiento de un sistema de trabajo con grandes volúmenes de datos.

El uso de la herramienta tecnológica es innovador porque estará desarrollada para la anotación de contenido en español. Así mismo, el valor añadido en relación a las otras plataformas está en ofertar la herramienta de anotación junto al servicio de codificadores humanos. 

Por ello, la propuesta incluye además la creación de un método formativo técnico conceptual dirigido a los codificadores.


Esta actuación se encuadra en el Plan TCUE 2021-2023 y ha sido seleccionada en el marco de un programa operativo cofinanciado por el Fondo Europeo de Desarrollo Regional (FEDER) y la Junta de Castilla y León.