2022-09-05

TAGGER

El Proyecto  |  El Equipo  |  Resultados |  Contacto 

Desarrollo y evaluación de un sistema de anotación de textos y codificación de contenido en español: TAGGER

CONTEXTO:

La inteligencia artificial (IA) está cada vez más desarrollada gracias a los significativos avances tecnológicos, y son innegables sus aportaciones para la ciencia de datos y el desarrollo del aprendizaje automático, que han sido aprovechados en el ámbito académico e investigador. Sin embargo, a la hora de automatizar procesos, nos encontramos con limitaciones en la realización de tareas de análisis y moderación de contenidos, sobre todo en el caso de que el material a clasificar sea complejo y requiera de una capacidad crítica e interpretativa que los seres humanos tienen mucho más avanzada.

RESUMEN DEL PROYECTO:

Esta prueba de concepto propone desarrollar y evaluar el prototipo de un sistema de anotación de textos y codificación de contenido a gran escala en español, que puede ser útil para etiquetar grandes volúmenes de datos, necesarios para el trabajo de investigadores académicos, empresas privadas (consultoras, tecnológicas, medios de comunicación, redes sociales, agencias), instituciones gubernamentales (gobiernos de diverso ámbito, policymakers, instituciones) y organizaciones no gubernamentales (fundaciones, ONGs).

La propuesta está pensada en dos partes que unen tecnología y aplicación procedimental. 

1 – Una herramienta para la anotación de datos

Para el desarrollo de la herramienta tecnológica de anotación, el prototipo será construido a partir de la adaptación de la plataforma de software libre “Doccano”

2 – Análisis de datos con codificadores humanos, tanto formados como no.

Para ello se ofrecerá un servicio mixto: por un lado, con la posibilidad de utilizar anotación masiva y abierta, que permite que grandes cantidades de ciudadanos diversos se conviertan en etiquetadores independientes de contenidos; y por otro lado, con un servicio de codificadores formados específicamente para estas tareas, cuya eficiencia y calidad estará probada gracias a su especialización.

De este modo, el prototipo incluirá la construcción de una inteligencia colectiva por medio de una estrategia que implica el desarrollo de una plataforma técnica, y la implementación de un servicio de contacto, formación y gestión de un equipo de codificadores especializados en el análisis de datos sistematizado, empleando un sistema innovador de crowdsourcing.

DESCRIPCIÓN TÉCNICA DEL PROYECTO:

  1. Desarrollo de la plataforma para el etiquetado colectivo.

Partiendo del software libre que utiliza la plataforma de crowd-tagging “Doccano”, se realizará una adaptación de la programación para un uso específico en tareas de codificación o etiquetado de todo tipo de textos en idioma español por codificadores humanos.

2. Prueba y evaluación del prototipo.

2.1. Recolección de contenidos: 

Los investigadores utilizarán métodos computacionales (scraping) para recopilar una base de datos de contenidos.

La estimación de contenidos a obtener es de 10.000 referencias.

2.2. Entrenamiento de codificadores:

Se realizará un proceso de formación a codificadores para crear el equipo de codificación formado y especializado. Para ello, en primer lugar, se diseñará un libro de códigos básico y asequible para todos los públicos, con instrucciones para el etiquetado. A continuación, se seleccionará a las personas.

2.3. Codificación mediante un etiquetado colectivo (crowd-tagging):

Usando la base de datos de contenidos recopilados se iniciará el proceso para que los ciudadanos etiqueten los contenidos. Se realizará un etiquetado de los contenidos recopilados a través de la plataforma con dos líneas de trabajo: 

  • Usuarios sin formación, masivos y libres. 
  • Usuarios formados.

Ambos grupos clasificarán los contenidos de la base de datos a través de la plataforma de crowd-tagging, de modo que se pueda obtener un estudio comparativo.

OBJETIVOS DEL PROYECTO:

Los principales objetivos del proyecto son los siguientes: 

  • O1. Programar una herramienta especializada de anotación de texto, clasificación y etiquetado de secuencias en español. 
  • O2. Formar a un conjunto de codificadores especializados en la codificación de textos de diversas áreas. 
  • O3. Evaluar y validar el prototipo completo desarrollado.

ASPECTOS INNOVADORES:

El principal aspecto novedoso del prototipo está en su propuesta de establecer una única plataforma específicamente diseñada para adaptarse a las condiciones necesarias para el funcionamiento de un sistema de trabajo con grandes volúmenes de datos.

El uso de la herramienta tecnológica es innovador porque estará desarrollada para la anotación de contenido en español. Así mismo, el valor añadido en relación a las otras plataformas está en ofertar la herramienta de anotación junto al servicio de codificadores humanos. 

Por ello, la propuesta incluye además la creación de un método formativo técnicoconceptual direccionado a los codificadores.


Esta actuación se encuadra en el Plan TCUE 2021-2023 y ha sido seleccionada en el marco de un programa operativo cofinanciado por el Fondo Europeo de Desarrollo Regional (FEDER) y la Junta de Castilla y León