2019-08-31

DataScienceSpain – Estudio

El Proyecto  |  El Equipo  |  El Estudio  |  Resultados  |  Partners  |  Contacto  

 

Ciencia de Datos en España: conocimiento y percepción pública del big data y la inteligencia artificial

 

FASE 1. Conocimiento público y comprensión de la Ciencia de Datos. 

En esta fase inicial se utilizan encuestas para descubrir el conocimiento y las actitudes de la sociedad sobre la ciencia de datos. En diferentes campos, el conocimiento y las actitudes sobre diferentes aspectos, incluida la ciencia, se han probado a menudo utilizando este método cuantitativo (Bauer, 2008)[1]; sin embargo, según nuestro conocimiento, no hay estudios que analicen y comparen el conocimiento y las actitudes hacia la Ciencia de Datos en España. Es por eso que DataScienceSpain mide esto en dos momentos diferentes, lo que también permite verificar la evolución temporal durante los seis meses que pasan entre las encuestas. La encuesta es diseñada y validada ad hoc para el proyecto. La primera oleada de la encuesta tiene lugar en el mes 3 del proyecto. La segunda oleada de la encuesta se distribuirá en el mes 9 y los resultados de ambas oleadas serán comparados. En ambas fases se implementará un sistema de cuotas, que garantiza una distribución adecuada y representativa en las dimensiones de género, edad o región.

 

FASE 2. Conocimiento de los periodistas sobre Ciencia de Datos

Se adoptará un enfoque más cualitativo, ya que las entrevistas cualitativas y de reconstrucción se utilizarán para comprender los desafíos que enfrentan los periodistas cuando informan sobre DS, BD o AI. 10 periodistas científicos serán entrevistados. Además, dos periodistas que hayan informado previamente sobre temas relacionados con Ciencia de Datos serán elegidos para una entrevista de reconstrucción. Este tipo de entrevistas permiten al entrevistador observar más detalladamente el proceso que sigue la persona entrevistada (un periodista), al crear algo (una historia sobre la ciencia de datos). Todas estas entrevistas mostrarán los desafíos y las deficiencias que los periodistas encuentran cuando informan sobre DS, tanto en sus trabajos, como en sus audiencias. Se solicitará un equilibrio de género entre los periodistas entrevistados, incluyendo al menos el 40% de mujeres.

 

FASE 3. Ciencia de Datos en los medios

Además de encuestar a periodistas y usuarios, para descubrir cómo se representa la Ciencia de Datos en los medios de comunicación, es necesario analizar a los propios medios de comunicación. La gran cantidad de contenidos publicados o difundidos en diferentes medios del país exige el uso de métodos computacionales para recopilar y analizar toda esta información. Es por eso que se seleccionará una muestra de los medios de comunicación de noticias on line (incluidos los sitios web de noticias nativas, junto con las versiones en línea de medios de impresión, televisión y radio) y varias palabras clave para crear una serie de scripts (Scraping, conexión a APIs, etc.) que puedan recolectar automáticamente los contenidos relacionados con DS. Estos contenidos, seleccionados durante el mismo período de tiempo que la primera encuesta y las entrevistas, serán analizados automáticamente con técnicas de procesamiento del lenguaje natural y aprendizaje automático (machine learning), estudiando y comparando características formales, temas (utilizando topic modelling) o sentimientos (con un enfoque basado en diccionario). Una vez que se construya un corpus de entrenamiento con la muestra proporcionada, usaremos técnicas de aprendizaje automático para medir la comprensibilidad de los contenidos (una característica esencial para que la sociedad entienda aspectos nuevos y complejos sobre la Ciencia de Datos). Se utilizarán diferentes algoritmos (Naive Bayes, Regresión logística, SVM, kNN, árboles de decisión, random forest y redes neuronales) para generar y evaluar los modelos sobre un corpus inicial de ejemplos etiquetados manualmente (utilizando una escala ad hoc de comprensibilidad con validación por pares y con fiabilidad inter-juez) y utilizando métricas de evaluación estándar (accuracy, precision, recall, AUC, etc.).

 

[1] Bauer, M. W. (2008). Survey research and the public understanding of science. In Handbook of public communication of science and technology, 125–144. Routledge.

 

<Atrás


Con la colaboración de:

Proyecto financiado por la Fundación Española para la Ciencia y la Tecnología (FECYT) en la Convocatoria de ayudas para el fomento de la cultura científica, tecnológica y de la innovación 2019-2020. [FCT-18-13437]