2019-08-31

DataScienceSpain – Estudio

El Proyecto  |  El Equipo  |  El Estudio  |  Resultados  |  Partners  |  Contacto  

Ciencia de Datos en España: conocimiento y percepción pública del big data y la inteligencia artificial

DATA SCIENCE SPAIN 1

FASE 1. Conocimiento público y comprensión de la Ciencia de Datos. 

En esta fase inicial se utilizan encuestas para descubrir el conocimiento y las actitudes de la sociedad sobre la ciencia de datos. En diferentes campos, el conocimiento y las actitudes sobre diferentes aspectos, incluida la ciencia, se han probado a menudo utilizando este método cuantitativo (Bauer, 2008)[1]; sin embargo, según nuestro conocimiento, no hay estudios que analicen y comparen el conocimiento y las actitudes hacia la Ciencia de Datos en España. Es por eso que DataScienceSpain mide esto en dos momentos diferentes, lo que también permite verificar la evolución temporal durante los seis meses que pasan entre las encuestas. La encuesta es diseñada y validada ad hoc para el proyecto. La primera oleada de la encuesta tiene lugar en el mes 3 del proyecto. La segunda oleada de la encuesta se distribuirá en el mes 9 y los resultados de ambas oleadas serán comparados. En ambas fases se implementará un sistema de cuotas, que garantiza una distribución adecuada y representativa en las dimensiones de género, edad o región.

FASE 2. Conocimiento de los periodistas sobre Ciencia de Datos

Se adoptará un enfoque más cualitativo, ya que las entrevistas cualitativas y de reconstrucción se utilizarán para comprender los desafíos que enfrentan los periodistas cuando informan sobre DS, BD o AI. 10 periodistas científicos serán entrevistados. Además, dos periodistas que hayan informado previamente sobre temas relacionados con Ciencia de Datos serán elegidos para una entrevista de reconstrucción. Este tipo de entrevistas permiten al entrevistador observar más detalladamente el proceso que sigue la persona entrevistada (un periodista), al crear algo (una historia sobre la ciencia de datos). Todas estas entrevistas mostrarán los desafíos y las deficiencias que los periodistas encuentran cuando informan sobre DS, tanto en sus trabajos, como en sus audiencias. Se solicitará un equilibrio de género entre los periodistas entrevistados, incluyendo al menos el 40% de mujeres.

FASE 3. Ciencia de Datos en los medios

Además de encuestar a periodistas y usuarios, para descubrir cómo se representa la Ciencia de Datos en los medios de comunicación, es necesario analizar a los propios medios de comunicación. La gran cantidad de contenidos publicados o difundidos en diferentes medios del país exige el uso de métodos computacionales para recopilar y analizar toda esta información. Es por eso que se seleccionará una muestra de los medios de comunicación de noticias on line (incluidos los sitios web de noticias nativas, junto con las versiones en línea de medios de impresión, televisión y radio) y varias palabras clave para crear una serie de scripts (Scraping, conexión a APIs, etc.) que puedan recolectar automáticamente los contenidos relacionados con DS. Estos contenidos, seleccionados durante el mismo período de tiempo que la primera encuesta y las entrevistas, serán analizados automáticamente con técnicas de procesamiento del lenguaje natural y aprendizaje automático (machine learning), estudiando y comparando características formales, temas (utilizando topic modelling) o sentimientos (con un enfoque basado en diccionario). Una vez que se construya un corpus de entrenamiento con la muestra proporcionada, usaremos técnicas de aprendizaje automático para medir la comprensibilidad de los contenidos (una característica esencial para que la sociedad entienda aspectos nuevos y complejos sobre la Ciencia de Datos). Se utilizarán diferentes algoritmos (Naive Bayes, Regresión logística, SVM, kNN, árboles de decisión, random forest y redes neuronales) para generar y evaluar los modelos sobre un corpus inicial de ejemplos etiquetados manualmente (utilizando una escala ad hoc de comprensibilidad con validación por pares y con fiabilidad inter-juez) y utilizando métricas de evaluación estándar (accuracy, precision, recall, AUC, etc.).

DATA SCIENCE SPAIN 2

FASE 4. Periodismo de Datos para comunicar Ciencia de Datos 

Usando los aportes previos, se diseñarán contenidos que pueden ayudar a difundir el conocimiento sobre la Ciencia de Datos. Con estos contenidos, y con la asistencia de expertos en el campo, periodistas científicos de toda España serán invitados a un taller en Madrid en el que se les mostrará cómo usar piezas periodísticas basadas en datos para informar y educar sobre la ciencia de datos. Con este conocimiento, los periodistas crearán historias utilizando Periodismo de Datos; luego, esas historias se utilizarán como estímulos para una encuesta experimental que las compara con piezas periodísticas tradicionales (creadas por los miembros del proyecto), estudiando cómo afectan el nivel de conocimiento y el nivel de comprensión de ambos tipos. Esta encuesta experimental se distribuirá a una muestra de 250 personas en España, utilizando cuotas para que haya una proporción equilibrada de género, edad y grupos regionales, y se asignen aleatoriamente artículos tradicionales o noticias basadas en datos a la mitad de la muestra. Una vez que las conclusiones sobre sus efectos sean claras, las historias serán difundidas y viralizadas a escala nacional.

FASE 5. Persuasión Narrativa para comunicar Ciencia de Datos

En muchos sentidos, será similar a la fase 4, pero con una dimensión teórica más sólida basada en la persuasión narrativa. Específicamente probará experimentalmente los efectos del transporte narrativo y la identificación de personajes en las actitudes hacia la Ciencia de Datos, y luego usará los vídeos desarrollados como estímulos para difundirlos y viralizarlos a escala nacional por redes sociales. En el primer caso, se llevará a cabo una encuesta experimental a 250 sujetos para verificar cómo el transporte narrativo (participando principalmente en la historia, más que en el entorno inmediato, y experimentando respuestas cognitivas y emocionales indirectas a la narrativa a medida que se desarrolla; y la identificación con el personaje (una experiencia imaginativa en la que una persona experimenta el mundo a través del punto de vista de otra persona) pueden incrementar los niveles de similitud entre el personaje y la audiencia y por lo tanto aumentar las actitudes positivas hacia la ciencia de datos en España. Para ello se crearán una serie de historias narrativas en primera persona en formato audiovisual (estímulos) que permitirán manipular experimentalmente la similitud basada en las actitudes y creencias hacia los descubrimientos científicos en DS, BD o AI. La investigación en persuasión narrativa ha demostrado que la similitud entre el personaje y la audiencia aumenta el transporte y la identificación narrativos, y ambos procesos son mecanismos relevantes para comprender cómo las narrativas impactan en las actitudes, creencias y comportamientos.

[1] Bauer, M. W. (2008). Survey research and the public understanding of science. In Handbook of public communication of science and technology, 125–144. Routledge.

<Atrás


Con la colaboración de:

Logotipo Fecyt

Proyecto financiado por la Fundación Española para la Ciencia y la Tecnología (FECYT) en la Convocatoria de ayudas para el fomento de la cultura científica, tecnológica y de la innovación 2018-2019. [FCT-18-13437] y en la Convocatoria de ayudas para el fomento de la cultura científica, tecnológica y de la innovación 2019-2020. [FCT-19-15021]