• Análisis de sentimiento
    Análisis de entidades
    Análisis de sintaxis
    Clasificación de texto
    NLP Bayes y TensorFlow
  • DATA VIZ
    Informe general
  • eBurnout
    Detectar síndrome de burnout

Introducción

El siguiente Trabajo Fin de Máster (TFM) presenta el análisis de texto y búsqueda de patrones ocultos sobre los datos anonimizados de la aplicación eBurnout (www.eburnout.com) perteneciente al proyecto de investigación de la Universidad Europea llamado "Aplicaciones basadas en IoT y Big Data en el ámbito hospitalario", correspondientes al personal médico de psiquiatría y urgencias de los hospitales Infanta Sofía (Alcobendas) y Son Llàtzer (Palma de Mallorca). Este estudio ha comenzado el 31 de mayo de 2018 y finaliza el 28 de septiembre de 2018 con la presentación de este TFM.

Como objetivo principal del estudio se quiere descubrir la información contenida en los datos analizados.Para ello, se han utilizado las siguientes herramientas de análitica: R, Python y Tableau para enriquecer su diversidad ayudadas de la infraestructura escalable y de gran rendimiento Google Cloud Platform (GCP).

Por último, en lo que respecta al marco regulador,destacar que la aplicación eBurnout se ha adaptado correctamente al Reglamento Europeo de Protección de Datos (REPD) del 25 de mayo de 2018 garantizando lo siguiente:

100% anónimo

Se garantiza la privacidad del usuario al introducir sus datos.

100% seguro

Se garantiza la seguridad al manejar información sensible.

Consentimiento informado

Toda la información se documenta en el consentimiento informado.



Más información Vídeo presentación

Participación en el estudio

Psiquiatría
Urgencias
Otros




Análisis exploratorio del texto

Todo el proceso de exploración de los datos del Dataset se ha realizado utilizando Google Cloud Platform desde sus procesos ETL hasta la visualización.

uemus5
uemus13
uemus12
hs8
uemus8
uemus15
hs10
uemus9
  • Usuarios con pulsera
  • Usuarios sin pulsera
Longitud opiniones

Longitud opiniones (Todos usuarios)

Visualización de la longitud de las opiniones vertidas (y= frecuencia, x=total de opiniones) El 0 significa que hay muchos usuarios que no han opinado.

Cantidad palabras (1)

Cantidad palabras (Us. con pulsera)

Visualización de la cantidad de palabras genéricas de los usuarios con pulsera Fitbit (ambos hospitales).

Cantidad palabras (2)

Cantidad palabras (Us. sin pulsera)

Visualización de la cantidad de palabras genéricas de los usuarios sin pulsera Fitbit (ambos hospitales).

Palabras-comentario (1)

Palabras-comentario (Todos usuarios)

Visualización de la cantidad de palabras por comentario de todos los usuarios (ambos hospitales).

Palabras-comentario (2)

Palabras-comentario (Us. con pulsera)

Visualización de la cantidad de palabras por comentario de los usuarios con pulsera Fitbit (ambos hospitales).

Palabras-comentario (3)

Palabras-comentario (Us. sin pulsera)

Visualización de la cantidad de palabras por comentario de los usuarios sin pulsera Fitbit (ambos hospitales).

Word Cloud (1)

Word Cloud (Todos usuarios)

Visualización de la nube de las palabras más utilizadas por todos los usuarios (ambos hospitales).

Word Cloud (2)

Word Cloud (Us. con pulsera)

Visualización de la nube de las palabras más utilizadas por los usuarios con pulsera Fitbit (ambos hospitales).

Word Cloud (3)

Word Cloud (Us. sin pulsera)

Visualización de la nube de las palabras más utilizadas por los usuarios sin pulsera Fitbit (ambos hospitales)

Análisis de sentimiento

El análisis del sentimiento de los dos hospitales se ha realizado utilizando NLTK y Google Cloud Natural Language API.

Sentimiento palabras NLTK (1)

Sentimiento palabras (hosp. Son Llàtzer) NLTK

Visualización del sentimiento de las palabras utilizadas en el hospital Son Llàtzer.

Sentimiento palabras NLTK (2)

Sentimiento palabras (hosp. Infanta Sofía) NLTK

Visualización del sentimiento de las palabras utilizadas en el hospital Infanta Sofía.

Sentimiento palabras Google Cloud Natural Language API

Sentimiento palabras (TODOS) GCNL API

Visualización del Score y Magnitude del sentimiento de las palabras de ambos hospitales y separados.




Análisis de entidades, sintaxis y clasificación de texto

El análisis de entidades,sintaxis y clasificación de texto se ha realizado utilizando Google Cloud Natural Language API.

Clasificación texto Google Cloud Natural Language API

Clasificación de texto (ambos hospitales) GCNL API

Visualización del Name y Confidence de la clasificación del texto de ambos hospitales.

Categorización de texto (Naive Bayes y TensorFlow)

Predicción de burnout en un usuario en base a una opinión empleando Naive Bayes y TensorFlow.

NLP Bayes resultado valor real vs predecido

NLP Bayes

Resultado al ejecutar NLP Bayes de las predicciones obtenidas (valor real vs predecido).

NLP Bayes resultado

NLP Bayes

Resultado al ejecutar NLP Bayes para predecir si un usuario tiene burnout a partir de un texto (label_test).

NLP TensorFlow resultado

NLP TensorFlow

Resultado al ejecutar NLP TensorFlow para predecir si un usuario tiene burnout a partir de un texto.

Matriz confusión NLP TensorFlow

Matriz de confusión NLP TensorFlow

Matriz de confusión con el total de aciertos y fallos en las predicciones de Burnout (NLP TensorFlow).




Otras visualizaciones (encontrar patrones ocultos)

Visualizaciones para encontrar patrones ocultos y compararlos con el análisis de texto utilizando la librería de Python Seaborn,la librería de R GGPlot adaptada en Python y la herramienta Tableau.

  • Altura vs peso en eBurnout

    Altura, peso y v.laboral (ambos hospitales).

  • Ejercicio vs burnout en eBurnout

    Ejercicio vs burnout (ambos hospitales).

  • Ejercicio vs eficiencia dormir en eBurnout

    Ejercicio vs eficiencia dormir (ambos hospitales).

  • Burnout en meses Son Llàtzer en eBurnout

    Burnout en meses (Son Llàtzer).

  • Burnout en meses Infanta Sofía en eBurnout

    Burnout en meses (Infanta Sofía).

  • Burnout vs sueño Son Llàtzer en eBurnout

    Burnout vs sueño (Son Llàtzer).

  • Burnout vs sueño Infanta Sofía en eBurnout

    Burnout vs sueño (Infanta Sofía).

  • Burnout vs latidos Son Llàtzer en eBurnout

    Burnout vs latidos (Son Llàtzer).

  • Burnout vs latidos Infanta Sofía en eBurnout

    Burnout vs latidos (Infanta Sofía).

  • Burnout vs temperatura Son Llàtzer en eBurnout

    Burnout vs temperatura (Son Llàtzer).

  • Burnout vs temperatura Infanta Sofía en eBurnout

    Burnout vs temperatura (Infanta Sofía).

  • Peso y altura vs burnout en eBurnout

    Peso y altura vs burnout (ambos hospitales).

  • Total de burnout en eBurnout

    Total burnout (ambos hospitales).

  • Total de burnout Son Llàtzer e Infanta Sofía en eBurnout

    Total burnout (hosp. separados).

  • Nivel de burnout Son Llàtzer e Infanta Sofía en eBurnout

    Nivel de burnout (hosp. separados).

  • Burnout Madrid vs Mallorca en eBurnout

    Burnout Madrid vs Mallorca.

  • No Burnout Madrid vs Mallorca en eBurnout

    No Burnout Madrid vs Mallorca.

Patrones detectados e Informe general

Detección de patrones ocultos en comparación con el análisis de texto e informe general.

  • 1. La participación en el campo de texto libre por parte del personal médico es más alta en el hospital Infanta Sofía que en el hospital Son Llàtzer y, en este primero existe más burnout.
  • 2. El índice de opiniones negativas en el hospital Son Llàtzer es inferior al hospital Infanta Sofía y se ha detectado que el tiempo meteorológico puede ser determinante en esto. También la proporción de opiniones positivas es superior en este primero.
  • 3. La eficiencia del sueño y los latidos del corazón no influyen en el síndrome de burnout pero sí que influyen en el texto escrito por el personal médico. Esto se puede contrastar con los Word Cloud.
  • 4. Los usuarios con pulsera Fitbit han tenido un grado de participación más elevada en el estudio vertiendo texto que aquellos que no la tienen.
  • 5. Las variables peso y altura sí influyen en el síndrome de burnout y se ha detectado que influyen en la participación de texto .
  • 6. El porcentaje de participación en el texto libre así como el nivel de burnout en ambos hospitales es inferior en el mes de agosto que en el resto de meses (posiblemente por el periodo de vacaciones del personal médico). El mes crítico en todo el estudio es el mes de julio.
  • 7. La cantidad de palabras por comentario de los usuarios con pulsera es muy pareja a los usuarios sin pulsera . No se ha detectado un patrón que pueda explicar esto en el ámbito de la visualización.
Repositorio GitHub eBurnout Text Analysis

Autoría del trabajo

Recursos utilizados

Frameworks

  • Ionic
  • AngularJS

Lenguajes utilizados

  • TS,JS,HTML5 y CSS3
  • NoSQL
  • Python
  • Shell Script

Bases de datos

  • Firebase
  • Google Cloud Storage

Control de versiones

  • SourceTree
  • Trello

Análisis de datos

  • Google Cloud Platform

Visualización

  • Seaborn
  • GGPlot
  • Tableau

Obtención de los datos

Hospital Infanta Sofia
Hospital Son Llatzer

Descargar aplicación

La aplicación eBurnout se puede descargar desde Google Play Store (Android) y App Store (iOS)

App Store
Google Play Store