Un conjunto de datos para ser considerado Big Data se caracteriza mediante las tres “Vs”: 1-Volumen: el conjunto de datos es lo suficientemente grande en escala o volumen que requiere especialización en la recogida, almacenamiento, métodos de transacción, y/o de análisis. 2-La Velocidad con la que los datos se generan es tal que requiere la colección especializada, almacenamiento, o tecnologías específicas de transacción. 3-Variabilidad; la naturaleza sintáctica y/o semántica de los datos es muy variable y específica en cada caso, lo que requiere métodos especializados del conocimiento, en este caso biomédico y de la Salud para dar soporte a dicha gestión.
Se entiende ampliamente que un conjunto de datos o recursos de información que demuestra una o más de las características antes mencionadas es “Big Data”. En este sentido, son conjuntos de datos, que se recogen en el entorno biomédico y sanitario actualmente y que pueden ser clasificados como Big Data, los siguientes: a) fenotipos de pacientes extraídos de las Historias de Salud Electrónicas, b) datos de los sensores utilizados para entender características de los pacientes o de población fuera del entorno de la atención clínica, c) datos de los sensores del ambiente y de redes sociales que son condicionantes de la salud a los que están expuestos los pacientes (exposoma), d) y datos resultantes de dispositivos avanzados biomoleculares, tal como los asociados con el exoma o la secuenciación del genoma.
La gestión de dichas colecciones de datos se enfrenta a distintos desafíos. Entre ellos, la dificultad de disponer de herramientas aceptadas y validadas y métodos capaces de forma fiable y eficiente para la recogida, almacenamiento, operación, y el análisis de información biomédica y de la Salud de manera oportuna y rentable (por ejemplo, que no requieran herramientas costosas y especializadas de alto consumo de tiempo de cálculo y enfoques). La dificultad de comprender las mediciones comunes en el dominio de la ciencia biomédica, tales como las pruebas de significación estadística convencional, y que podrían incluir un considerable “ruido”. Por último, los retos intrínsecos de los propios resultados entregados por los métodos y tecnologías “Big Data” para los usuarios finales, de una manera que sea comprensible para el humano y capaz de aprovechar las capacidades cognitivas innatas relativa al reconocimiento de patrones y al razonamiento semántico.
Con el fin de lograr los objetivos deseados a partir del análisis de Big Data, es imprescindible que los interesados tengan claros los objetivos finales y las fuentes de datos que necesitan ser integradas. Privacidad y propiedad de los datos son cuestiones clave que no deben pasarse por alto. Las claves a tener en cuenta son: volumen de los datos, sus características y el impacto del tiempo, el tipo de análisis y el objetivo del análisis. Esto se complica aún más por la rapidez con que se dispone de datos (velocidad), la heterogeneidad de los datos (variedad), y la capacidad de confiar en las inferencias hechas a partir de dichos datos (veracidad).
Además, los datos son la materia prima fundamental, por lo que se requiere de manera prioritaria acometer iniciativas de generar herramientas de soporte a la autonomía de los pacientes en la gestión de la generación y el acceso a sus datos de salud, dentro del marco legal, por parte de los proveedores sanitarios si quieren disponer de un uso continuado de dichos datos masivos.
Diagnóstico y tratamiento de las enfermedadesUn uso fundamental de Big Data está en la investigación biomédica y sanitaria. Estas técnicas se están aplicando ya con éxito para el descubrimiento de factores de riesgo y de estudios genotipo-fenotipo. Sin embargo, es importante tener en cuenta el rigor en el uso de los términos «asociación» respecto a «causalidad». Al igual que con la vigilancia de enfermedades, también se está demostrando que los métodos Big Data proporcionan información valiosa acerca de los eventos adversos de los medicamentos, en particular sobre las reacciones causadas por combinaciones específicas de estos. Un reto fundamental es la extracción de información de los textos narrativos en la Historia de Salud Electrónica. Mediante el desarrollo de métodos para extraer y hacer uso de estos complejos relatos clínicos a gran escala, será posible un análisis matizado de la salud del paciente a través de dicha Historia de Salud Electrónica, y finalmente se formará una imagen más completa de complejos conjuntos de características que influyen en el diagnóstico y el tratamiento de las enfermedades.
Esto requiere validaciones robustas de la aplicación de los algoritmos en este sentido, como es el caso del procesamiento del lenguaje natural para estimar la prevalencia y la gravedad de las enfermedades a partir de su aplicación en la Historia de Salud Electrónica. Para dar soporte a estos retos se perfilan nuevos perfiles profesionales, como los biocurators o data managers especializados en datos de naturaleza biológica, que deben desarrollar capacidades en el ámbito de los métodos y las herramientas de Big Data.
El modelado de datos para su tratamiento en Big data a menudo puede conducir a una correlación o inferencia estadística sesgada, lo que se conoce como «falso descubrimiento». Los usuarios de Big data clínicos se enfrentan a retos importantes ya conocidos, pero con una dimensión desconocida hasta ahora, como son el tamaño de la muestra, el sesgo de selección, el problema de la interpretación, etc...
Es fundamental plantear soluciones adecuadas a los retos específicos de análisis en función de la naturaleza de los datos: imagen médica, señales biomédicas e información genómica integrada con información fisiológica.
Prevenir, curar, cuidar y gestionar mejor los servicios de salud
En conclusión, Big Data en Sanidad se refiere al conjunto de métodos y tecnologías guiados por los datos, que permiten gestionar gran cantidad de información estructurada y no estructurada, y que son capaces de generar nuevo conocimiento útil para identificar problemas de salud, prevenir, curar, cuidar y gestionar mejor los servicios de salud.
El principio de solidaridad en que se fundamenta nuestro Sistema Nacional de Salud obliga a considerar toda la información generada en sus actividades como un patrimonio común útil para la mejora continua de la salud individual y colectiva, así como para la gestión eficiente de sus recursos. Por ello, esta información debería ser usada solidariamente bajo los principios de equidad, licitud, lealtad y transparencia. En consecuencia, los poderes públicos tienen la obligación ética de facilitar el aprovechamiento de este patrimonio común impulsando la normalización y el uso adecuado de los datos compartidos entre los distintos agentes del Sistema y desarrollando infraestructuras de soporte para el intercambio de información en el ámbito de dicho SNS.
El desarrollo del Big Data en Sanidad debe basarse en el respeto riguroso a la legislación en materia de protección de datos, considerando los derechos, límites, garantías y responsabilidades que aseguren la protección de las personas en relación con el tratamiento de los datos que les afecten, así como su aprovechamiento compartido.
Los responsables del Gobierno del Sistema Nacional de Salud y de los Servicios Regionales de Salud tienen la responsabilidad de promocionar el Big Data como tractor del conocimiento biomédico, de la investigación traslacional, y de la generación de eficiencia interna y de tejido industrial de alta productividad. El retraso en su desarrollo supone una pérdida de oportunidades de salud para los individuos, los colectivos, la ciencia y la industria y en definitiva de la riqueza y del bienestar de los españoles. Big Data en Salud, por lo tanto, debe ser una prioridad estratégica para los Gobiernos en la que invertir recursos durante los próximos años.
Carlos Luis Parra-Calderón es el Jefe de Innovación Tecnológica Hospital Universitario Virgen del Rocío