Un conjunto de datos para ser considerado Big Data se caracteriza mediante las tres “Vs”: 1-Volumen: el conjunto de datos es lo suficientemente grande en escala o volumen que requiere especialización en la recogida, almacenamiento, métodos de transacción, y/o de análisis. 2-La Velocidad con la que los datos se generan es tal que requiere la colección especializada, almacenamiento, o tecnologías específicas de transacción. 3-Variabilidad; la naturaleza sintáctica y/o semántica de los datos es muy variable y específica en cada caso, lo que requiere métodos especializados del conocimiento, en este caso biomédico y de la Salud para dar soporte a dicha gestión.
Se entiende ampliamente que un conjunto de datos o recursos de información que demuestra una o más de las características antes mencionadas es “Big Data”. En este sentido, son conjuntos de datos, que se recogen en el entorno biomédico y sanitario actualmente y que pueden ser clasificados como Big Data, los siguientes: a) fenotipos de pacientes extraídos de las Historias de Salud Electrónicas, b) datos de los sensores utilizados para entender características de los pacientes o de población fuera del entorno de la atención clínica, c) datos de los sensores del ambiente y de redes sociales que son condicionantes de la salud a los que están expuestos los pacientes (exposoma), d) y datos resultantes de dispositivos avanzados biomoleculares, tal como los asociados con el exoma o la secuenciación del genoma.
La gestión de dichas colecciones de datos se enfrenta a distintos desafíos. Entre ellos, la dificultad de disponer de herramientas aceptadas y validadas y métodos capaces de forma fiable y eficiente para la recogida, almacenamiento, operación, y el análisis de información biomédica y de la Salud de manera oportuna y rentable (por ejemplo, que no requieran herramientas costosas y especializadas de alto consumo de tiempo de cálculo y enfoques). La dificultad de comprender las mediciones comunes en el dominio de la ciencia biomédica, tales como las pruebas de significación estadística convencional, y que podrían incluir un considerable “ruido”. Por último, los retos intrínsecos de los propios resultados entregados por los métodos y tecnologías “Big Data” para los usuarios finales, de una manera que sea comprensible para el humano y capaz de aprovechar las capacidades cognitivas innatas relativa al reconocimiento de patrones y al razonamiento semántico.
Con el fin de lograr los objetivos deseados a partir del análisis de Big Data, es imprescindible que los interesados tengan claros los objetivos finales y las fuentes de datos que necesitan ser integradas. Privacidad y propiedad de los datos son cuestiones clave que no deben pasarse por alto. Las claves a tener en cuenta son: volumen de los datos, sus características y el impacto del tiempo, el tipo de análisis y el objetivo del análisis. Esto se complica aún más por la rapidez con que se dispone de datos (velocidad), la heterogeneidad de los datos (variedad), y la capacidad de confiar en las inferencias hechas a partir de dichos datos (veracidad).
Además, los datos son la materia prima fundamental, por lo que se requiere de manera prioritaria acometer iniciativas de generar herramientas de soporte a la autonomía de los pacientes en la gestión de la generación y el acceso a sus datos de salud, dentro del marco legal, por parte de los proveedores sanitarios si quieren disponer de un uso continuado de dichos datos masivos.
Diagnóstico y tratamiento de las enfermedadesUn uso fundamental de Big Data está en la investigación biomédica y sanitaria. Estas técnicas se están aplicando ya con éxito para el descubrimiento de factores de riesgo y de estudios genotipo-fenotipo. Sin embargo, es importante tener en cuenta el rigor en el uso de los términos «asociación» respecto a «causalidad». Al igual que con la vigilancia de enfermedades, también se está demostrando que los métodos Big Data proporcionan información valiosa acerca de los eventos adversos de los medicamentos, en particular sobre las reacciones causadas por combinaciones específicas de estos. Un reto fundamental es la extracción de información de los textos narrativos en la Historia de Salud Electrónica. Mediante el desarrollo de métodos para extraer y hacer uso de estos complejos relatos clínicos a gran escala, será posible un análisis matizado de la salud del paciente a través de dicha Historia de Salud Electrónica, y finalmente se formará una imagen más completa de complejos conjuntos de características que influyen en el diagnóstico y el tratamiento de las enfermedades.
Esto requiere validaciones robustas de la aplicación de los algoritmos en este sentido, como es el caso del procesamiento del lenguaje natural para estimar la prevalencia y la gravedad de las enfermedades a partir de su aplicación en la Historia de Salud Electrónica. Para dar soporte a estos retos se perfilan nuevos perfiles profesionales, como los biocurators o data managers especializados en datos de naturaleza biológica, que deben desarrollar capacidades en el ámbito de los métodos y las herramientas de Big Data.
El modelado de datos para su tratamiento en Big data a menudo puede conducir a una correlación o inferencia estadística sesgada, lo que se conoce como «falso descubrimiento». Los usuarios de Big data clínicos se enfrentan a retos importantes ya conocidos, pero con una dimensión desconocida hasta ahora, como son el tamaño de la muestra, el sesgo de selección, el problema de la interpretación, etc...
Es fundamental plantear soluciones adecuadas a los retos específicos de análisis en función de la naturaleza de los datos: imagen médica, señales biomédicas e información genómica integrada con información fisiológica.