¿Cómo implementar OMOP CDM y no morir en el intento?
Disponer de datos del mundo real proporciona un marco idóneo para realizar estudios de investigación clínica. Sin embargo, su selección y preparación supone un gran esfuerzo tanto para investigadores como para el personal TIC de la organización. Disponer de grandes volúmenes de datos de calidad es además la base de cualquier uso de IA que se quiera realizar en la organización. Se estima que el 80% del tiempo de los investigadores y el 50% del tiempo del personal TIC se destina a la selección y preparación de los datos. La utilización de estándares permite reducir al mínimo este esfuerzo, proporcionando a los investigadores herramientas para la consulta y creación de cohortes sin la intervención del personal TIC.
Uno de los modelos normalizados más utilizados en la actualidad para investigación con datos del mundo real es el modelo Observational Medical Outcomes Partnership (OMOP CDM). Sólo en el proyecto europeo EHDEN hay ahora mismo 187 bases de datos normalizadas en OMOP CDM, estando 27 de ellas localizadas en España y 4 en la Comunitat Valenciana.
El estándar OMOP CDM proporciona un modelo de base de datos relacional y un modelo de vocabulario estándar que permite armonizar los datos para facilitar su reutilización. El principal esfuerzo a realizar consiste en transformar los datos al estándar OMOP CDM a partir de los datos ya registrados en los sistemas de HCE existentes. Los pasos necesarios para obtener una base de datos normalizada son los siguientes:
En la Comunitat Valenciana hemos colaborado con varias organizaciones, aplicando esta metodología para la construcción y validación de bases de datos OMOP CDM.
Base de datos OMOP CDM | Organización | Número de pacientes |
HULAFE | Hospital Universitario La Fe | 2 274 159 |
Marina Salud Denia | Hospital de Denia Marina Salud | 314 587 |
ABUCASIS | INCLIVA | 4 014 819 |
VID-CONSIGN | FISABIO | 1 964 588 |
Bases de datos normalizadas en OMOP CDM en la Comunitat Valenciana
El conjunto de datos principal para poblar una base de datos OMOP CDM suele proceder de bases de datos relacionales y de datos estructurados (XML o JSON). Pero OMOP CDM puede además poblarse desde otras fuentes de datos como el texto libre y la imagen médica. En Veratech hemos participado en varios proyectos que atacan estos dominios, como el proyecto ChronicExtract donde se ha poblado una base de datos OMOP CDM con información de pacientes diabéticos con información contenida en notas clínicas narrativas. Este proyecto tiene como objetivo último desarrollar un cuadro de mandos para pacientes diabéticos donde la base de datos OMOP CDM centraliza toda la información clínica. Algunos de los datos relevantes se encuentran exclusivamente dentro de notas clínicas narrativas. Fue necesario utilizar técnicas de procesamiento de lenguaje natural para encontrar las menciones a los conceptos clínicos relevantes. Las menciones encontradas fueron posteriormente representadas por medio de las tablas y vocabulario OMOP CDM. Otra fuente de información para el entrenamiento de modelos predictivos es la imagen clínica. El modelo OMOP CDM dispone de la extensión radiológica que permite enlazar los datos observacionales provenientes de la HCE con los metadatos de imagen médica. Veratech ha participado en el proyecto Tartaglia en el que se ha hecho uso de esta extensión para que sirva de base al entrenamiento de modelos con imagen y variables clínicas.
La normalización a OMOP CDM proporciona ventajas a la investigación clínica, como dotar a los datos de una semántica clara y mejorar su calidad. Es cierto que el esfuerzo inicial para realizar esta normalización es considerable, pero una vez hecho las ventajas son evidentes. Ante cada nueva investigación clínica no tendremos que dedicar tiempo a la preparación y limpieza de los datos. OMOP CDM dispone del entorno ATLAS que permite a los profesionales sanitarios crear cohortes de pacientes a partir de filtros sobre la información almacenada en la base de datos, sin requerir intervención del personal TIC.
La normalización a OMOP CDM es también una oportunidad para extraer el conocimiento existente en texto libre de documentos clínicos y en las imágenes almacenadas. Se pueden implementar procesos de análisis de estos datos para extraer o anotar conceptos clínicamente relevantes sobre la salud de los pacientes.
Finalmente, si OMOP CDM se expande a más hospitales y centros de atención, tendremos una oportunidad única de crear en la Comunitat Valenciana una red federada de investigación sobre datos del mundo real basada en OMOP CDM. Compartiendo una misma base de información, se pueden realizar estudios clínicos multicéntricos, compartiendo incluso las consultas y la definición de parámetros para la construcción de las cohortes de investigación. Y esto se puede realizar no solo a nivel regional, si no que también puede permitir participar en investigaciones nacionales e internacionales con un mínimo esfuerzo para la gestión de los datos clínicos.
Autores: