OMOP CDM Can Facilitate Data-Driven Studies for Cancer Prediction: A Systematic Review

Ahmadi et al., 2022
Abstract

The current generation of sequencing technologies has led to significant advances in identifying novel disease-associated mutations and generated large amounts of data in a high-throughput manner. Such data in conjunction with clinical routine data are proven to be highly useful in deriving population-level and patient-level predictions, especially in the field of cancer precision medicine. However, data harmonization across multiple national and international clinical sites is an essential step for the assessment of events and outcomes associated with patients, which is currently not adequately addressed. The Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM) is an internationally established research data repository introduced by the Observational Health Data Science and Informatics (OHDSI) community to overcome this issue. To address the needs of cancer research, the genomic vocabulary extension was introduced in 2020 to support the standardization of subsequent data analysis. In this review, we evaluate the current potential of the OMOP CDM to be applicable in cancer prediction and how comprehensively the genomic vocabulary extension of the OMOP can serve current needs of AI-based predictions. For this, we systematically screened the literature for articles that use the OMOP CDM in predictive analyses in cancer and investigated the underlying predictive models/tools. Interestingly, we found 248 articles, of which most use the OMOP for harmonizing their data, but only 5 make use of predictive algorithms on OMOP-based data and fulfill our criteria. The studies present multicentric investigations, in which the OMOP played an essential role in discovering and optimizing machine learning (ML)-based models. Ultimately, the use of the OMOP CDM leads to standardized data-driven studies for multiple clinical sites and enables a more solid basis utilizing, e.g., ML models that can be reused and combined in early prediction, diagnosis, and improvement of personalized cancer care and biomarker discovery.

Español

El MDC de la OMOP puede facilitar estudios basados en datos para predecir el cáncer: Una revisión sistemática.

Resumen

La generación actual de tecnologías de secuenciación ha llevado a avances significativos en la identificación de nuevas mutaciones asociadas a enfermedades, y ha generado una gran cantidad de datos con un alto rendimiento. Se ha comprobado que estos datos, en conjunto con datos clínicos de rutina, son son altamente útiles para generar predicciones a nivel paciente y población, en especial en el campo de la medicina de presición para el cáncer. Sin embargo, armonizar datos a través de múltiples sitios clínicos nacionales e internacionales es un paso esencial para evaluar eventos y resultados asociados con pacientes, lo cual al día de hoy no se ha abordado adecuadamente. El Modelo de Datos Común (MDC) de la Colaboración de Resultados Médicos Observacionales (OMOP) es un repositorio de datos de investigación establecido internacionalmente, introducido por la comunidad de Ciencia de Datos e Informática en Salud Observacional (OHDSI) para superar este problema. Para atender las necesidades de la investigación en cáncer, se introdujo en 2020 la extensión de vocabulario de genómica para respaldar la estandarización de análisis de datos subsecuentes. En esta revisión se evalúa el potencial actual del MDC de la OMOP para aplicarse en la predicción del cáncer y cuán integral puede ser la utilidad de la extensión de vocabulario de genómica de la OMOP para atender las necesidades actuales de las predicciones basadas en inteligencia artificial (IA). Para esto, revisamos de manera sistemática la literatura en busca de artículos que utilicen el MDC de la OMOP en análisis predictivos de cáncer e investigamos los modelos y herramientas predictivos subyacentes. Se encontraron 248 artículos, de los cuales la mayoría usó la OMOP para armonizar sus datos, pero solo 5 usaron algoritmos predictivos con datos basados en la OMOP y cumplieron con nuestros criterios. Los estudios presentan investigaciones multicéntricas, en las cuales la OMOP jugó el papel fundamental de descubrir y optimizar modelos basados en aprendizaje automático (machine learning, ML. En conclusión, el uso del MDC de la OMOP lleva a estudios basados en datos estandarizados para múltiples centros clínicos y proporciona una base más sólida utilizando, por ejemplo, modelos de ML que puedan ser reutilizados y combinados en la predicción temprana, diagnóstico y mejoría de la atención personalizada en cáncer y el descubrimiento de biomarcadores.

OMOP CDM Can Facilitate Data-Driven Studies for Cancer Prediction: A Systematic Review