Representing and utilizing clinical textual data for real world studies: An OHDSI approach
Keloth et al., 2023
Abstract
Clinical documentation in electronic health records contains crucial narratives and details about patients and their care. Natural language processing (NLP) can unlock the information conveyed in clinical notes and reports, and thus plays a critical role in real-world studies. The NLP Working Group at the Observational Health Data Sciences and Informatics (OHDSI) consortium was established to develop methods and tools to promote the use of textual data and NLP in real-world observational studies. In this paper, we describe a framework for representing and utilizing textual data in real-world evidence generation, including representations of information from clinical text in the Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM), the workflow and tools that were developed to extract, transform and load (ETL) data from clinical notes into tables in OMOP CDM, as well as current applications and specific use cases of the proposed OHDSI NLP solution at large consortia and individual institutions with English textual data. Challenges faced and lessons learned during the process are also discussed to provide valuable insights for researchers who are planning to implement NLP solutions in real-world studies.
Español
Representando y utilizando datos textuales clínicos para estudios de la vida real: El abordaje del OHDSI
Resumen:
La documentación clínica en las historias clínicas electrónicas contiene narrativas y detalles cruciales sobre pacientes y su cuidado. El procesamiento del lenguaje natural (PLN) puede revelar la información transmitida en notas y reportes clínicos, y por lo tanto juega un papel crítico en los estudios de la vida real. El Grupo de Trabajo en PLN del consorcio de Ciencia de Datos e Informática en Salud Observacional (OHDSI, por sus siglas en inglés) se fundó para desarrollar métodos y herramientas que promueven el uso de datos textuales y el PLN en estudios observacionales de la vida real. En esta publicación se describe un marco de trabajo para representar y utilizar datos textuales en la generación de evidencia de la vida real, incluyendo representaciones de información de texto clínico en el Modelo de Datos Común (MDC) de la Colaboración de Resultados Médicos Observacionales (OMOP); el flujo de trabajo y herramientas que se desarrollaron para extraer, transformar y cargar (ETL) datos de notas clínicas en tablas en el MDC de la OMOP, así como aplicaciones actuales y usos específicos de la solución con PLN que OHDSI propuso en grandes consorcios e instituciones individuales con datos textuales en inglés. También se discuten los desafíos enfrentados y lecciones aprendidas durante el proceso para otorgar perspectivas valuables a investigadores que busquen implementar soluciones con PLN en estudios de la vida real.