Dados do Trabalho
Título
Extração automatizada do estadiamento em câncer de mama com mineração em prontuário eletrônico
Introdução
A relevância do estadiamento no câncer de mama transcende o diagnóstico, influenciando o tratamento e o prognóstico. No entanto, a falta de padronização nos prontuários eletrônicos prejudica sua recuperação eficiente. Nesse viés, técnicas de mineração de texto podem automatizar a extração e sumarização em bancos de dados clínicos, que possibilitam a aquisição e estruturação dos campos de estadiamento TNM, agilizando a análise e facilitando o acesso a insights para pesquisa e tomada de decisão.
Objetivo
Desenvolver um método de mineração de texto baseado em expressões regulares (ReGex) para padronizar a extração dos campos de estadiamento TNM, através de informações dos campos texto do prontuário eletrônico de pacientes com câncer de mama.
Métodos
Os prontuários eletrônicos das pacientes com câncer de mama são exportados do sistema Tasy/HCMED no período 2008-2022. Dados sensíveis como o nome do paciente, documentos e outros identificadores não são exportados para a análise. Pacientes são identificados a partir de uma nova numeração em conformidade com o banco de dados do ICESP (REDCap). O código é desenvolvido em Python utilizando as bibliotecas Pandas e ReGex. Os dados são pré-processados com a exclusão de campos texto vazios e campos duplicados que apresentavam dados concatenados de outras áreas do hospital. Para a busca dos termos de estadiamento foram desenvolvidas duas abordagens distintas: um modelo procurando pelos termos “inteiros” (TNM), e outro por termos “segmentados” (T, N e M). Foram filtrados todos aqueles termos que não apresentavam classificação para no mínimo 2 características. Os dados são traduzidos à classificação do REDCap e posteriormente comparados com os dados de estadiamento presentes no banco para validação.
Resultados
Os campos texto dos prontuários eletrônicos (dados não estruturados) estão dispostos em duas colunas que foram analisadas totalizando 138.005 linhas (cada linha sendo uma consulta). Após a etapa de exclusão de datasets com linhas vazias (sem informação) e remoção de linhas duplicadas, foram filtrados 14.098 pacientes com câncer de mama. Na primeira abordagem de mineração usando expressão regular para buscar os termos inteiros, recuperamos 65.67% (9.258 pacientes) dos estadiamentos dos pacientes. Já na segunda abordagem (etapa complementar à primeira), procuramos pelos termos segmentados, conseguindo recuperar mais 1.027 pacientes totalizando 72,95% de termos de estadiamento recuperados dos prontuários eletrônicos. Em seguida, o estadiamento foi traduzido seguindo o dicionário do REDCap (representação numérica). A validação foi feita a partir de uma verificação manual das tabelas de estadiamento unificadas (merge entre REDCap+TASY/HCMED) resultando em um dataframe com 8.409 pacientes.
Conclusões
A recuperação de dados clínicos de campos texto não estruturados utilizando ReGex foi considerada bem sucedida, corroborando ao potencial da mineração de dados na saúde e destacando a importância da aplicação para outros termos de interesse clínico e pesquisa.
CAAE: 99542818.0.0000.0065
Palavras-chave
Estadiamento, mineração de dados, câncer de mama.
Financiador do resumo
Não há
Área
Estudo Clínico - Tumores de Mama
Autores
ARTHUR SHUZO OWTAKE CARDOSO, LUCIANA RODRIGUES CARVALHO BARROS, ROGER CHAMMAS