Robusto e de dados - Shenzhen Coastwise Solutions Inc.

Nature Biomedical Engineering (2023) Citar este artigo

142 acessos

43 Altmétrica

Detalhes das métricas

Os modelos de aprendizado de máquina para tarefas médicas podem igualar ou superar o desempenho de especialistas clínicos. No entanto, em configurações diferentes daquelas do conjunto de dados de treinamento, o desempenho de um modelo pode se deteriorar substancialmente. Aqui, relatamos uma estratégia de aprendizado de representação para modelos de aprendizado de máquina aplicados a tarefas de imagens médicas que mitiga o problema de desempenho "fora da distribuição" e melhora a robustez do modelo e a eficiência do treinamento. A estratégia, que chamamos de REMEDIS (para 'Imagiologia médica robusta e eficiente com auto-supervisão'), combina aprendizagem de transferência supervisionada em grande escala em imagens naturais e aprendizagem auto-supervisionada contrastiva intermediária em imagens médicas e requer personalização mínima específica de tarefa. Mostramos a utilidade do REMEDIS em uma variedade de tarefas de diagnóstico por imagem, abrangendo seis domínios de imagem e 15 conjuntos de dados de teste, e simulando três cenários fora de distribuição realistas. O REMEDIS melhorou as precisões de diagnóstico na distribuição em até 11,5% em relação a modelos de linha de base supervisionados fortes e em configurações fora da distribuição exigia apenas 1–33% dos dados para retreinamento para corresponder ao desempenho de modelos supervisionados retreinados usando todos os dados disponíveis . O REMEDIS pode acelerar o ciclo de vida de desenvolvimento de modelos de aprendizado de máquina para imagens médicas.

Esta é uma prévia do conteúdo da assinatura, acesse pela sua instituição

Acesse a Nature e outras 54 revistas do Portfólio Nature

Obtenha o Nature+, nossa assinatura de acesso on-line de melhor valor

US$ 29,99 / 30 dias

cancele a qualquer momento

Assine esta revista

Receba 12 edições digitais e acesso online aos artigos

$ 79,00 por ano

apenas US$ 6,58 por edição

Alugue ou compre este artigo

Obtenha apenas este artigo pelo tempo que precisar

$ 39,95

Os preços podem estar sujeitos a impostos locais que são calculados durante o checkout

Os conjuntos de dados dos Hospitais Northwestern Medicine e Apollo foram usados sob licença para o estudo atual e não estão disponíveis publicamente. Os pedidos de acesso à base de dados Optimam podem ser feitos através deste formulário web. Os dados de teledermatologia não identificados usados neste estudo não estão disponíveis publicamente devido a restrições no acordo de compartilhamento de dados. O conjunto de dados não rotulados usado para a classificação DME são dados não identificados da EyePACS Inc. Os pesquisadores interessados devem entrar em contato com [email protected] para obter informações sobre o acesso a EyePACSdata e abordar o Escritório de Pesquisa e Desenvolvimento para obter informações sobre o acesso aos dados VA. O restante dos dados anotados para tarefas de classificação de ID e OOD DME foram coletados no Rajavithi Hospital Thailand e no Lions Eye Institute e não estão disponíveis publicamente devido a restrições no contrato de compartilhamento de dados. Os dados usados na avaliação e pré-treinamento da classificação de condição de radiografia de tórax, incluindo MIMIC-CXR, CheXpert e ChestX-ray 14 estão disponíveis publicamente. Os dados usados para o ajuste fino de ID e avaliação da detecção de metástases estão disponíveis publicamente no site do CAMELYON challenge. Os dados do TCGA usados para o pré-treinamento para as tarefas de detecção de metástases baseadas em patologia e previsão de sobrevida estão disponíveis no site do NIH. O resto dos dados usados em tarefas de patologia não estão disponíveis publicamente devido a restrições no acordo de compartilhamento de dados. Além disso, o ImageNet-1K (ILSVRC-2012)68 usado para o pré-treinamento de modelos supervisionados de linha de base e o ImageNet-21K usado para o pré-treinamento de modelos BiT-M estão disponíveis publicamente no site da ImageNet. Os modelos BiT-L treinados no conjunto de dados JFT-300M54 não estão disponíveis publicamente devido a restrições no acordo de compartilhamento de dados.

Vários componentes principais do trabalho estão disponíveis em repositórios de código aberto, como a biblioteca T. A base de código e os pesos pré-treinados usados para o pré-treinamento auto-supervisionado estão disponíveis em S. A base de código e os pesos pré-treinados para os modelos BiT estão disponíveis em B. Todos os experimentos e detalhes de implementação são descritos com detalhes suficientes em Métodos e em Informações Suplementares para dar suporte replicação com bibliotecas não proprietárias. A base de código usada para nossa comparação com ResNet-RS foi baseada em R. Vários pontos de verificação e modelos gerados por meio do REMEDIS são facilmente acessíveis aos pesquisadores por meio do P. Além disso, os repositórios Foundation Medical ML no GitHub oferecem acesso a códigos que podem ser usado para treinar modelos baseados em REMEDIS.