Cientistas de dados desenvolvem algoritmos para detectar câncer de pulmão.

Cientistas competiram no Data Science Bowl para desenvolver algoritmos que possam detectar precocemente e com maior precisão lesões cancerígenas em tomografias computadorizadas.

Cientistas de dados estão usando aprendizado de máquina para combater o câncer no pulmão. No início de janeiro, cerca de 10 mil cientistas ao redor do mundo competiram no Data Science Bowl para desenvolver um algoritmo que pudesse ajudar médicos a detectarem câncer de pulmão em estágio inicial e com melhor taxa de precisão.

Em 2010, o National Lung Screening Trial mostrou que a triagem anual com tomografia computadorizada de baixa dose (TC) - um escâner que usa combinações processadas por computador de muitas imagens de raio-X de diferentes ângulos para gerar imagens 3D em alto contraste - poderia reduzir as mortes por câncer de pulmão em 20%.

Embora um avanço para a detecção precoce, a tecnologia também resultou em uma taxa relativamente elevada de falsos positivos em comparação com raios-X tradicionais.

“É realmente uma abordagem poderosa que ajudou a reduzir mortes por câncer em 20%, mas há uma alta taxa de falsos positivos”, disse Anthony Goldbloom, CEO da companhia de machine learning Kaggle, que ao lado da Booz Allen Hamilton, apresenta o Data Science Bowl.

“A uma grande quantidade de pessoas foi dita que elas tinham câncer apenas para descobrir mais tarde que elas não tinham. Há um custo humano aí e isso é incrivelmente estressante”, destacou.

Então para esse ano do Data Science Bowl, Booz Allen e Kaggle decidiram dirigir o poder da ciência de dados e do aprendizado de máquina para atacar o problema de falsos positivos. Os organizadores asseguraram uma bolsa de US$ 1 milhão, fundada pela Fundação Laura e John Arnold, para ser dividida entre os 10 participantes vencedores.

Ciência de dados para o bem social

O Data Science Bowl foi criado em 2015 em um esforço para levar cientistas de dados a projetos sociais, disse Josh Sullivan, vice-presidente sênior e chief data scientist para a Booz Allen.

“Nós queremos criar algo que traga pessoas para fazer algo para o bem social, algo maior que elas mesmas”, disse. “O que nós podemos fazer de bem social que é algo realmente substancial? Nós queremos que seja algo que resulte em descobertas científicas. Algo aberto ao público, não para o nosso benefício ou de nossos clientes, mas open source e crowdsourced para pessoas ao redor do mundo.”

Sullivan disse que mais de 300 ideias foram submetidas para a terceira edição do Data Science Bowl (nas edições anteriores, o evento focou em algoritmos para determinar a saúde dos oceanos e detectar doenças do coração). Agora, os parceiros decidiram ajudar o Instituto Nacional do Câncer (NCI, na sigla em inglês) com o seu projeto "Beau Biden Cancer Moonshot", um esforço para acelerar a pesquisa de câncer para disponibilizar terapias para mais pacientes e para melhorar a prevenção e detecção precoce.

Para a competição, a NCI ofereceu duas mil chapas de alta resolução de pacientes anônimos, cada imagem contendo gigabytes de dados. Segundo Sullivan, do total, 1.500 das imagens eram imagens de treinamento, acompanhadas do diagnóstico final. As outras 500 imagens eram o "conjunto problema". Usando a série de treinamento, os algoritmos de aprendizado de máquina dos competidores precisaram aprender a como determinar corretamente se as lesões nos pulmões eram cancerosas nas 500 imagens restantes. Os algoritmos foram pontuados com base na porcentagem de diagnósticos corretos.

Os dados foram empacotados na plataforma Kaggle. A Kaggle, adquirida pelo Google em março, foi fundada pela Goldbloom em 2010, especificamente para hospedar competições de modelagem preditiva e analítica. Empresas e pesquisadores publicam seus dados, permitindo que os cientistas compitam para produzir os melhores modelos. A empresa tem centenas de milhares de ‘Kagglers’ registrados que abrangem cerca de 200 países.

Para esta competição, os Kagglers eram especialistas em redes neuronais convolucionais (CNN), um tipo de rede neural de aprendizagem profunda inspirada nos mecanismos visuais dos organismos vivos. Embora útil para muitos tipos diferentes de problemas, as CNNs se destacam em problemas de visão computacional. Em uma competição anterior, Kagglers competiram para criar algoritmos baseados em CNN que poderiam diferenciar imagens de cães e gatos em redes sociais.

"Esses dados eram bastante novos", disse Goldbloom sobre as imagens de TC fornecidas pela NCI. "Isso realmente levou as redes neurais convolucionais em uma direção que eles não tinham ido antes. Fóruns de dados médicos são sempre um desafio por causa do tamanho dos conjuntos de dados.Quantas imagens de gato e cão estão lá na internet? Provavelmente milhões. As imagens são extremamente caras de colecionar. Menos pessoas têm tomografias do que imagens de seus cães e gatos."

E as CNNs, explicam Goldbloom, são muito propensas a um efeito chamado "overfitting", no qual o modelo estatístico tende a descrever o ruído em vez da relação subjacente, porque há muitos parâmetros relativos ao número de observações.

"Construir uma rede neuronal convolucional que não se sobreponha é difícil, e fica mais difícil quanto menor o conjunto de dados", diz Goldbloom. "Isso é realmente onde a habilidade aparece quando generaliza bem um número relativamente pequeno de imagens."

Quase 10 mil Kagglers participaram do Data Science Bowl. Coletivamente, eles passaram mais de 150 mil horas e apresentaram quase 18 mil algoritmos. Um número de radiologistas ofereceu seus conhecimentos nos fóruns Kaggle para ajudar os competidores a refinarem seus esforços.

Vencedores do Data Science Bowl

No final, os vencedores do primeiro lugar foram Liao Fangzhou e Zhe Li, dois pesquisadores da Universidade Tsinghua da China. Julian de Wit e Daniel Hammack, engenheiros de software e engenharia de máquinas na Holanda, ocuparam o segundo lugar. O Team Aidence, composto por membros que trabalham para uma empresa holandesa que aplica o aprendizado profundo à interpretação de imagens médicas, ficou em terceiro lugar.

"Os institutos nacionais de saúde vão acabar trabalhando com a Administração de Alimentos e Medicamentos dos Estados Unidos (FDA) e, espero, que canalizem essas análises para que eles possam entrar no software que está realmente lendo essas tomografias", disse Sullivan. "Esse é o grande benefício que estamos tentando dirigir."

Posts Em Destaque
Posts Recentes