Modelos de Aprendizado de Máquina para Árvore de Decisão Interpretável: Otimização vs Heurística
Aprendizado de Máquina; Otimização; Árvore de Decisão
Cada dia mais a inteligência artificial é encontrada em diferentes atividades do cotidiano, gerando ferramentas e soluções cada vez mais robustas, melhorando resultados e potencializando habilidades humanas. Os modelos de aprendizado supervisionado mais complexos, chamados de “caixa preta”, tais como Redes Neurais, são poderosos, mas deixam a desejar em interpretabilidade para soluções que tratam de dados sensíveis em contextos como finanças, saúde, jurídico ou mesmo acadêmico. Neste sentido, modelos de “caixa branca”, como Árvores de Decisão se mostram soluções robustas e mais adequadas devido ao seu alto grau de
interpretabilidade. Além de modelos de aprendizado de máquina já consolidados, como Árvore de Classificação e Regressão - CART, estudos recentes também trouxeram novos modelos como Árvore de Classificação Ótima usando Classificação Inteira Mista - OCT-MIO, capaz de se ajustar ainda mais aos dados de treinamento e alcançar maior acurácia em alguns casos. Este trabalho traz a modelagem, implementação e comparação destes dois modelos, tanto em treinamento, quanto em teste usando validação cruzada (K-Fold), além de uma análise da interpretabilidade das árvores e da utilização do OCT-MIO como heurística. Os experimentos utilizam dados reais e sensíveis como para diagnóstico de nível de estresse, predição para aprovação de crédito e predição de sucesso acadêmico. Apesar do CART ser um bom modelo de classificação, foi possível observar que o modelo OCT-MIO é uma alternativa capaz de obter resultados próximos, iguais ou ainda melhores, especialmente para árvores de classificação de menor altura, ideais em cenários onde a interpretabilidade é necessária. Desta forma, o modelo OCT-MIO é capaz classificar dados mais corretamente que o CART em árvores de altura mínima o suficiente para classificar todas as classes de um problema, sem abrir mão da interpretabilidade.