Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo

A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina t...

Full description

Bibliographic Details
Main Author: Lauris, Renato Pedroso
Other Authors: Horta, Eduardo de Oliveira, Reis, Rodrigo Citton Padilha dos
Format: Thesis
Language:Portuguese
Published: 2023
Subjects:
DML
Online Access:http://hdl.handle.net/10183/276732
Description
Summary:A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método ...