Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo

A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina t...

Full description

Bibliographic Details
Main Author: Lauris, Renato Pedroso
Other Authors: Horta, Eduardo de Oliveira, Reis, Rodrigo Citton Padilha dos
Format: Thesis
Language:Portuguese
Published: 2023
Subjects:
DML
Online Access:http://hdl.handle.net/10183/276732
id ftunivfrgs:oai:www.lume.ufrgs.br:10183/276732
record_format openpolar
spelling ftunivfrgs:oai:www.lume.ufrgs.br:10183/276732 2024-09-15T18:03:47+00:00 Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo Lauris, Renato Pedroso Horta, Eduardo de Oliveira Reis, Rodrigo Citton Padilha dos 2023 application/pdf http://hdl.handle.net/10183/276732 por por http://hdl.handle.net/10183/276732 001198754 Open Access Aprendizado de máquina Simulação de Monte Carlo Estimador Higher dimensionalities Machine learning Conditional average treatment effect Causal forest Debiased Machine Learning (DML) Monte Carlo simulation Comparison of estimators performance Dissertação 2023 ftunivfrgs 2024-08-07T14:03:25Z A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método ... Thesis DML Universidade Federal do Rio Grande do Sul (UFRGS): Lume
institution Open Polar
collection Universidade Federal do Rio Grande do Sul (UFRGS): Lume
op_collection_id ftunivfrgs
language Portuguese
topic Aprendizado de máquina
Simulação de Monte Carlo
Estimador
Higher dimensionalities
Machine learning
Conditional average treatment effect
Causal forest
Debiased Machine Learning (DML)
Monte Carlo simulation
Comparison of estimators performance
spellingShingle Aprendizado de máquina
Simulação de Monte Carlo
Estimador
Higher dimensionalities
Machine learning
Conditional average treatment effect
Causal forest
Debiased Machine Learning (DML)
Monte Carlo simulation
Comparison of estimators performance
Lauris, Renato Pedroso
Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
topic_facet Aprendizado de máquina
Simulação de Monte Carlo
Estimador
Higher dimensionalities
Machine learning
Conditional average treatment effect
Causal forest
Debiased Machine Learning (DML)
Monte Carlo simulation
Comparison of estimators performance
description A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método ...
author2 Horta, Eduardo de Oliveira
Reis, Rodrigo Citton Padilha dos
format Thesis
author Lauris, Renato Pedroso
author_facet Lauris, Renato Pedroso
author_sort Lauris, Renato Pedroso
title Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_short Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_full Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_fullStr Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_full_unstemmed Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
title_sort estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
publishDate 2023
url http://hdl.handle.net/10183/276732
genre DML
genre_facet DML
op_relation http://hdl.handle.net/10183/276732
001198754
op_rights Open Access
_version_ 1810441259956830208