Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo
A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina t...
Main Author: | |
---|---|
Other Authors: | , |
Format: | Thesis |
Language: | Portuguese |
Published: |
2023
|
Subjects: | |
Online Access: | http://hdl.handle.net/10183/276732 |
id |
ftunivfrgs:oai:www.lume.ufrgs.br:10183/276732 |
---|---|
record_format |
openpolar |
spelling |
ftunivfrgs:oai:www.lume.ufrgs.br:10183/276732 2024-09-15T18:03:47+00:00 Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo Lauris, Renato Pedroso Horta, Eduardo de Oliveira Reis, Rodrigo Citton Padilha dos 2023 application/pdf http://hdl.handle.net/10183/276732 por por http://hdl.handle.net/10183/276732 001198754 Open Access Aprendizado de máquina Simulação de Monte Carlo Estimador Higher dimensionalities Machine learning Conditional average treatment effect Causal forest Debiased Machine Learning (DML) Monte Carlo simulation Comparison of estimators performance Dissertação 2023 ftunivfrgs 2024-08-07T14:03:25Z A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método ... Thesis DML Universidade Federal do Rio Grande do Sul (UFRGS): Lume |
institution |
Open Polar |
collection |
Universidade Federal do Rio Grande do Sul (UFRGS): Lume |
op_collection_id |
ftunivfrgs |
language |
Portuguese |
topic |
Aprendizado de máquina Simulação de Monte Carlo Estimador Higher dimensionalities Machine learning Conditional average treatment effect Causal forest Debiased Machine Learning (DML) Monte Carlo simulation Comparison of estimators performance |
spellingShingle |
Aprendizado de máquina Simulação de Monte Carlo Estimador Higher dimensionalities Machine learning Conditional average treatment effect Causal forest Debiased Machine Learning (DML) Monte Carlo simulation Comparison of estimators performance Lauris, Renato Pedroso Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo |
topic_facet |
Aprendizado de máquina Simulação de Monte Carlo Estimador Higher dimensionalities Machine learning Conditional average treatment effect Causal forest Debiased Machine Learning (DML) Monte Carlo simulation Comparison of estimators performance |
description |
A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método ... |
author2 |
Horta, Eduardo de Oliveira Reis, Rodrigo Citton Padilha dos |
format |
Thesis |
author |
Lauris, Renato Pedroso |
author_facet |
Lauris, Renato Pedroso |
author_sort |
Lauris, Renato Pedroso |
title |
Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo |
title_short |
Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo |
title_full |
Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo |
title_fullStr |
Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo |
title_full_unstemmed |
Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo |
title_sort |
estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo |
publishDate |
2023 |
url |
http://hdl.handle.net/10183/276732 |
genre |
DML |
genre_facet |
DML |
op_relation |
http://hdl.handle.net/10183/276732 001198754 |
op_rights |
Open Access |
_version_ |
1810441259956830208 |