Please use this identifier to cite or link to this item:
https://repositorio.ufu.br/handle/123456789/48269| ORCID: | http://orcid.org/0009-0006-5733-6252 |
| Document type: | Dissertação |
| Access type: | Acesso Aberto |
| Title: | Geração de dados sintéticos longitudinais a partir de estruturas causais |
| Alternate title (s): | Longitudinal synthetic data generation from causal structures |
| Author: | Angeruzzi, Alessandro Silva |
| First Advisor: | Albertini, Marcelo Keese |
| First member of the Committee: | Travençolo, Bruno Augusto Nassif |
| Second member of the Committee: | Silva, Luís Alvaro de Lima |
| Summary: | A inferência causal busca identificar relações de causa e efeito, indo além da correlação ao estimar como os resultados mudariam sob diferentes condições. Essa capacidade de prever desfechos contrafactuais é fundamental em aplicações reais — como medicina, finanças e ciências sociais — onde decisões confiáveis dependem de uma compreensão causal dos fenômenos. A avaliação sistemática de modelos de inferência causal ainda é limitada pela escassez de conjuntos de dados de referência cujos mecanismos subjacentes sejam completamente conhecidos. Nesse cenário, esta dissertação apresenta o Causal Synthetic Data Generator (CSDG), uma ferramenta de código aberto capaz de gerar dados longitudinais sintéticos governados por estruturas causais, com dinâmicas autorregressivas explícitas. O CSDG permite controle detalhado sobre a intensidade dos efeitos das variáveis, das intervenções no tratamento e dos níveis de ruído, oferecendo uma plataforma flexível e independente de domínio para experimentação e avaliação de algoritmos de aprendizado causal. A formalização proposta baseia-se em equações estruturais causais autorregressivas, que integram relações de causa e efeito com dependências temporais, possibilitando a geração de cenários factuais e contrafactuais sob diferentes estruturas causais. Com o objetivo de validar a consistência dos dados gerados, este trabalho inclui uma etapa de análise quantitativa e testes em uma tarefa de previsão de resultados. As ava-liações realizadas demonstram que os dados sintéticos preservam propriedades esperadas de correlação e resposta às intervenções e os resultados obtidos evidenciam a coerência causal e o realismo estatístico dos dados gerados, confirmando a adequação do CSDG como ferramenta de benchmarking e validação de modelos causais. O código fonte do CSDG encontra-se disponível no repositório <https://github.com/angeruzzi/causal-synthetic-data-gen>. |
| Abstract: | Causal inference seeks to identify cause-and-effect relationships, going beyond corre-lation by estimating how outcomes would change under different conditions. This ability to predict counterfactual outcomes is fundamental in real-world applications — such as medicine, finance, and the social sciences — where reliable decisions depend on a causal understanding of phenomena. The systematic evaluation of causal inference models is still limited by the scarcity of benchmark datasets whose underlying mechanisms are fully known. In this context, this dissertation presents the Causal Synthetic Data Generator (CSDG), an open-source tool capable of generating synthetic longitudinal data governed by causal structures with explicit autoregressive dynamics. The CSDG enables detailed control over the strength of variable effects, treatment interventions, and noise levels, offering a flexible and domain-independent platform for the experimentation and evaluation of causal learning algorithms. The proposed forma-lization is based on autoregressive structural causal equations, integrating cause-effect relationships with temporal dependencies and allowing the generation of both factual and counterfactual scenarios under different causal structures. To validate the consistency of the generated data, this work includes a quantitative analysis stage and experiments on a prediction task. The evaluations show that the synthetic data preserve expected properties of correlation and response to interventions, and the results demonstrate both causal coherence and statistical realism, confirming the suitability of the CSDG as a benchmarking and validation tool for causal models. The CSDG source code is publicly available at <https://github.com/angeruzzi/causal-synthetic-data-gen> . |
| Keywords: | Benchmarks. Inferência Causal Dados Longitudinais Geração de Dados Sintéticos Séries Temporais |
| Area (s) of CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
| Subject: | Computação Inferência (Lógica) Algorítmos computacionais |
| Language: | por |
| Country: | Brasil |
| Publisher: | Universidade Federal de Uberlândia |
| Program: | Programa de Pós-graduação em Ciência da Computação |
| Quote: | ANGERUZZI, Alessandro Silva. Geração de dados sintéticos longitudinais a partir de estruturas causais. 2026. 105 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. DOI http://doi.org/10.14393/ufu.di.2026.41. |
| Document identifier: | http://doi.org/10.14393/ufu.di.2026.41 |
| URI: | https://repositorio.ufu.br/handle/123456789/48269 |
| Date of defense: | 19-Jan-2026 |
| Sustainable Development Goals SDGs: | ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação. |
| Appears in Collections: | DISSERTAÇÃO - Ciência da Computação |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| GeracaoDadosSinteticos.pdf | 24.01 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License