Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufu.br/handle/123456789/48269
ORCID:  http://orcid.org/0009-0006-5733-6252
Tipo de documento: Dissertação
Tipo de acceso: Acesso Aberto
Título: Geração de dados sintéticos longitudinais a partir de estruturas causais
Título (s) alternativo (s): Longitudinal synthetic data generation from causal structures
Autor: Angeruzzi, Alessandro Silva
Primer orientador: Albertini, Marcelo Keese
Primer miembro de la banca: Travençolo, Bruno Augusto Nassif
Segundo miembro de la banca: Silva, Luís Alvaro de Lima
Resumen: A inferência causal busca identificar relações de causa e efeito, indo além da correlação ao estimar como os resultados mudariam sob diferentes condições. Essa capacidade de prever desfechos contrafactuais é fundamental em aplicações reais — como medicina, finanças e ciências sociais — onde decisões confiáveis dependem de uma compreensão causal dos fenômenos. A avaliação sistemática de modelos de inferência causal ainda é limitada pela escassez de conjuntos de dados de referência cujos mecanismos subjacentes sejam completamente conhecidos. Nesse cenário, esta dissertação apresenta o Causal Synthetic Data Generator (CSDG), uma ferramenta de código aberto capaz de gerar dados longitudinais sintéticos governados por estruturas causais, com dinâmicas autorregressivas explícitas. O CSDG permite controle detalhado sobre a intensidade dos efeitos das variáveis, das intervenções no tratamento e dos níveis de ruído, oferecendo uma plataforma flexível e independente de domínio para experimentação e avaliação de algoritmos de aprendizado causal. A formalização proposta baseia-se em equações estruturais causais autorregressivas, que integram relações de causa e efeito com dependências temporais, possibilitando a geração de cenários factuais e contrafactuais sob diferentes estruturas causais. Com o objetivo de validar a consistência dos dados gerados, este trabalho inclui uma etapa de análise quantitativa e testes em uma tarefa de previsão de resultados. As ava-liações realizadas demonstram que os dados sintéticos preservam propriedades esperadas de correlação e resposta às intervenções e os resultados obtidos evidenciam a coerência causal e o realismo estatístico dos dados gerados, confirmando a adequação do CSDG como ferramenta de benchmarking e validação de modelos causais. O código fonte do CSDG encontra-se disponível no repositório <https://github.com/angeruzzi/causal-synthetic-data-gen>.
Abstract: Causal inference seeks to identify cause-and-effect relationships, going beyond corre-lation by estimating how outcomes would change under different conditions. This ability to predict counterfactual outcomes is fundamental in real-world applications — such as medicine, finance, and the social sciences — where reliable decisions depend on a causal understanding of phenomena. The systematic evaluation of causal inference models is still limited by the scarcity of benchmark datasets whose underlying mechanisms are fully known. In this context, this dissertation presents the Causal Synthetic Data Generator (CSDG), an open-source tool capable of generating synthetic longitudinal data governed by causal structures with explicit autoregressive dynamics. The CSDG enables detailed control over the strength of variable effects, treatment interventions, and noise levels, offering a flexible and domain-independent platform for the experimentation and evaluation of causal learning algorithms. The proposed forma-lization is based on autoregressive structural causal equations, integrating cause-effect relationships with temporal dependencies and allowing the generation of both factual and counterfactual scenarios under different causal structures. To validate the consistency of the generated data, this work includes a quantitative analysis stage and experiments on a prediction task. The evaluations show that the synthetic data preserve expected properties of correlation and response to interventions, and the results demonstrate both causal coherence and statistical realism, confirming the suitability of the CSDG as a benchmarking and validation tool for causal models. The CSDG source code is publicly available at <https://github.com/angeruzzi/causal-synthetic-data-gen> .
Palabras clave: Benchmarks.
Inferência Causal
Dados Longitudinais
Geração de Dados Sintéticos
Séries Temporais
Área (s) del CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Tema: Computação
Inferência (Lógica)
Algorítmos computacionais
Idioma: por
País: Brasil
Editora: Universidade Federal de Uberlândia
Programa: Programa de Pós-graduação em Ciência da Computação
Cita: ANGERUZZI, Alessandro Silva. Geração de dados sintéticos longitudinais a partir de estruturas causais. 2026. 105 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. DOI http://doi.org/10.14393/ufu.di.2026.41.
Identificador del documento: http://doi.org/10.14393/ufu.di.2026.41
URI: https://repositorio.ufu.br/handle/123456789/48269
Fecha de defensa: 19-ene-2026
Objetivos de Desarrollo Sostenible (ODS): ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.
Aparece en las colecciones:DISSERTAÇÃO - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
GeracaoDadosSinteticos.pdf24.01 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons