Use este identificador para citar ou linkar para este item: https://repositorio.ufu.br/handle/123456789/12603
Tipo do documento: Dissertação
Tipo de acesso: Acesso Aberto
Título: CobMiner: mineração de Padrões Arborescentes com restrições
Autor(es): Silva, Nyara de Araújo
Primeiro orientador: Amo, Sandra Aparecida de
Primeiro membro da banca: Meira Junior, Wagner
Segundo membro da banca: Silva, Ilmério Reis da
Resumo: Há muito trabalho em mineração de padrões com foco em estruturas de dados simples como itemsets ou seqüência de itemsets. Entretanto, recentes aplicações utilizam dados mais complexos como componentes químicos, estruturas proteicas, rede social, XML e logs da Web, exigindo estruturas de dados mais sofisticadas (árvores ou grafos) para serem especificadas. Aqui, padrões de interesse não envolvem apenas valores de objetos frequentes labels que aparecem em árvores (ou grafos), mas também topologias específicas frequentes encontradas nessas estruturas. A mineração de padrões de árvores frequentes tem sido bastante estudada, com a motivação do crescente interesse e aplicabilidade em diferentes áreas (Web Mining, Bioinformática, etc.). Porém, os sistemas convencionais de mineração de árvores permitiam ao usuário apenas definir o suporte mínimo como mecanismo de filtro dos padrões a serem minerados. Após o processo de mineração, um árduo trabalho é necessário para filtrar os padrões de interesse dos usuários. Nessa dissertação, propomos o algoritmo CobMiner, Constrained-based Miner, um algoritmo de mineração de padrões arborescentes, incorporando ao processo de mineração os Autômatos de Árvores, como mecanismo para restringir o escopo da mineração e produzir padrões frequentes mais próximos do real interesse dos usuários. Comparamos dois métodos de inclusão das restrições do usuário dentro do processo de descoberta: o primeiro é o CobMiner que incorpora o autômato de árvore dentro do mecanismo de mineração, o segundo é o TreeMinerPP que consiste do conhecido algoritmo de mineração de árvores, TreeMiner, seguido de uma fase de pós-processamento, onde os padrões são filtrados pelo autômato de árvore. Um grande conjunto de testes foi executado em dados sintéticos e reais (documentos XML), o que nos permite concluir que utilizar as restrições durante a mineração é muito mais eficiente do que filtrar os padrões frequentes após o processo de mineração.
Abstract: Most work on pattern mining focus on simple data structures like itemsets or sequences of itemsets. However, a lot of recent applications dealing with complex data like chemical compounds, protein structure, social network, XML and Web Log databases, require much more sophisticated data structures (trees or graphs) for their specification. Here, interesting patterns involve not only frequent object values (labels) appearing in the trees (or graphs) but also frequent specific topologies found in these structures. Mining frequent tree patterns have been extensively studied, motivated by the increasing interest and applicability in different areas (Web Mining, Bioinformatics, etc). However, conventional tree mining systems normally consider only minimum support criterium as a mechanism for filtering patterns to be mined. After mining process, hard work is requiring to filter patterns concerned with user interests. In this dissertation, we propose CobMiner, Constrained-based Miner, a tree pattern mining algorithm which incorporates tree automata into the mining process in order to restrict the mining scope and to generate frequent patterns more closely related to user interests. We compare two methods for introducing user constraints into the discovery process: the first one is CobMiner which incorporates tree automata constraints as an intra-mining mechanism, the second one is TreeMinerPP which consists of a well-known tree pattern mining algorithm, TreeMiner, followed by a post-processing phase, where patterns are filtered using a tree automatum. An extensive set of experiments executed over synthetic and real data (XML documents) allow us to conclude that incorporating constraints during the mining process is far better effective than filtering the frequent and interesting patterns after the mining process.
Palavras-chave: Descoberta de Padrões Freqüentes
Mineração de Padrões Arborescentes
Autômato de Árvore
Mineração de Dados com Restrições
Mineração de Documentos XML
Mineração na Web
Frequent Pattern Descovery
Tree Pattern Mining
Tree Automata
Constraint-based Data Mining
XML Mining
Web Mining
Mineração de dados (Computação)
Área(s) do CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: BR
Editora: Universidade Federal de Uberlândia
Sigla da instituição: UFU
Departamento: Ciências Exatas e da Terra
Programa: Programa de Pós-graduação em Ciência da Computação
Referência: SILVA, Nyara de Araújo. CobMiner: mineração de Padrões Arborescentes com restrições. 2007. 88 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de Uberlândia, Uberlândia, 2007.
URI: https://repositorio.ufu.br/handle/123456789/12603
Data de defesa: 22-Out-2007
Aparece nas coleções:DISSERTAÇÃO - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
CobMinerMineracaoPadroes.pdf882.88 kBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.