Web Mining

A grande teia de alcance global (www.), desprovida totalmente de um nó centralizador, que foi concebida para fins de defesa e ser uma estrutura mínima comunicativa em casos de guerras apocalípticas. A Internet revolucionou e vem revolucionando a nossa vida pessoal e profissional. O protocolo web aliado com o http possibilitou a criação de páginas dinâmicas e lincáveis de hipertexto, abrindo um campo magnífico de pesquisa e heterogeneidade de dados disponíveis. Estas grandes quantidades de dados armazenadas e geradas pelas interações web, trás também um grande desafio, de como extrair informação para a geração de conhecimento. Os dados disponíveis na web, advém de diferentes estruturas e relações entre si, o que dificulta a extração.

Os documentos web, são conectados um a outro por meio de hiperlinks. Os hiperlinks, que ligam um documento a outro, sob a forma de similaridade das temáticas, e relacionamentos, adicionam profundidade e proporcionam a multidimensionalidade de dados. Diante deste aspecto pode-se visualizar a web como um grafo direcionado, onde a página é um vértice e as arestas são as ligações (referências) entre as páginas. Os documentos na web possuem cada qual o seu respectivo endereço (URL), de natureza lógica que o referencia no servidor (host). Todas estas relações constituem o emaranhado a ser minerado na web, a fim levantar dados intrincados e transformá-los em informação útil.

Há técnicas de Mineração de Dados que podem ser utilizadas para a obtenção, extração e tratamento dos dados da web, e transformá-los em informação e conhecimento, isto é, dar sentido às informações extraídas da vasta rede. Tendo em vista o peculiar e complexo processo em que envolve, da infraestrutura tecnológica, relacionamentos, fontes de dados; esta área de estudo tem sido denominada de Web Mining. Refere-se à descoberta e à análise de dados, documentos, áudios, vídeos e imagens a partir da World Wide Web.

O Web Mining abarca três abordagens que personificam-se em métodos e ferramentas para a descoberta de fontes de informações importantes, são elas:

a) Web Mining de Conteúdo: aplica-se técnicas de Mineração de Dados para descobrir conhecimento em documentos advindos da web, extrai-se a parte textual dos documentos, excetuando as tags e links internos, o conteúdo textual por final é então analisado.

b) Web Mining de Estrutura: objetiva assertivamente explorar toda a estrutura de hyperlinks dos documentos e páginas da web; algoritmos específicos exploram a estrutura, intuindo ordenar os resultados encontrados na busca, levando em conta os níveis de relevância de cada página.

É importante frisar que atualmente os principais motores de busca na web (Google, Baidu, etc), fazem usabilidade destas informações de classificação relevante da página para resultados de pesquisas dos usuários.

c) Web Mining de Uso: refere-se à descoberta e análise de padrões de acesso; consistindo em pré-processamento – mineração dos dados – pós-processamento; capturando, modelando e analisando o comportamento das interações, verificando a representatividade de cada página e/ou recursos mais frequentemente acessados por parte dos usuários.

(Fonte: Data Mining – Conceitos, Técnicas, Algoritmos, Orientações e Aplicações – R. Goldschmidt; E. Passos; E. Bezerra)