--- title: "Exemplo: dados binários" author: "Alcinei Mistico Azevedo (ICA-UFMG)" date: "`r Sys.Date()`" output: rmarkdown::html_vignette fig_caption: yes vignette: > %\VignetteIndexEntry{Exemplo: dados binários} %\VignetteEngine{knitr::rmarkdown} %\VignetteEncoding{UTF-8} --- ```{r, include = FALSE} knitr::opts_chunk$set( collapse = TRUE, comment = "#>" ) ``` # Ativando o pacote Após a instalação do pacote é preciso ativa-lo. Para isso, deve-se utilizar a função `library` ou `require` ```{r} library(MultivariateAnalysis) ``` # Abrindo o conjunto de dados Posteriormente, deve-se carregar no R o conjunto de dados a serem analizados. Isso pode ser feito de diferentes formas. Uma possibilidade é utilizando a função `read.table`. Neste exemplo vamos trabalhar com o banco de dados do pacote, o qual pode ser carregado com a função `data`. Este exemplo trata-se de dados binarios vindo do uso de marcadores moleculares em cinco individuos. ```{r} data("Dados.BIN") Dados.BIN ``` # Obtenção de medidas de dissimilaridade Muitas são as opções que este pacote oferece de medidas de dissimilaridade. Convidamos os usuários a ler o manual da funcao `Distancia` (`?Distancia`). Para se ter diferentes medidas de dissimilaridade basta colocar o respectivo numero no argumento `Metodo` dentro da função `Distancia`: ### Dados qualitativos (binários ou multicategóricos) 9 = Frequencia de coincidencia. 10 = Frequencia de discordancia. 11 = indice Inverso de 1+coincidencia = 1/(1+c) ### Dados qualitativos binarios 12 = Dissimilaridade de Jacard: 1-a/(a+b+c). 13 = Dissimilaridade de Sorensen Dice: 1-2a/(2a+b+c). 14 = Dissimilaridade de Sokal e Sneath: 1-2(a+d)/(2(a+d)+b+c) 15 = Dissimilaridade de Roger e Tanimoto: 1-(a+d)/(a+2(b+c)+d) 16 = Dissimilaridade de Russel e Rao: 1-a/(a+b+c+d). 17 = Dissimilaridade de Ochiai: 1-a/sqrt((a+b)(a+c)). 18 = Dissimilaridade de Ochiai II: 1-ab/sqrt((a+b)(a+c)(b+d)(c+d)). 19 = Dissimilaridade de Haman: 1-((a+d)-(b+c))/(a+b+c+d). 20 = Dissimilaridade de Yule: 1-(ad-bc)/(ad+bc). ```{r} #colocando nome nos individuos rownames(Dados.BIN)=paste0("Indiv_",1:nrow(Dados.BIN)) Dist=Distancia(Dados.BIN,Metodo = 12) Dist ``` Informações importantes podem ser obtidas dessa matriz com a função `SummaryDistancia`: ```{r} resumo=SummaryDistancia(Dist) resumo ``` A fim de resumir as informações da matriz de dissimilaridade a fim de melhorar a visualização da dissimilaridade, pode-se fazer um Dendrograma com o auxilio da função `Dendrograma`. Varios algoritimos podem ser utilizados para a construção deste Dendrograma. Para isso, deve-se indicar no argumento `Metodo`: 1 = Ligacao simples (Metodo do vizinho mais proximo). 2 = Ligacao completa (Metodo do vizinho distante). 3 = Ligacao media entre grupo (UPGMA). 4 = Metodo de Ward. 5 = Metodo de ward (d2). 6= Metodo da mediana (WPGMC). 7= Metodo do centroide (UPGMC). 8 = Metodo mcquitty (WPGMA). ```{r} Dendrograma(Dist,Metodo=3) ``` Adcionalmente, pode-se fazer o agrupamento Tocher com o auxilio da função `Tocher`: ```{r} Tocher(Dist) ``` Outra possibilidade é o estudo da dispersão da matriz de dissimilaridade pelas técnica de coordenadas principais: ```{r} CoordenadasPrincipais(Dist) ```