Coluna - STATA - Sandra Brignol

segunda-feira, 14 de outubro de 20130 comentários


Olá a todos e todas, bem vindos ao nosso terceiro encontro para aprender um pouco do STATA (programa Data Analysis and Statistical Software - http://www.stata.com/). Vocês podem nos enviar suas dúvidas diretamente no perfil do FaceBook (Bioestatística Bureaux).

Como combinado hoje vamos ver como avaliar graficamente a distribuição de uma dada variável resposta, ou variável dependente ou ainda como chamamos na epidemiologia, nossa variável desfecho (a principal variável de interesse num estudo epidemiológico). Neste estudo a variável desfecho é a taxa de mortalidade até um ano de vida (em 1991, 2000 e 2010), por Estado do Brasil. Esses dados estão disponíveis no Atlas IDHM  do PNUD de 2013 (http://www.pnud.org.br/).

Lembro apenas que hoje estaremos trabalhando uma variável numérica, oriundos do cálculo de um coeficiente (mortalidade até um ano de vida). É importante estudar sua distribuição, pois isso irá direcionar futuras análises.

SIGLA
DEFINIÇÃO
UF
Código utilizado pelo IBGE para identificação do estado.
UFN
Nome da Unidade da Federação.
ESPVIDA
Número médio de anos que as pessoas deverão viver a partir do nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecentes no ano do Censo.
FECTOT
Número médio de filhos que uma mulher deverá ter ao terminar o período reprodutivo (15 a 49 anos de idade).
MORT1
Número de crianças que não deverão sobreviver ao primeiro ano de vida em cada 1000 crianças nascidas vivas.
RAZDEP
Razão de dependência é medida pela razão entre o número de pessoas com 14 anos ou menos e de 65 anos ou mais de idade (população dependente) e o número de pessoas com idade de 15 a 64 anos (população potencialmente ativa) multiplicado por 100.
Outras variáveis
No banco de dados existem outras variáveis que descreveremos oportunamente

Vamos iniciar nosso trabalho abrindo nosso banco de dados: Link para o banco de dados PNUD2013.dta
1.      Abra o STATA
2.      No “menu” File/open – localize e abra o arquivo de dados PNUD2013.dta .
Para verificar o “tipo” das variáveis de um banco de dados no STATA, usamos o comando “describe”, veja o resultado produzido por esse comando:
3.      Clique na janela “command” e digite o comando abaixo e tecle < enter>:
describe
 
Lembre que os tipos de variáveis numéricas são: inteiras, contínuas, byte e string. Use o help do STATA para maiores detalhes clique na janela “command” e digite o comando abaixo e tecle < enter>:
help data_types

Estudando a distribuição dos dados – gráficos
Na aula anterior aprendemos os comandos que nos mostram as medidas de tendência central, dispersão, quartil, decil e percentil para as variáveis numéricas. Foram os comandos sum e sum com a opção detail – vamos ver estas estatísticas para a nossa variável:
sum  mort1
Variable
Obs
Mean
Std. Dev.
Min
Max
mort1
81
            32,96
     17,31
     11,54
     81,97

sum  mort1, detail
Percentiles
Smallest
1%        11.54
11.54
5%        13.96
12.38
10%        15.08
13.08
Obs
      81,00
25%         19.7
13.86
Sum of Wgt.
      81,00
50%        28.03
Mean
      32,96
Largest
Std. Dev.
      17,31
75%        42.41
70.87
90%        63.13
74.47
Variance
     299,71
95%        67.93
74.5
Skewness
        1,00
99%        81.97
81.97
Kurtosis
        3,19

Porém uma estratégia muito interessante é visualizar essas medidas de forma gráfica, e para isso podemos usar o Histograma, com o desenho da curva Normal sobreposta ao histograma, e o Box-plot (). Para maiores detalhes sobre estes gráficos consultar os livros: TRIOLA, 2011 e SALSBURG, 2010 (disponíveis no Google books).
Vamos lá!
1.      Clique no quadro inferior da janela (command) e digite o comando abaixo e tecle < enter>:
hist mort1, freq normal
veja também: help hist
Resultado do comando:


2.      Outro gráfico muito legal é o Box-plot. Clique no quadro inferior da janela (Command), digite o comando abaixo e tecle < enter>:
graph box  mort1
veja também: help graph box 
3.      Resultado do comando:






Também podemos aplicar estes comandos (hist e graph Box por grupo de interesse). Veja o exemplo da taxa de mortalidade por ano:



hist mort1,  by (ano) normal




graph box mort1,  by (ano) 


O que você aprendeu:
Comando hist, graph Box e algumas opções.



Referências:
TRIOLA, Mario. Introdução a Estatística. LTC, 2006
SALSBURG, David. Uma Senhora Toma Chá ... - Como a Estatística Revolucionou a Ciência no Século XX. Editora: Zahar, 2010.

No nosso próximo encontro vamos aprender como verificar se uma variável numérica tem ou não distribuição Normal.
Até lá!
Sandra Brignol
Possui graduação em Bacharelado em Estatística pela Universidade Federal da Bahia (2001), mestrado em Saúde Coletiva pela Universidade Federal da Bahia (2008) e Doutorado em Saúde Pública (2013). Tem experiência em pesquisas na área de Saúde Coletiva, com ênfase em Epidemiologia do HIV, comportamento sexual, uso de álcool e outros psicoativos. Atua como professora de bioestatística, pesquisadora e consultora nas seguintes temáticas: bioética, vulnerabilidade, práticas sexuais desprotegidas, HIV/DST, uso de drogas lícitas e ilícitas. Integra o quadro de consultores da Bioestatística Bureaux. Link para currículo: http://lattes.cnpq.br/8112001417556395


Compartilhe :
 
Support : Creating Website | Johny Template | Mas Template
Copyright © 2011. Estatisti.co - All Rights Reserved
Template Created by Creating Website Published by Mas Template
Proudly powered by Blogger