Leitura da PNAD 2013 com o R

Leitura da PNAD 2013 com o R

Com o erro recente na divulgação dos resultados da PNAD 2013, o nome do IBGE e também os resultados dessa pesquisa, chegaram na grande mídia de um forma muito negativa. Ainda assim, a maioria das pessoas desconhece o que é a PNAD, como esses dados são obtidos e como eles podem ser baixados e utilizados. Neste post vou fornecer uma breve explicação do que é PNAD, como esses dados são distribuídos (na forma de microdados)…

Read More

Data Preparation – Part II

Data Preparation – Part II

This time i will talk about how to deal with large text files in chuncks with R. Just to provide some real data to work with download Airlines data, relative to 1988; from now on i will work with this file. To work with this data i will use  iterators package. This package allow you pass the file, line by line, or chunck by chunk, without really load all file to memory. As you can feel the idea…

Read More

Genetic data, large matrices and glmnet()

Genetic data, large matrices and glmnet()

Recently talking to a colleague, had contact with a problem that I had never worked with before: modeling with genetic data. I have no special knowledge of the subject, but taking a look at some articles in the area knew that one of the most used techniques for this type of data was the lasso.   In R, one of the most used packages for the lasso is glmnet, which unlike most other packages like…

Read More

Data Preparation – Part I

Data Preparation – Part I

The R language provides tools for modeling and visualization, but is still an excellent tool for handling/preparing data. As C++ or python, there is some tricks that bring performance, make the code clean or both, but especially with R these choices can have a huge impact on performance and the “size” of your code. A seasoned R user can manage this effectively, but this can be a headache to a new user. SO, in this…

Read More

Dados genéticos, grandes matrizes e o glmnet()

Dados genéticos, grandes matrizes e o glmnet()

Recentemente, conversando com um colega, tive contato com um problema com o qual eu nunca tinha trabalhado antes: modelagem com dados genéticos. Não tenho nenhum conhecimento especial do assunto, mas dando uma olhada em alguns artigos da área soube que uma das técnicas mais utilizadas para esse tipo de dado era o lasso.   No R, um dos pacotes mais utilizados para  o lasso é o glmnet, que diferente da maioria dos outros pacotes como…

Read More

ANOVA e teste de Tukey no R

ANOVA e  teste de Tukey no R

Em muitos tipos diferentes de experimentos, com um ou mais de um fator, um dos procedimentos estatísticos mais utilizados é a análise de variância, ou simplesmente ANOVA. O ANOVA mais simples pode ser chamado “one way” ou mesmo “single-classification” e envolve a análise de dados amostrados de mais de uma população ou dados de experimentos com mais do que dois tratamentos. Nesse post não é o meu objetivo estudar a fundo o ANOVA, mas sim…

Read More

Lançamentos em Anlytics

Lançamentos em Anlytics

  No mês de julho serão lançados três títulos muito interessantes para quem é da área de análise de dados:  Applied Predictive Modeling  (Max Kuhn e Kjell Johnson), Dynamic Documents with R and knitr (Yihui Xie)  e  An Introduction to Statistical Learning: with applications in R (Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani).              Os três livros abordam aspectos de modelagem e geração de documentos, todos utilizando a linguagem open source R. Cada…

Read More
1 2 3