R Cheat Sheet
Nova tabela (data frame):
Column1 <- c("Value1", "Value2", "Value3")
Column2 <- c(23, 41, 32)
df <- data.frame(Column1, Column2)
Importar CSV:
tabela <- read.csv("path/file.csv", header = TRUE, sep = ";")
Frequência:
table(tabela$COLUNA)
Frequência relativa: Ocorrências/Observações
coluna_solta <- table(tabela$COLUNA)
freq_relativa <- coluna_solta / sum(coluna_solta)
Média, mediana, moda:
mean(tabela$COLUNA)
median(tabela$COLUNA)
mode(tabela$COLUNA)
Sumário (retorna mínimo, máx, média, mediana, valores em branco):
summary(tabela)
summary(tabela$COLUNA)
Ignorar valores em branco (NA):
# colocar no parenteses da função na.rm = TRUE
# exemplo
mean(tabela$COLUNA, na.rm = TRUE)
Variancia:
var(tabela$COLUNA, na.rm = TRUE)
Desvio padrão:
sd(tabela$COLUNA, na.rm = TRUE)
Coeficiente de variação:
coef_var <- mean(tabela$COLUNA)/sd(tabela$COLUNA)
Boxplot horizontal:
# Simples
boxplot(tabela$COLUNA, horizontal = TRUE)
# ggplot2
ggplot(tabela, aes(x=as.factor(COL1), y=COL2)) +
geom_boxplot(fill="slateblue", alpha=0.2) +
xlab("Titulo do eixo x")
Covariância:
cov(tabela$COLUNA1, tabela$COLUNA2)
Coeficiente de correlação:
cor(tabela$COLUNA1, tabela$COLUNA2)
Scatterplot (gráfico de pontinhos?):
# Simples
plot(x=tabela$COLUNA1, y=tabela$COLUNA2
xlab="Nome do eixo X", ylab="Nome do eixo Y",
main="Titulo do gráfico"
)
# ggplot2
> ggplot(tabela, aes(x=COLUNA1, y=COLUNA2)) +
+ geom_point()
Gráfico de barras:
> ggplot(tabela, aes(x=COLUNA1, y=COLUNA2)) +
+ geom_bar(stat = "identity", na.rm = TRUE)