R Cheat Sheet

Nova tabela (data frame):

Column1 <- c("Value1", "Value2", "Value3")
Column2 <- c(23, 41, 32)

df <- data.frame(Column1, Column2)

Importar CSV:

tabela <- read.csv("path/file.csv", header = TRUE, sep = ";")

Frequência:

 table(tabela$COLUNA)

Frequência relativa: Ocorrências/Observações

coluna_solta <- table(tabela$COLUNA)
freq_relativa <- coluna_solta / sum(coluna_solta)

Média, mediana, moda:

mean(tabela$COLUNA)
median(tabela$COLUNA)
mode(tabela$COLUNA)

Sumário (retorna mínimo, máx, média, mediana, valores em branco):

summary(tabela)
summary(tabela$COLUNA)

Ignorar valores em branco (NA):

# colocar no parenteses da função na.rm = TRUE
# exemplo
mean(tabela$COLUNA, na.rm = TRUE)

Variancia:

var(tabela$COLUNA, na.rm = TRUE)

Desvio padrão:

sd(tabela$COLUNA, na.rm = TRUE)

Coeficiente de variação:

coef_var <- mean(tabela$COLUNA)/sd(tabela$COLUNA)

Boxplot horizontal:

# Simples
boxplot(tabela$COLUNA, horizontal = TRUE)

# ggplot2
ggplot(tabela, aes(x=as.factor(COL1), y=COL2)) +
    geom_boxplot(fill="slateblue", alpha=0.2) +
    xlab("Titulo do eixo x")

Covariância:

cov(tabela$COLUNA1, tabela$COLUNA2)

Coeficiente de correlação:

cor(tabela$COLUNA1, tabela$COLUNA2)

Scatterplot (gráfico de pontinhos?):

# Simples
plot(x=tabela$COLUNA1, y=tabela$COLUNA2
	xlab="Nome do eixo X", ylab="Nome do eixo Y",
	main="Titulo do gráfico"
	)
# ggplot2
> ggplot(tabela, aes(x=COLUNA1, y=COLUNA2)) +
+     geom_point()

Gráfico de barras:

> ggplot(tabela, aes(x=COLUNA1, y=COLUNA2)) +
+     geom_bar(stat = "identity", na.rm = TRUE)