BASE1<-read.csv("futbol.csv",sep=",",encoding = "latin1")
goals<-BASE1$goals; position<-BASE1$position; squad<-BASE1$squad; foot<-BASE1$foot; height<-BASE1$height
BASE2<-read.csv("Paises.csv",sep=";")
pob<-BASE2$pob; region<-BASE2$region; le21<-BASE2$le_20213 Tablas resúmenes
En esta sección se trabajará nuevamente con la base de datos de países.
3.1 Tabla de frecuencias
La tabla de frecuencias indica cuántas observaciones presentan los valores observados en una variable particular. La función que permite obtener esta tabla es table(var).
fa<-table(region)
data.frame(fa) #table genera dos filas horizontales, data.frame las acomoda region Freq
1 AS 20
2 DC 44
3 EAP 26
4 ECA 17
5 LAC 33
6 SA 9
7 SSA 46
Nota: Las regiones son Arabian States, developed countries, East Asia and the Pacific, Europe and Central Asia, Latin America and Caribbean, South Asia and SubSaharian Africa (AS, DC, EAP, ECA, LAC, SA y SSA).
La tabla de frecuencias puede incluir otras frecuencias muy útiles como la frecuencia relativa (prop.table(table)), la frecuencia absoluta acumulada (cumsum(var)) y la frecuencia relativa acumulada (cumsum(var)).
fr<-prop.table(fa)
Fa<-cumsum(fa)
Fr<-cumsum(fr)
df<-data.frame( matrix(fa),matrix(fr),Fa,Fr) #La función table genera una fila adicional de nombres, matrix permite quedarse con solo la salida numérica
names(df)<-c("fa","fr","Fa","Fr")
round(df,2) fa fr Fa Fr
AS 20 0.10 20 0.10
DC 44 0.23 64 0.33
EAP 26 0.13 90 0.46
ECA 17 0.09 107 0.55
LAC 33 0.17 140 0.72
SA 9 0.05 149 0.76
SSA 46 0.24 195 1.00
3.2 Tablas de contigencia
Estas tablas permiten visualizar las frecuencias conjuntas de dos variables, e incluso 3. La función que se utiliza es table(var1, var2, var 3).
table(position, foot) foot
position both left right
DF 0 7 12
FW 5 6 7
GK 0 1 2
MF 1 2 10
table(position, foot, squad), , squad = Barcelona
foot
position both left right
DF 0 5 6
FW 1 4 3
GK 0 0 1
MF 0 1 6
, , squad = Real Madrid
foot
position both left right
DF 0 2 6
FW 4 2 4
GK 0 1 1
MF 1 1 4
3.3 Tablas de frecuencias agrupadas
x<-cut(height, seq(160,200,5), right = TRUE) # Indica los intervalos en los que está cada altura, según los cortes indicados en la segunda entrada
x[1:5][1] (170,175] (165,170] (180,185] (190,195] (175,180]
8 Levels: (160,165] (165,170] (170,175] (175,180] (180,185] ... (195,200]
fa<- table(x)
fr<-prop.table(fa)
Fa<-cumsum(fa)
Fr<-cumsum(fr)
df<-data.frame( matrix(fa),matrix(fr),Fa,Fr)
names(df)<-c("fa","fr","Fa","Fr")
round(df,2) fa fr Fa Fr
(160,165] 0 0.00 0 0.00
(165,170] 3 0.06 3 0.06
(170,175] 10 0.19 13 0.25
(175,180] 16 0.30 29 0.55
(180,185] 14 0.26 43 0.81
(185,190] 6 0.11 49 0.92
(190,195] 3 0.06 52 0.98
(195,200] 1 0.02 53 1.00
3.4 Tablas de estadísticos resumen de una variable, según grupos de otra variable
Estas tablas permiten visualizar un estadístico de interés, según grupos dentro de la población. Por ejemplo, se puede ver la cantidad total de personas o el área que abarca cada región del mundo. La función de R que permite realizar este cálculo es tapply(var1, var2, fun=, na.rm=). En estos casos, el estadístico de interés es la suma (sum`).
df<-data.frame(tapply(pob, region, sum, na.rm=T))
names(df)<-c("pob")
df pob
AS 443923526
DC 1268469643
EAP 2122518534
ECA 247263736
LAC 646668247
SA 1969821813
SSA 1090324579
Otro ejemplo es la esperanza de vida promediada según los países de cada región.
df<-data.frame(tapply(le21, region, mean, na.rm=T))
names(df)<-c("Esp_prom")
df Esp_prom
AS 72.16000
DC 80.39318
EAP 70.36923
ECA 72.30588
LAC 72.13333
SA 70.90000
SSA 61.76957
Otro ejemplo es la cantidad de goles por posición y equipo.
F<-tapply(goals, list(position, squad), sum, na.rm=T) #list permite crear una variable que combine dos variables
F Barcelona Real Madrid
DF 8 18
FW 60 37
GK 0 0
MF 16 15
Finalmente, si se desea trabajar la tabla anterior con porcentajes se puede usar el comando prop.table(table, margin=2).
prop.table(F, margin=2) Barcelona Real Madrid
DF 0.0952381 0.2571429
FW 0.7142857 0.5285714
GK 0.0000000 0.0000000
MF 0.1904762 0.2142857
3.5 Formato de tablas
| cod | hdi_2015 | hdi_2016 | hdi_2017 | hdi_2018 | hdi_2019 | hdi_2020 | hdi_2021 |
|---|---|---|---|---|---|---|---|
| BLZ | 0.708 | 0.712 | 0.707 | 0.706 | 0.705 | 0.690 | 1 |
| CRI | 0.798 | 0.803 | 0.807 | 0.811 | 0.819 | 0.816 | 1 |
| GTM | 0.639 | 0.639 | 0.640 | 0.640 | 0.642 | 0.635 | 1 |
| HND | 0.613 | 0.618 | 0.617 | 0.617 | 0.632 | 0.621 | 1 |
| NIC | 0.647 | 0.653 | 0.659 | 0.662 | 0.664 | 0.654 | 1 |
| PAN | 0.800 | 0.805 | 0.811 | 0.814 | 0.817 | 0.801 | 1 |
| SLV | 0.668 | 0.671 | 0.674 | 0.680 | 0.683 | 0.672 | 1 |