avm99963 | 754c2ad | 2021-02-26 15:44:44 +0100 | [diff] [blame^] | 1 | --- |
| 2 | title: "Entregable 1 - Estadística" |
| 3 | subtitle: "Grau de Matemàtiques, Curs 2020-21" |
| 4 | author: "Vilanova Martínez, Adrià" |
| 5 | output: html_document |
| 6 | --- |
| 7 | |
| 8 | ```{r} |
| 9 | library(tables) |
| 10 | ``` |
| 11 | |
| 12 | ## Configuració |
| 13 | Aquí es pot configurar la pràctica depenent del que es pregunti: |
| 14 | |
| 15 | ```{r} |
| 16 | # Columna per la qual es pregunta a l'apartat a): |
| 17 | colA = "IM" |
| 18 | # Tractament dels exercicis 1 i 2 de l'apartat a): |
| 19 | tractamentA = "M-Jove" |
| 20 | # Columna per la qual es pregunta a l'apartat b): |
| 21 | colB = "H" |
| 22 | # Tractament que s'usa a l'apartat b): |
| 23 | tractamentB = "M-Jove" |
| 24 | # Mu a les preguntes 8, 9 i 10 |
| 25 | mu8 = 170.9 |
| 26 | # Probabilitat de les preguntes 8, 9 i 10 |
| 27 | prob8 = 0.95 |
| 28 | # Sigma^2 a les preguntes 11, 12 i 13 |
| 29 | sigmaQuad11 = 66.3 |
| 30 | # Probabilitat de les preguntes 11, 12 i 13 |
| 31 | prob11 = 0.95 |
| 32 | # Categoria d'Aspecte preguntada a l'apartat c): |
| 33 | aspC = "F" |
| 34 | # Columna per la qual es pregunta a l'apartat c): |
| 35 | colC = "Vidre" |
| 36 | # Resposta a la columna anterior de l'apartat c): |
| 37 | respC = "No" |
| 38 | |
| 39 | dd = read.csv2("data.csv") |
| 40 | ``` |
| 41 | |
| 42 | ## Tractament previ |
| 43 | ```{r} |
| 44 | # Conversió de dades |
| 45 | dd$MO = factor(dd$MO, labels=c("No", "Sí")) |
| 46 | dd$Envas = factor(dd$Envas, labels=c("No", "Sí")) |
| 47 | dd$Vidre = factor(dd$Vidre, labels=c("No", "Sí")) |
| 48 | dd$Sexe = factor(dd$Sexe) |
| 49 | dd$Aspecte = factor(dd$Aspecte) |
| 50 | dd$IM = dd$D2/dd$D4 |
| 51 | dd$BMI = dd$Pes/(dd$H/100)^2 |
| 52 | dd$CBMI = cut(dd$BMI, c(0, 19, 27, 100), labels=c("1-Baix", "2-Mig", "3-Alt")) |
| 53 | dd$CEdat = cut(dd$Edat, c(-1, 25, 200), labels=c("1-Jove", "2-Gran")) |
| 54 | |
| 55 | # Definim els data frames per cada tractament (combinació) |
| 56 | fj = dd[dd$Sexe == 'F' & dd$CEdat == "1-Jove",] |
| 57 | fg = dd[dd$Sexe == 'F' & dd$CEdat == "2-Gran",] |
| 58 | mj = dd[dd$Sexe == 'M' & dd$CEdat == "1-Jove",] |
| 59 | mg = dd[dd$Sexe == 'M' & dd$CEdat == "2-Gran",] |
| 60 | tractaments = list(fj, fg, mj, mg) |
| 61 | names(tractaments) = c("F-Jove", "F-Gran", "M-Jove", "M-Gran") |
| 62 | ``` |
| 63 | |
| 64 | ## Apartat a) |
| 65 | ```{r} |
| 66 | # Creem data frame amb informació d'estadístics de colA per cada |
| 67 | # tractament |
| 68 | colAPerTractament = data.frame( |
| 69 | "Tractament" = names(tractaments), |
| 70 | "Mean" = c(mean(fj[[colA]]), mean(fg[[colA]]), mean(mj[[colA]]), mean(mg[[colA]])), |
| 71 | "Var" = c(var(fj[[colA]]), var(fg[[colA]]), var(mj[[colA]]), var(mg[[colA]])) |
| 72 | ) |
| 73 | colAPerTractament |
| 74 | |
| 75 | # TODO(avm99963): Fix |
| 76 | # with(dd, tabular(Sexe~colA*CEdat*(mean + var))) |
| 77 | ``` |
| 78 | |
| 79 | Variables usades a l'apartat: |
| 80 | |
| 81 | - `tractamentA = `r tractamentA`` |
| 82 | - `colA = `r colA`` |
| 83 | |
| 84 | ### Pregunta 1 |
| 85 | La mitjana de ``r colA`` en el tractament ``r tractamentA`` és: |
| 86 | |
| 87 | ```{r} |
| 88 | mean(tractaments[[tractamentA]][[colA]]) |
| 89 | ``` |
| 90 | |
| 91 | ### Pregunta 2 |
| 92 | La variància de ``r colA`` en el tractament ``r tractamentA`` és: |
| 93 | |
| 94 | ```{r} |
| 95 | var(tractaments[[tractamentA]][[colA]]) |
| 96 | ``` |
| 97 | |
| 98 | ### Pregunta 3 |
| 99 | El tractament en què ``r colA`` ha donat més alt és: |
| 100 | |
| 101 | ```{r} |
| 102 | colAPerTractament[which.max(colAPerTractament$Mean), "Tractament"] |
| 103 | ``` |
| 104 | |
| 105 | ### Pregunta 4 |
| 106 | El tractament en què ``r colA`` ha sortit amb més dispersió és: |
| 107 | |
| 108 | ```{r} |
| 109 | colAPerTractament[which.max(colAPerTractament$Var), "Tractament"] |
| 110 | ``` |
| 111 | |
| 112 | ### Pregunta 5 |
| 113 | El sexe en què la diferència de ``r colA`` entre Joves i Grans ha sortit més alta és: |
| 114 | |
| 115 | ```{r} |
| 116 | # Diferència de la colA entre joves i grans: |
| 117 | colADiff1 = data.frame( |
| 118 | Sexe = c("F", "M"), |
| 119 | Diff = c( |
| 120 | abs(mean(fj[[colA]]) - mean(fg[[colA]])), |
| 121 | abs(mean(mj[[colA]]) - mean(mg[[colA]])) |
| 122 | ) |
| 123 | ) |
| 124 | |
| 125 | colADiff1 |
| 126 | colADiff1[which.max(colADiff1$Diff), "Sexe"] |
| 127 | ``` |
| 128 | |
| 129 | ### Pregunta 6 |
| 130 | El grup d'edat en què la diferència de ``r colA`` entre sexes ha sortit més alta és: |
| 131 | |
| 132 | ```{r} |
| 133 | # Diferència de la colA entre sexes: |
| 134 | colADiff2 = data.frame( |
| 135 | Edat = c("1-Jove", "2-Gran"), |
| 136 | Diff = c( |
| 137 | abs(mean(fj[[colA]]) - mean(mj[[colA]])), |
| 138 | abs(mean(fg[[colA]]) - mean(mg[[colA]])) |
| 139 | ) |
| 140 | ) |
| 141 | |
| 142 | colADiff2 |
| 143 | colADiff2[which.max(colADiff1$Diff), "Edat"] |
| 144 | ``` |
| 145 | |
| 146 | ## Apartat b) |
| 147 | |
| 148 | Variables usades a l'apartat: |
| 149 | |
| 150 | - `colB = `r colB`` |
| 151 | - `tractamentB = `r tractamentB`` |
| 152 | |
| 153 | ### Pregunta 7 |
| 154 | Mitjana de ``r colB`` per les persones del segment ``r tractamentB``: |
| 155 | |
| 156 | ```{r} |
| 157 | m7 = mean(tractaments[[tractamentB]][[colB]]) |
| 158 | m7 |
| 159 | ``` |
| 160 | |
| 161 | ### Pregunta 8 |
| 162 | Suposant que $\mu = \mathbb{E}[`r colB` | \text{`r tractamentB`}] = `r mu8`$, quins serien els resultats normals (dues cues, probabilitat = 0.95) de la mitjana de ``r colB`` del segment ``r tractamentB``? Doneu-ne els extrems de l'interval (valors crítics): |
| 163 | |
| 164 | ```{r} |
| 165 | nb = nrow(tractaments[[tractamentB]]) |
| 166 | sd8 = sd(tractaments[[tractamentB]][[colB]]) |
| 167 | probcua8 = (1 - prob8)/2 |
| 168 | extesq = mu8 + qt(probcua8, df=nb-1)*sd8/sqrt(nb) |
| 169 | extdre = mu8 + qt(1 - probcua8, df=nb-1)*sd8/sqrt(nb) |
| 170 | ``` |
| 171 | |
| 172 | Els resultats normals són $[`r extesq`, `r extdre`]$. |
| 173 | |
| 174 | ### Pregunta 9 |
| 175 | Continuant el dos punts anteriors (7 i 8), quina és la probabilitat que la mitjana $\text{`r colB`} | \text{`r tractamentB`}$ surti tant o més estranya del que ha sortit? |
| 176 | |
| 177 | ```{r} |
| 178 | p9 = 2*(1 - pt(abs(m7 - mu8)*sqrt(nb)/sd8, df=nb-1)) |
| 179 | ``` |
| 180 | |
| 181 | La probabilitat és `r p9`. |
| 182 | |
| 183 | ### Pregunta 10 |
| 184 | Calculeu la variància de ``r colB`` per les persones del segment ``r tractamentB``: |
| 185 | |
| 186 | ```{r} |
| 187 | var10 = var(tractaments[[tractamentB]][[colB]]) |
| 188 | var10 |
| 189 | ``` |
| 190 | |
| 191 | ### Pregunta 11 |
| 192 | Suposant que $\sigma^2 = V(`r colB` | \text{`r tractamentB`}) = `r sigmaQuad11`$, quins serien els resultats normals (dues cues, probabilitat = ``r prob11``) de la variància de ``r colB`` del segment ``r tractamentB``? Doneu-ne els valors crítics. |
| 193 | |
| 194 | ```{r} |
| 195 | mean11 = mean(tractaments[[tractamentB]][[colB]]) |
| 196 | probcua11 = (1 - prob11)/2 |
| 197 | extesq2 = qchisq(probcua11, df=nb-1)*sigmaQuad11/(nb - 1) |
| 198 | extdre2 = qchisq(1 - probcua11, df=nb-1)*sigmaQuad11/(nb - 1) |
| 199 | ``` |
| 200 | |
| 201 | Els resultats normals són $[`r extesq2`, `r extdre2`]$. |
| 202 | |
| 203 | ### Pregunta 12 |
| 204 | Continuant els dos punts anteriors (10 i 11), quina és la probabilitat que la variància $S^2$ de ``r tractamentB`` surti tant o més estranya del que ha sortit? |
| 205 | |
| 206 | ```{r} |
| 207 | c12 = (nb - 1)/sigmaQuad11 |
| 208 | delta12 = abs(var10 - sigmaQuad11) |
| 209 | p12 = pchisq(c12*(sigmaQuad11 - delta12), df=nb-1) + |
| 210 | pchisq(c12*(sigmaQuad11 + delta12), df=nb-1, lower.tail = FALSE) |
| 211 | ``` |
| 212 | |
| 213 | La probabilitat és `r p12`. |
| 214 | |
| 215 | ## Apartat c) |
| 216 | |
| 217 | Variables usades a l'apartat: |
| 218 | |
| 219 | - `aspC = `r aspC`` |
| 220 | - `colC = `r colC`` |
| 221 | - `respC = `r respC`` |
| 222 | |
| 223 | <!-- TODO(avm99963): Give direct results instead of tables --> |
| 224 | |
| 225 | ### Pregunta 13 |
| 226 | De les persones que han respost l'opció ``r aspC`` d'Aspecte, quina proporció (tant per u) ha dit: ``r respC`` a ``r colC``? |
| 227 | |
| 228 | ```{r} |
| 229 | dd13 = dd[dd$Aspecte == aspC,] |
| 230 | pt13 = prop.table(table(dd13[[colC]])) |
| 231 | pt13 |
| 232 | |
| 233 | pt13[["No"]] |
| 234 | ``` |
| 235 | |
| 236 | ### Pregunta 14 |
| 237 | En quina opció d'Aspecte, les proporcions de "Sí" i de "No" a ``r colC`` són més diferents? |
| 238 | |
| 239 | ```{r} |
| 240 | pt14 = prop.table(table(dd$Aspecte, dd[[colC]]), margin=1) |
| 241 | pt14 |
| 242 | |
| 243 | diff14 = data.frame( |
| 244 | Aspecte = c("E", "F", "M", "T"), |
| 245 | Diff = c( |
| 246 | abs(pt14["E", "No"] - pt14["E", "Sí"]), |
| 247 | abs(pt14["F", "No"] - pt14["F", "Sí"]), |
| 248 | abs(pt14["M", "No"] - pt14["M", "Sí"]), |
| 249 | abs(pt14["T", "No"] - pt14["T", "Sí"]) |
| 250 | ) |
| 251 | ) |
| 252 | diff14 |
| 253 | |
| 254 | diff14[which.max(diff14$Diff), "Aspecte"] |
| 255 | ``` |
| 256 | |
| 257 | ### Pregunta 15 |
| 258 | En quina opció d'Aspecte, les proporcions de "Sí" i de "No" a ``r colC`` s'assemblen més a les proporcions de "Sí" i "No" de totes les persones juntes? |
| 259 | |
| 260 | ```{r} |
| 261 | pt15 = prop.table(table(dd[[colC]])) |
| 262 | pt15 |
| 263 | |
| 264 | diff15 = data.frame( |
| 265 | Aspecte = c("E", "F", "M", "T"), |
| 266 | Diff = c( |
| 267 | abs(pt14["E", "No"] - pt15[["No"]]), |
| 268 | abs(pt14["F", "No"] - pt15[["No"]]), |
| 269 | abs(pt14["M", "No"] - pt15[["No"]]), |
| 270 | abs(pt14["T", "No"] - pt15[["No"]]) |
| 271 | ) |
| 272 | ) |
| 273 | diff15 |
| 274 | |
| 275 | diff15[which.min(diff15$Diff), "Aspecte"] |
| 276 | ``` |