blob: 0c40cc376025c58a1a875bcc1f489be7d8310411 [file] [log] [blame]
avm99963754c2ad2021-02-26 15:44:44 +01001---
2title: "Entregable 1 - Estadística"
3subtitle: "Grau de Matemàtiques, Curs 2020-21"
4author: "Vilanova Martínez, Adrià"
5output: html_document
6---
7
8```{r}
9library(tables)
10```
11
12## Configuració
13Aquí es pot configurar la pràctica depenent del que es pregunti:
14
15```{r}
16# Columna per la qual es pregunta a l'apartat a):
17colA = "IM"
18# Tractament dels exercicis 1 i 2 de l'apartat a):
19tractamentA = "M-Jove"
20# Columna per la qual es pregunta a l'apartat b):
21colB = "H"
22# Tractament que s'usa a l'apartat b):
23tractamentB = "M-Jove"
24# Mu a les preguntes 8, 9 i 10
25mu8 = 170.9
26# Probabilitat de les preguntes 8, 9 i 10
27prob8 = 0.95
28# Sigma^2 a les preguntes 11, 12 i 13
29sigmaQuad11 = 66.3
30# Probabilitat de les preguntes 11, 12 i 13
31prob11 = 0.95
32# Categoria d'Aspecte preguntada a l'apartat c):
33aspC = "F"
34# Columna per la qual es pregunta a l'apartat c):
35colC = "Vidre"
36# Resposta a la columna anterior de l'apartat c):
37respC = "No"
38
39dd = read.csv2("data.csv")
40```
41
42## Tractament previ
43```{r}
44# Conversió de dades
45dd$MO = factor(dd$MO, labels=c("No", "Sí"))
46dd$Envas = factor(dd$Envas, labels=c("No", "Sí"))
47dd$Vidre = factor(dd$Vidre, labels=c("No", "Sí"))
48dd$Sexe = factor(dd$Sexe)
49dd$Aspecte = factor(dd$Aspecte)
50dd$IM = dd$D2/dd$D4
51dd$BMI = dd$Pes/(dd$H/100)^2
52dd$CBMI = cut(dd$BMI, c(0, 19, 27, 100), labels=c("1-Baix", "2-Mig", "3-Alt"))
53dd$CEdat = cut(dd$Edat, c(-1, 25, 200), labels=c("1-Jove", "2-Gran"))
54
55# Definim els data frames per cada tractament (combinació)
56fj = dd[dd$Sexe == 'F' & dd$CEdat == "1-Jove",]
57fg = dd[dd$Sexe == 'F' & dd$CEdat == "2-Gran",]
58mj = dd[dd$Sexe == 'M' & dd$CEdat == "1-Jove",]
59mg = dd[dd$Sexe == 'M' & dd$CEdat == "2-Gran",]
60tractaments = list(fj, fg, mj, mg)
61names(tractaments) = c("F-Jove", "F-Gran", "M-Jove", "M-Gran")
62```
63
64## Apartat a)
65```{r}
66# Creem data frame amb informació d'estadístics de colA per cada
67# tractament
68colAPerTractament = data.frame(
69 "Tractament" = names(tractaments),
70 "Mean" = c(mean(fj[[colA]]), mean(fg[[colA]]), mean(mj[[colA]]), mean(mg[[colA]])),
71 "Var" = c(var(fj[[colA]]), var(fg[[colA]]), var(mj[[colA]]), var(mg[[colA]]))
72)
73colAPerTractament
74
75# TODO(avm99963): Fix
76# with(dd, tabular(Sexe~colA*CEdat*(mean + var)))
77```
78
79Variables usades a l'apartat:
80
81- `tractamentA = `r tractamentA``
82- `colA = `r colA``
83
84### Pregunta 1
85La mitjana de ``r colA`` en el tractament ``r tractamentA`` és:
86
87```{r}
88mean(tractaments[[tractamentA]][[colA]])
89```
90
91### Pregunta 2
92La variància de ``r colA`` en el tractament ``r tractamentA`` és:
93
94```{r}
95var(tractaments[[tractamentA]][[colA]])
96```
97
98### Pregunta 3
99El tractament en què ``r colA`` ha donat més alt és:
100
101```{r}
102colAPerTractament[which.max(colAPerTractament$Mean), "Tractament"]
103```
104
105### Pregunta 4
106El tractament en què ``r colA`` ha sortit amb més dispersió és:
107
108```{r}
109colAPerTractament[which.max(colAPerTractament$Var), "Tractament"]
110```
111
112### Pregunta 5
113El sexe en què la diferència de ``r colA`` entre Joves i Grans ha sortit més alta és:
114
115```{r}
116# Diferència de la colA entre joves i grans:
117colADiff1 = data.frame(
118 Sexe = c("F", "M"),
119 Diff = c(
120 abs(mean(fj[[colA]]) - mean(fg[[colA]])),
121 abs(mean(mj[[colA]]) - mean(mg[[colA]]))
122 )
123)
124
125colADiff1
126colADiff1[which.max(colADiff1$Diff), "Sexe"]
127```
128
129### Pregunta 6
130El grup d'edat en què la diferència de ``r colA`` entre sexes ha sortit més alta és:
131
132```{r}
133# Diferència de la colA entre sexes:
134colADiff2 = data.frame(
135 Edat = c("1-Jove", "2-Gran"),
136 Diff = c(
137 abs(mean(fj[[colA]]) - mean(mj[[colA]])),
138 abs(mean(fg[[colA]]) - mean(mg[[colA]]))
139 )
140)
141
142colADiff2
143colADiff2[which.max(colADiff1$Diff), "Edat"]
144```
145
146## Apartat b)
147
148Variables usades a l'apartat:
149
150- `colB = `r colB``
151- `tractamentB = `r tractamentB``
152
153### Pregunta 7
154Mitjana de ``r colB`` per les persones del segment ``r tractamentB``:
155
156```{r}
157m7 = mean(tractaments[[tractamentB]][[colB]])
158m7
159```
160
161### Pregunta 8
162Suposant que $\mu = \mathbb{E}[`r colB` | \text{`r tractamentB`}] = `r mu8`$, quins serien els resultats normals (dues cues, probabilitat = 0.95) de la mitjana de ``r colB`` del segment ``r tractamentB``? Doneu-ne els extrems de l'interval (valors crítics):
163
164```{r}
165nb = nrow(tractaments[[tractamentB]])
166sd8 = sd(tractaments[[tractamentB]][[colB]])
167probcua8 = (1 - prob8)/2
168extesq = mu8 + qt(probcua8, df=nb-1)*sd8/sqrt(nb)
169extdre = mu8 + qt(1 - probcua8, df=nb-1)*sd8/sqrt(nb)
170```
171
172Els resultats normals són $[`r extesq`, `r extdre`]$.
173
174### Pregunta 9
175Continuant el dos punts anteriors (7 i 8), quina és la probabilitat que la mitjana $\text{`r colB`} | \text{`r tractamentB`}$ surti tant o més estranya del que ha sortit?
176
177```{r}
178p9 = 2*(1 - pt(abs(m7 - mu8)*sqrt(nb)/sd8, df=nb-1))
179```
180
181La probabilitat és `r p9`.
182
183### Pregunta 10
184Calculeu la variància de ``r colB`` per les persones del segment ``r tractamentB``:
185
186```{r}
187var10 = var(tractaments[[tractamentB]][[colB]])
188var10
189```
190
191### Pregunta 11
192Suposant que $\sigma^2 = V(`r colB` | \text{`r tractamentB`}) = `r sigmaQuad11`$, quins serien els resultats normals (dues cues, probabilitat = ``r prob11``) de la variància de ``r colB`` del segment ``r tractamentB``? Doneu-ne els valors crítics.
193
194```{r}
195mean11 = mean(tractaments[[tractamentB]][[colB]])
196probcua11 = (1 - prob11)/2
197extesq2 = qchisq(probcua11, df=nb-1)*sigmaQuad11/(nb - 1)
198extdre2 = qchisq(1 - probcua11, df=nb-1)*sigmaQuad11/(nb - 1)
199```
200
201Els resultats normals són $[`r extesq2`, `r extdre2`]$.
202
203### Pregunta 12
204Continuant els dos punts anteriors (10 i 11), quina és la probabilitat que la variància $S^2$ de ``r tractamentB`` surti tant o més estranya del que ha sortit?
205
206```{r}
207c12 = (nb - 1)/sigmaQuad11
208delta12 = abs(var10 - sigmaQuad11)
209p12 = pchisq(c12*(sigmaQuad11 - delta12), df=nb-1) +
210 pchisq(c12*(sigmaQuad11 + delta12), df=nb-1, lower.tail = FALSE)
211```
212
213La probabilitat és `r p12`.
214
215## Apartat c)
216
217Variables usades a l'apartat:
218
219- `aspC = `r aspC``
220- `colC = `r colC``
221- `respC = `r respC``
222
223<!-- TODO(avm99963): Give direct results instead of tables -->
224
225### Pregunta 13
226De les persones que han respost l'opció ``r aspC`` d'Aspecte, quina proporció (tant per u) ha dit: ``r respC`` a ``r colC``?
227
228```{r}
229dd13 = dd[dd$Aspecte == aspC,]
230pt13 = prop.table(table(dd13[[colC]]))
231pt13
232
233pt13[["No"]]
234```
235
236### Pregunta 14
237En quina opció d'Aspecte, les proporcions de "Sí" i de "No" a ``r colC`` són més diferents?
238
239```{r}
240pt14 = prop.table(table(dd$Aspecte, dd[[colC]]), margin=1)
241pt14
242
243diff14 = data.frame(
244 Aspecte = c("E", "F", "M", "T"),
245 Diff = c(
246 abs(pt14["E", "No"] - pt14["E", "Sí"]),
247 abs(pt14["F", "No"] - pt14["F", "Sí"]),
248 abs(pt14["M", "No"] - pt14["M", "Sí"]),
249 abs(pt14["T", "No"] - pt14["T", "Sí"])
250 )
251)
252diff14
253
254diff14[which.max(diff14$Diff), "Aspecte"]
255```
256
257### Pregunta 15
258En quina opció d'Aspecte, les proporcions de "Sí" i de "No" a ``r colC`` s'assemblen més a les proporcions de "Sí" i "No" de totes les persones juntes?
259
260```{r}
261pt15 = prop.table(table(dd[[colC]]))
262pt15
263
264diff15 = data.frame(
265 Aspecte = c("E", "F", "M", "T"),
266 Diff = c(
267 abs(pt14["E", "No"] - pt15[["No"]]),
268 abs(pt14["F", "No"] - pt15[["No"]]),
269 abs(pt14["M", "No"] - pt15[["No"]]),
270 abs(pt14["T", "No"] - pt15[["No"]])
271 )
272)
273diff15
274
275diff15[which.min(diff15$Diff), "Aspecte"]
276```