· 6 years ago · May 10, 2019, 05:58 PM
1\documentclass{article}
2\usepackage{babel}
3\usepackage[utf8]{inputenc}
4\usepackage{amsmath}
5\usepackage{graphicx}
6
7\title{Causal Inference and Program Evaluation Homework 3 \\ Observational Study Design and Analysis}
8\date{}
9\author{Maria Veronica Vinattieri 6414992}
10
11\begin{document}
12\maketitle
13\section*{1.}
14Viene eliminata la variabile di risposta "OUTCOME" dal dataset.
15\section*{2.}
16Per ogni covariata viene riportata nella tabella seguente la media entro i trattati, la media entro i controlli e la differenza fra le medie standardizzata.
17\begin{center}
18\begin{tabular}{l|c|c|c}
19\hline
20Parameter & Mean T &Mean C &Stand Diff \\
21\hline
22Number of employees in 2002 &9.2819 &7.5897 &0.2226 \\
23Legal status &2.0000 &1.8821 &0.1695\\
24Objective 2/Phasing out area & 0.6277 &0.6385 &0.0224\\
25Main target market local vs international &0.5851 &0.7359 &0.3219\\
26Main distribution channel private vs other &0.4309 &0.4256 &0.0105\\
27Female owner &0.4202 &0.3513 &0.1417\\
28Young owner &0.3511 &0.2692 &0.1773\\
29Geographical area &2.3617&2.2436 &0.0950\\
30Year of startup &2.5053&2.3821 &0.1211\\
31Manufacturing &0.6702 &0.6795 &0.0198\\
32Sales in 2002 &3.6596 &3.4744 &0.1123\\
33\end{tabular}
34\end{center}
35\subsection*{3.}
36la distribuzione del propensity score stimato nei trattati e nei controlli risulta:
37\begin{center}
38 \begin{tabular}{l|c|c}
39 \hline
40 &Propensity score T &Propensity score C\\
41 \hline
42 Min. &0.1646 &0.1348 \\
43 1st Qu. &0.2696 &0.2328\\
44 Median &0.3445 &0.2913\\
45 Mean &0.3572 & 0.3099 \\
46 3rd Qu. &0.4312 &0.3680\\
47 Max. &0.7657 &0.6848 \\
48 \end{tabular}
49\end{center}
50Si rappresentano le 2 distribuzioni nel grafico sottostante.
51\begin{figure}[h]
52 \centering
53 \includegraphics[width=\linewidth]{punto3.png}
54 \caption{Propensity score nei trattati e nei conttolli}
55 \label{fig:prop}
56\end{figure} \\
57Dalla \textit{figura \ref{fig:prop}} si nota che il propensity score per i trattati è tendenzialmente maggiore rispetto ai controlli, risultato che coincide con quello atteso. Infatti la distribuzione dei trattati è in massa più spostata verso destra.
58\subsection*{4.}
59Il balancing score è una funzione tale per cui condizionandosi ad esso la distribuzione delle covariate è bilanciata fra trattati e controlli. Quando vi sono troppe covariate che devono essere inserite nel disegno in quanto possibili confondenti, una funzione di balancing score è fondamentale per ridurre la dimensionalità del problema che lo rende irrosolvibile. Il propensity score è il più fine dei balancing score, ma non l'unico: esso permette di definire dei gruppi grandi differenziando per tutti i valori che le covariate assumono, quindi è quello che permette di ridurre al massimo il numero di variabili per cui si deve bilanciare. Infatti, ogni individuo non avrà più una serie di caratteristiche ma una sintesi di esse, cioè la probabilità di essere un trattato date quelle caratteristiche. Così la dimensionalità del problema è ridotta.
60\subsection*{5.}
615 controlli che hanno propensity score minore del minimo propensity score dei trattati vengono eliminati dal dataset. Nessun controllo ha il propensity score maggiore del massimo propensity score dei trattati. Si vuole confrontare unità sottoposte al trattamento con unità sottoposte al controllo al pari della stessa probabilità di essere incluse nel trattamento. Per i 5 controlli eliminati non vi erano trattati simili in termini di probabilità di inclusione nel trattamento: non avendo unità confrontabili vengono eliminati. L'effetto causale si può definire solamente per le unità che hanno le stesse caratteristiche.
62\subsection*{6.}
63La distribuzione del propensity score è ora cambiata per i controlli ma non per i trattati. Si nota ora che il propensity score per i controlli ha sempre un corrispondente nei trattati.
64\begin{center}
65 \begin{tabular}{l|c|c}
66 \hline
67 &Propensity score T &Propensity score C\\
68 \hline
69 Min. &0.1646 &0.1661 \\
70 1st Qu. &0.2696 &0.2348\\
71 Median &0.3445 &0.2930\\
72 Mean &0.3572 & 0.3120 \\
73 3rd Qu. &0.4312 &0.3716\\
74 Max. &0.7657 &0.6848 \\
75 \end{tabular}
76\end{center}
77Vengono rappresentate le 2 distribuzioni in \textit{figura \ref{fig:punto6}}.
78\begin{figure}[h]
79 \centering
80 \includegraphics[width=\linewidth]{plot6.png}
81 \caption{Propensity score after riducing}
82 \label{fig:punto6}
83\end{figure}\\
84Dal valore del propensity score pari a 0.6848 non vi è overlap, perchè vi sono presenti solo trattati.
85Vengono quindi create 5 classi, dopo vari tentativi il risultato più ottimale è la suddivisione [0,0.35],(0.35,0.45],(0.45,0.50],(0.50,0.60],(0.60,1]. Ho creato le classi estreme più ampie in modo tale da avere sicuramente un po' di trattati e un po' di controlli, e le classi centrali di ampiezza minore. \\\\
86Vengono riportati la media del propensity score nei trattati e nei controlli per ogni gruppo; e il numero di trattati e controlli in ogni gruppo.
87\begin{center}
88 \begin{tabular}{l|c|c|c|c}
89 \hline
90Classe &Mean T & Mean C & Num T & Num C \\
91 \hline
921 &0.2247 &0.2287 &49 &152\\
932 &0.2855 &0.2818 &15 &42\\
943 &0.3025 &0.3022 &11 &18\\
954 &0.3196 &0.3207 &14 &43 \\
965 &0.4327 &0.4282 &99 &130\\
97 \end{tabular}
98\end{center}
99Si vede quindi che in ogni classe si hanno un po' di trattati e un po' di controlli e inoltre sembra che in media vi sia bilanciamento di balancing score, in quanto appunto le medie sono simili fra trattati e controlli.
100\subsection*{7.}
101Per ogni covariata si calcola la media di gruppo differenziando per tratratti e controlli. Prima vengono riportate le sintesi per i trattati.
102\begin{center}
103 \begin{tabular}{l|c|c|c|c|c}
104\hline
105Covariate &Mean 1 &Mean 2 &Mean 3 &Mean 4 &Mean 5 \\
106\hline
107addetti pre &6.5918367 &6.0666667 &6.0909091 &6.7857143 &11.8080808\\
108formag &1.6326531 &1.8000000 &1.7272727 &1.7857143 & 2.2727273\\
109ob2 yes &0.6326531 &0.5333333 &0.5454545 &0.7857143 & 0.6262626\\
110locale &1.0000000 &0.9333333 &0.9090909 &0.7142857 & 0.2727273\\
111privato &0.3469388 &0.6000000 &0.5454545 &0.4285714 & 0.4343434\\
112femminile &0.2244898 &0.2000000 &0.3636364 &0.5714286 & 0.5353535\\
113giovanile &0.1428571 &0.2000000 &0.1818182 &0.4285714 & 0.4848485\\
114prov &1.8775510 &2.6666667 &2.8181818 &2.5000000 & 2.4848485\\
115anno &2.0816327 &2.7333333 &2.3636364 &2.4285714 & 2.7070707\\
116sez &0.7755102 &0.5333333 &0.2727273 &0.6428571 & 0.6868687\\
117fatturato pre &3.3265306 &3.2666667 &2.3636364 &3.3571429 & 4.0707071\\
118\end{tabular}
119\end{center}
120Di seguito la tabella per i controlli.
121\begin{center}
122\begin{tabular}{l|c|c|c|c|c}
123\hline
124Covariate &Mean 1 &Mean 2 &Mean 3 &Mean 4 &Mean 5 \\
125\hline
126addetti pre &5.65789474 &6.8095238 &6.2777778 &7.2093023 &10.6538462\\
127formag &1.71052632 &1.7857143 &1.8333333 &1.9302326 & 2.1230769\\
128ob2 yes &0.68421053 &0.6190476 &0.6111111 &0.5348837 & 0.6230769\\
129locale &1.00000000 &1.0000000 &0.9444444 &0.8139535 & 0.2769231\\
130privato &0.40131579 &0.6666667 &0.5555556 &0.5348837 & 0.3384615\\
131femminile &0.22368421 &0.3095238 &0.5000000 &0.3953488 & 0.4923077\\
132giovanile &0.08552632 &0.2857143 &0.2777778 &0.3953488 & 0.4461538\\
133prov &1.94736842 &2.2380952 &2.8888889 &2.5116279 & 2.4307692\\
134anno &1.98026316 &2.6666667 &2.8333333 &2.5348837 & 2.7000000\\
135sez &0.73026316 &0.4523810 &0.6111111 &0.5116279 & 0.7461538\\
136fatturato pre &3.30263158 &3.3333333 &3.0000000 &3.0697674 & 3.9000000\\
137\end{tabular}
138\end{center}
139Le medie nei gruppi sono molto simili fra loro per ogni covariata. Cosa si può notare di più lampante è che per la covariata numero di addetti nel 2002, la media rimane abbastanza costante nei primi 4 gruppi e poi quasi raddoppia nel quinto sia nei trattati sia nei controlli. Quindi, sembra che coloro che hanno una probabilità più alta di essere sottoposto al trattamento hanno in media un numero di addetti maggiori prima del trattamento. \\\\
140Si calcola quindi la media di ogni covariata fra le classi create bilanciando per il numero di trattati presenti in ogni gruppo.
141\begin{center}
142 \begin{tabular}{l|c|c|c}
143 \hline
144 Covariate &Mean T &Mean C &Mean diff \\
145 \hline
146addetti pre &9.28 &8.53 & 0.75\\
147formag &2.00 &1.96 & 0.04\\
148ob2 yes &0.63 &0.63 & 0.00\\
149locale &0.59 &0.60 &-0.02\\
150privato &0.43 &0.41 & 0.02\\
151femminile &0.42 &0.40 & 0.02\\
152giovanile &0.35 &0.33 & 0.03\\
153prov &2.36 &2.32 & 0.04\\
154anno &2.51 &2.51 & 0.00\\
155sez &0.67 &0.69 &-0.02\\
156fatturato pre &3.66 &3.58 & 0.07\\
157 \end{tabular}
158\end{center}
159Le covariate sembrano non differire in media fra trattati e controlli. La variabile che varia di più è il numero di addetti nel 2002. Comunque si può affermare che tutte siano ben bilanciate pesando per il numero di trattati nei gruppi. \\\\ Il motivo per cui si vuole bilanciare per il numero di trattati è perchè l'interesse dello studio è l'effetto causale per coloro che sono stati sottoposti al trattamento.
160\subsection*{8.}
161Si rappresentano graficamente le distribuzioni delle covariate numero di addetti nel 2002 (\textit{figura \ref{fig:punto8}}) e fatturato nel 2002 (\textit{figura \ref{fig:fattu}}) differenziando per trattati e controlli.
162\begin{figure}[h]
163 \centering
164 \includegraphics[width=\linewidth]{punto8.png}
165 \caption{addetti 2002}
166 \label{fig:punto8}
167\end{figure}\\
168\begin{figure}[h]
169 \centering
170 \includegraphics[width=\linewidth]{punto8_2.png}
171 \caption{fatturato 2002}
172 \label{fig:fattu}
173\end{figure}
174Le distribuzioni del numero di addetti nel 2002 nelle singoli classi per il propensity score sono rappresentate in \textit{figura}. METTERE GRAFICI................
175\subsection*{9.}
176Il propensity score sembra ben bilanciato in quanto la sua distribuzione all'interno di classe sembra simile tra trattati e controlli. Quindi, il propensity score sembra omogeneo all'interno delle classe e sufficientemente eterogeneo fra le classi. Il bilanciamento del propensity score implica un buon bilanciamento anche delle covariate.
177\subsection*{10.}
178Un miglior bilanciamento potrebbe essere ottenuto modificando il modello su cui il propensity score è stimato. Nel punto prima il modello includeva tutte le covariate, ora viene applicata una procedura di selezione variabili \textit{forward} per selezionare un modello ottimale. Come risultato si ha che le variabili selezionate sono: locale, addetti_pre, giovanile, privato, anno.
179GRAFICO ..............................
180Inoltre vengono cambiate le classi in cui il propensity score è suddiviso, questa volta considerando precisamente i quintili. Le classi che risultano sono: [0,0.20], (0.20,0.40], (0.40,0.60], (0.60,0.80], (0.80,1.00].
181GRAFICI..............................
182\subsection*{11.}
183Viene considerato d'ora in poi il dataset con OUTCOME, vettore dei risultati potenziali.
184\subsection*{12.}
185lo stimatore di Neyman risulta
186\begin{align*}
187\hat{\tau}^{dif} &= \bar{Y}_t^{obs} -\bar{Y}_c^{obs} \\
188&= 0.2129842
189\end{align*}
190L'intervallo di confidenza di Neyman al 95$\%$ per l'effetto medio del trattamento è \begin{align*}
191CI^{0.95}(\tau) &= [\bar{\tau}^{dif} - 1.959 \cdot \sqrt{\hat{V}^{neyman}}, \ \bar{\tau}^{dif} + 1.959 \cdot \sqrt{\hat{V}^{neyman}}]\\
192&= [0.1356, \ 0.2904]
193\end{align*}
194dove $\hat{V}^{neyman} = \dfrac{s_0^2}{N_0} + \dfrac{s_1^2}{N_1}$, con $s_0^2$ varianza campionaria delle unità assegnate al controllo di dimensione $N_0$ e $s_1^2$ varianza campionaria delle unità assegnate al trattamento di dimensione $N_1$.
195\begin{center}
196 \begin{tabular}{c|c|c}
197 \hline
198 Estimate &Lower bound &Upper bound \\
199 \hline
200 0.2129 &0.1356 &0.2904\\
201 \end{tabular}
202\end{center}
203\subsection*{13.}
204La stima dell'effetto causale medio e gli estremi dell'intervallo di confidenza sulla stima sui dati ridotti sono riportati nella tabella di sotto.
205\begin{center}
206 \begin{tabular}{c|c|c}
207 \hline
208 Estimate &Lower bound &Upper bound \\
209 \hline
210 0.2111 &0.1334 &0.2887
211 \end{tabular}
212\end{center}
213La stima rimane più o meno invariata. L'intervallo è un po' più stretto perchè vi è meno variabilità del propensity score dopo aver eliminato i valori più estremi.
214\subsection*{14.}
215La stima dell'effetto causale è ora prodotta da una media delle medie nelle classi ponderata per il numero di trattati nelle classi. I risultati sono riportati di sotto.
216\begin{center}
217 \begin{tabular}{c|c|c}
218 \hline
219 Estimate &Lower bound &Upper bound \\
220 \hline
221 0.2038 &0.1234 &0.2841
222 \end{tabular}
223\end{center}
224La stima della differenza in media è più bassa. Infatti ora le differenze vengono calcolate nei gruppi fra unità simili e ci si aspetta quindi che le differenze tra trattati e controlli siano di quantità minore.
225\subsection*{15.}
226La stima dell'effetto causale è ora prodotta da una media delle medie nelle classi ponderata per il numero di trattati nelle classi che ora coincidono con i quantili. I risultati sono riportati di sotto.
227\begin{center}
228 \begin{tabular}{c|c|c}
229 \hline
230 Estimate &Lower bound &Upper bound \\
231 \hline
232 0.2006 &0.1199 &0.2813
233 \end{tabular}
234\end{center}
235La stima è ancora più bassa.
236\subsection*{16.}
237Si nota che la stima si abbassa quando viene utilizzata una media fra i gruppi ponderata con il numero dei trattati, perchè la divisione in classi permette di considerare le unità più o meno importanti (attraverso il peso che gli viene assegnato) e di avere quindi una stima più accurata.
238\subsection*{17.}
239L'assunzione di non confondimento potrebbe essere validata dai dati a disposizione in questo studio. Purtroppo, questa assunzione non può essere verificata direttamente ma solo appunto assunta: ci si può fidare del fatto che non vi sia confondimento una volta controllato per le covariate a disposizione. Le informazioni disponibile sono in quantità elevata e il propensity score sembra essere ben bilanciato fra trattati e controlli, questo implica un buon bilanciamento delle covariate e quindi non confondimento. Potremmo voler includere ........ COSA VOGLIAMO INCLUDERE?
240\subsection*{18.}
241In \textit{figura \ref{fig:match}} è riportato l'output del matching esatto. Soltanto 2 unità vengono abbinate esattamente in quanto, con il matching esatto le unità vengono abbinate se hanno lo stesso identico propensity score. Situazione rara da verificarsi.
242\begin{figure}[h]
243 \centering
244 \includegraphics[width=\linewidth]{punto18.JPG}
245 \caption{Exact matching}
246 \label{fig:match}
247\end{figure}
248\subsection*{19.}
249Il miglior ordine per abbinare le unità è dal propensity score più alto a quello più basso. Infatti è più difficile trovare dei controlli con il propensity score alto da abbinare ai trattati con alta probabilità a essere sottoposti a trattamento quindi vengono prima aggiustati quelli.
250\end{document}