martes, 20 de agosto de 2013

Mediana y media

Bell Curve Surgía hoy en Twitter por enésima vez la eterna discusión sobre si la media es una medida "representativa" de un conjunto de datos o si es mejor utilizar la mediana.

En mi opinión, cuando se trata de describir un conjunto de datos conviene ser un poco más exhaustivo ya que la representación de toda una distribución con una única cifra siempre puede llevar a engaño. Pero todo depende de la naturaleza de los datos y del objetivo que persigamos. Vamos a hacer un sencillo ejercicio mental:

Supongamos que tenemos un dado de seis caras (un dado normal) pero que sustituimos las caras 2 y 3 por unos. Así tendremos un dado con las siguientes caras: 1, 1, 1, 4, 5 y 6.

Ahora supongamos que tenemos 600 alumnos de la asignatura de estadística (que es un hueso y hay muchísimos repetidores...) y a cada uno de ellos le pedimos que lance el dado una vez y les damos tantos € como puntuación saquen. Si las caras son equiprobables esperaríamos que 300 alumnos sacasen un 1, 100 un cuatro, 100 un cinco y 100 un seis. La media de € por alumno será de 3€ aunque ninguno de ellos haya percibido esa cantidad exactamente. La mediana será de 2,5€ y tampoco ninguno ha percibido esa cantidad. Ahora bien... ¿cuál de las dos medidas nos da una mejor estimación de la esperanza de premio si yo lanzo un dado?. Dicho de otra manera... si yo lanzase el dado 100 veces... ¿qué puedo esperar ganar?. Parece evidente que mis ganancias medias serán cercanas a la media y NO a la mediana.

Y todo ésto es porque la media es un estimador insesgado de la verdadera media poblacional, mientras que la mediana no lo es. Otra cosa es tratar de vender nuestras propias opiniones presentando los datos de forma sesgada... pero eso es harina de otro costal.