sábado, 23 de mayo de 2015

SEMINARIOS ESTADÍSTICA Y TIC. "SEMINARIO 4"

Este es el último seminario antes de la exposición de los proyectos de investigación. En él vemos los contenidos que debe tener nuestro trabajo, y que añadir al protocolo realizado anteriormente. Debido a una mala planificación este cuarto seminario lo hemos tenido pocos días antes de la exposición en el seminario 5, con lo que tenemos poco tiempo para poner en práctica este seminario, mientras otros grupos tienen dos semanas. 

Antes de explicar los contenidos de la exposición realizamos un ejercicio sobre chi cuadrado, para aclarar las posibles dudas. Con este ejercicio entendí mejor como se realiza y los pasos a seguir, mejor que en clase, no es tan difícil.

EJERCICIO REALIZADO EN EL SEMINARIO

Se realiza un estudio sobre expectativas profesionales entre 320 estudiantes de enfermería de una Universidad para conocer si el curso del grado al que pertenece el alumno se relaciona con el tipo de salida profesional que le gustaría tener al estudiante en su futuro profesional. Se obtienen los resultados de la tabla adjunta. Se pide que se contraste la hipótesis oportuna y se llegue a una conclusión sobre la misma. 

Resultados observados


Resultados esperados

H0: No hay relación entre curso del grado al que pertenece el alumno y el tipo de salida profesional que le gustaría tener al estudiante en su futuro profesional.
  • Utilizamos la siguiente fórmula:

$${ x }^{ 2 }=\sum { \frac { { \left( O-E \right)  }^{ 2 } }{ E }  } $$
E= valores esperados
O= valores observados
  • Sustituimos los valores en la fórmula

$${ x }^{ 2 }=\frac { { \left( 20-37,5 \right)  }^{ 2 } }{ 37,5 } +\frac { { \left( 40-37,5 \right)  }^{ 2 } }{ 37,5 } +\frac { { \left( 40-25 \right)  }^{ 2 } }{ 25 } +\frac { { \left( 40-37,5 \right)  }^{ 2 } }{ 37,5 }+$$
$$ +\frac { { \left( 40-37,5 \right)  }^{ 2 } }{ 37,5 } +\frac { { \left( 20-25 \right)  }^{ 2 } }{ 25 } +\frac { { \left( 60-45 \right)  }^{ 2 } }{ 45 } +\frac { { \left( 40-45 \right)  }^{ 2 } }{ 45 } +\frac { { \left( 20-30 \right)  }^{ 2 } }{ 30 } =27,5$$

  • Interpretamos el resultado mirando en la tabla de distribución de chi cuadrado. Al ser una tabla de 3x3 el grado de libertad es 4. Y el error 0,05. Tenemos un valor de 9,49 para este tipo de tabla y este error.

El resultado de chi cuadrado es 27,5, mayor que 9,49, el valor que nos da la tabla de distribución. Entonces rechazamos la hipótesis nula.

Solución: Hay relación entre curso del grado al que pertenece el alumno y el tipo de salida profesional que le gustaría tener al estudiante en su futuro profesional.


A continuación vemos los puntos que debe incluir nuestro trabajo del próximo lunes, entre estos puntos está la introducción  ya realizada en el protocolo. En esta parte tenemos que añadir los resultados y la discusión de estos. Para ello el profesor nos guía para el análisis de los datos obtenido tras haber pasado un cuestionario a una serie de personas. Así como saber escoger los datos más relevantes.



jueves, 21 de mayo de 2015

TEMA 10: "Hipótesis Estadística. Test de Hipótesis."

Último tema y como es poco el tiempo que tenemos, sólo hablamos del contraste de hipótesis mediante Chi cuadrado, la más importante.

Chi cuadrado sirve para el análisis de dos variables cualitativas (dependiente e independiente). 

Errores de hipótesis
Con una misma muestra podemos aceptar o rechazar la hipótesis nula, esto depende del error, α. El error α es la probabilidad de equivocarnos al rechazar la hipótesis. Rechazamos H0 a partir de un error menor de 0,05.

Tipos de errores en test de hipótesis

Test de hipótesis Chi-cuadrado
Construimos dos tablas con las dos variables variables cualitativas (dependiente e independiente). Una tabla recogerá los valores observado, y la otra tabla los valores esperados.
Con los datos de estas dos tablas realizamos la siguiente ecuación de Chi-cuadrado:
$${ x }^{ 2 }=\sum { \frac { { \left( O-E \right)  }^{ 2 } }{ E }  } $$
E= valores esperados
O= valores observados

El resultado de la chi-cuadrado lo miramos en la siguiente tabla.
Tabla de distribución de Chi-cuadrado
Para tener un resultado significativo miramos en la tabla anterior, para que la probabilidad de equivocarnos al rechazar la hipótesis. Rechazamos Ha partir de un error α menor de 0,05 (Miramos la columna de 0,05). Luego miramos la fila según el grado de libertad.

  • Grado de libertad=(nº filas - 1)·(nº columnas - 1)

Para aceptar la H0 el resultado debe ser menor.
Para rechazar la H0 el resultado debe ser mayor.


EJERCICIO REALIZADO EN CLASE
Se observan los siguientes datos según los resultados obtenidos por dos productos diferentes.
Valores observados




N=52 
H0= Silvederma y Blastoestimulina producen similares resultados. 
H1= Silvederma es más efectiva que Blastoestimulina. 
H2= Blastoestimulina es más efectiva que Silvederma. 
  • Calculamos los valores esperados.
Valores esperados

  • Sustituimos en la fórmula con los valores observados y esperados.

$${ x }^{ 2 }=\frac { { \left( 11-13,5 \right)  }^{ 2 } }{ 13,5 } +\frac { { \left( 15-13,5 \right)  }^{ 2 } }{ 13,5 } +\frac { { \left( 10-12,5 \right)  }^{ 2 } }{ 12,5 } +\frac { { \left( 16-12,5 \right)  }^{ 2 } }{ 12,5 } =1,92$$

Con el resultado obtenido miramos la tabla de distribución de chi-cuadrado. Al ser una tabla de 2x2 el grado de libertad es 1. Y el error 0,05. Tenemos un valor de 3,84 para este tipo de tabla y este error.


 El resultado de chi cuadrado es 1,92, menor que 3,84, el valor que nos da la tabla de distribución. Entonces aceptamos la hipótesis nula.

Solución: Silvederma y Blastoestimulina producen similares resultados.



¡Hasta aquí las clases teóricas!

miércoles, 20 de mayo de 2015

TEMA 9: "Estadística inferencial. Muestreo y estimación"

Último día de clases en el que damos los dos últimos temas de la asignatura. En este primero le dedicamos más tiempo puesto que hay que entender diferentes términos para su posterior aplicación. Primero definimos una serie de términos:
  • Población de estudio. Conjunto de individuos que queremos investigar.
  • Muestra. Conjunto de individuos que participan.
  • Tamaño muestral (n). Número de individuos de la muestra.
  • Inferencia estadística. Extrapolación de los datos de la muestra sobre la población de estudio.
  • Técnicas de muestreo. Procedimientos que permiten elegir muestras.
  • Muestreo probabilístico o aleatorio. Ténica de muestreo al azar, quedando asociado a un error aleatorio.
El proceso de inferencia estadística
A partir de una población de estudio queremos conocer un parámetro (variable). De la población hacemos una selección aleatoria para obtener una muestra. De la muestra si podemos sacar la variable, llamada estimador. El estimador lo extrapolamos a la población y obtenemos el parámetro.
Error estándar
El error estándar trata de medir la variabilidad de los valores del estimador respecto a la población.
  • Para una media:
$$e=\frac { S }{ \sqrt { n }  } $$

  • Para una proporción:
$$e=\sqrt { \frac { p\cdot \left( 1-p \right)  }{ n }  } $$

s= desviación típica
n= tamaño de la muestra
p= proporción del estimador

Mientras mayor sea el tamaño de la muestra, menor será el tamaño del error estándar.

Intervalos de confianza
Trata de conocer el parámetro a partir de un nivel de confianza, asegurándonos que la población está dentro de ese intervalo.
$$I.C. parámetro=p\pm z (e.estándar)$$
z=nivel de confianza. 
  • Nivel de confianza 68%, z=1. 
  • Nivel de confianza 95%, z=2. 
  • Nivel de confianza 99%, z=3.
Mientras mayor sea la confianza menor será la precisión.

Cálculo para proporciones:
$$I.C.parámetro=p\pm z\sqrt { \frac { p\cdot \left( 1-p \right)  }{ n }  } $$

EJERCICIO

En un centro de salud se pretende realizar un estudio sobre tabaquismo, para lo que se selecciona una muestra de 337 pacientes. Los enfermeros del centro de salud encontraron que en total en la muestra había 83 fumadores habituales. Se pide que calculemos el intervalo de confianza al 95 y al 99% para la proporción de tabaquismo en el total de población del centro de salud.
     n=337
     83 fumadores
$$p=\frac { 83 }{ 337 } =0,24$$
Para 95%
$$I.C.=0,24\pm 2\sqrt { \frac { 0,24\left( 1-0,24 \right)  }{ 337 }  } $$
=0,284; =0,196
Resultado: población entre 19,6% y 28,4% es fumador con I.C. del 95%

Para 99%
$$I.C.=0,24\pm 3\sqrt { \frac { 0,24\left( 1-0,24 \right)  }{ 337 }  } $$
=0,3 ; =0,18
Resultado: población entre 18% y 30% es fumador con I.C. del 99%

Muestreo Probabilístico
Para tomar una muestra se sigue una técnica de muestreo aleatorio. Según se utilice el azar, utilizaremos un tipo u otro.
  • Aleatorio simple. Sorteo entre todos los individuos de la población de estudio.
  • Aleatorio sistemático. Según un intervalo. Saco un número al azar y empieza a contar con los intervalos.
  • Estratificado. Forzar a subgrupos, dentro del subgrupo escojo al azar.
  • Conglomerado. Se divide a la población en subgrupos. Se selecciona al azar los subgrupos.
Muestreo No Probabilístico
  • Por cuotas. El investigador selecciona según la variable que le interese.
  • Accidental. Sobre individuos disponibles en ese momento.
  • Conveniencia. El investigador decide la muestra.
Tamaño de la Muestra
Se tarta de calcular el tamaño mínimo muestral:
$$n=\frac { { Z }^{ 2 }\cdot { S }^{ 2 } }{ { e }^{ 2 } } $$
El resultado obtenido lo comprobaremos, si cumple la siguiente fórmula se trata del tamaño de la muestra.
$$n>n\cdot \left( n-1 \right) $$
Si ocurre:
$$n<n\cdot \left( n-1 \right) $$
Necesitamos obtener el tamaño de la muestra con la siguiente fórmula:
$$n'=\frac { n }{ 1+\frac { n }{ N }  } $$

Para calcular el tamaño de una muestra cuando queremos estimar una proporción.
$$n=\frac { N\cdot { Z }^{ 2 }\cdot p\left( 1-p \right)  }{ \left( N-1 \right) { e }^{ 2 }+{ Z }^{ 2 }\cdot p\left( 1-p \right)  } $$

EJERCICIO REALIZADO EN CLASE
23.200 estudiantes US. Se quiere conocer cuántos estudiantes utilizan preservativo en sus relaciones sexuales. Por un estudio previo se conoce que el 62% lo utilizaba. Calcula el tamaño muestral con confianza de 95% con margen de error de 3%.
  • Aplicamos la formula:
$$n=\frac { N\cdot { Z }^{ 2 }\cdot p\left( 1-p \right)  }{ \left( N-1 \right) { e }^{ 2 }+{ Z }^{ 2 }\cdot p\left( 1-p \right)  } $$
  • Los valores a sustituir:
    • N=23.200
    • Z=2
    • p=0,62
    • e=0,03
$$n=\frac { 23.200\cdot { 2 }^{ 2 }\cdot 0,62\left( 1-0,62 \right)  }{ \left( 23.200-1 \right) { 0,03 }^{ 2 }+{ 2 }^{ 2 }\cdot 0,62\left( 1-0,62 \right)  } =1002$$
Solución: tamaño de la muestra 1002.

TEMA 8: "Medidas de tendencia central, de posición y de dispersión".

Después del seminario 3 lo dado en clase respecto a este tema me ha resultado más fácil de entender. Hemos estudiado las medidas estadísticas que son las siguientes.

MEDIDAS DE TENDENCIA CENTRAL
  • Media. Suma de todos los valores de la variable (x) entre el total de observaciones (n).
$$\overline { x } =\frac { \sum { x }  }{ n } $$
  • Media ponderada. Igual que la anterior pero para datos agrupados en intervalos.
$$\overline { x } =\frac { \sum { { m }_{ c }\cdot { f }_{ i } }  }{ n } $$
         mc =marca de clase. Media entre los entremos del intervalo.
  • Mediana. Es el valor de la observación que deja el 50% de las observaciones menores y el otro 50% mayores. Se sitúa en medio del porcentaje.
  • Moda. Es el valor que se expresa con mayor frecuencia. Para variables cualitativas y cuantitativas.
MEDIDAS DE POSICIÓN
Para variables cuantitativas, igual que la mediana. Valor que deja a un lado u otro valores de la muestra. Puede ser de varios tipos según cuantas veces se divida la muestra.
  • Percertiles. Se divide en 100 partes
  • Deciles. Se divide en 10 partes.
  • Cuartiles. Se divide en 4 partes.
MEDIDAS DE DISPERSIÓN
  • Rango o recorrido. Tamaño de la muestra.
$$\left| x_{ n }-{ x }_{ 1 } \right| $$
  • Desviación media. Media aritmética de las distancias de cada observador con respecto a la media de la muestra.
$$d_{ m }=\frac { \sum  \left| x_{ i }-\overline { x }  \right|  }{ n } $$
  • Desviación típica (σ). Se trata de la desviación respecto la media. La desviación típica más utilizada es +2σ y -2σ.
$$S=\sqrt { \frac { \sum { \left( { x }_{ i }-\overline { x }  \right) ^{ 2 } }  }{ n-1 }  } $$
  • Varianza. Es la misma que la anterior en valores cuadráticos.
$$S^{ 2 }=\frac { \sum { \left( { x }_{ i }-\overline { x }  \right) ^{ 2 } }  }{ n-1 } $$
  • Coeficiente de variación.
$$c.v.=\frac { S }{ \overline { x }  } $$

DISTRIBUCIONES NORMALES
La distribución normal conocida como campana de Gauss, ya que es simétrica y tiene la forma de una campana.
Con variables continuas que sigan una distribución normal tipificamos valores.


ASIMETRÍA Y CURTOSIS
Asimetrías

Curtosis


Ejercicio
Realizamos problemas para aplicar lo aprendido. A continuación un problema realizado en clase poniendo en práctica todo lo anterior.
  • Sobre datos recogidos de tomas de tensión arterial (n=30) calcular la media, la desviación típica, el coeficiente de variación y dibujar una gráfica. Agruparlos en 5 intervalos.
    • Como son muchos los datos los agrupamos en intervalos, hacemos una tabla de frecuencia según los intervalos.
$$Re=75$$
$$amplitud=\frac { 75 }{ 5 } =15$$


INTERVALOS PESOS
fi
Ʃfi
hi
Ʃhi
[45 – 60]
6
6
0,2
0,2
(60 – 75]
3
9
0,1
0,3
(75 – 90]
12
21
0,4
0,7
(90 – 105]
6
27
0,2
0,9
(105 – 120]
3
30
0,1
1
TOTAL
30

1


$$\overline { x } =\frac { \left( 6\cdot 52,5 \right) +\left( 3\cdot 67,5 \right) +\left( 12\cdot 82,5 \right) +\left( 6\cdot 97,5 \right) +\left( 3\cdot 112,5 \right)  }{ 30 } =81$$

$$S=\sqrt { \frac { 6\left( 52,5-81 \right) ^{ 2 }+3\left( 67,5-81 \right) ^{ 2 }+12{ \left( 82,5-81 \right)  }^{ 2 }+6{ \left( 97,5-81 \right)  }^{ 2 }+3{ \left( 112,5-81 \right)  }^{ 2 } }{ 29 }  }=18,62$$

$$c.v.=\frac { 18,62 }{ 81 } =0,23$$


SEMINARIOS ESTADÍSTICA Y TIC. "SEMINARIO 3"

En el tercer seminario de la asignatura avanzamos en la utilización de EpiInfo. En este caso pasamos al análisis de datos mediante este programa. Con ello repasamos lo dado en las clases teóricas: cálculos de medidas de tendencia central y dispersión variables cuantitativas, cálculos de distribuciones de frecuencia y de intervalos de confianza, cálculos y elaboración de gráficas de sectores, diagramas de barras e histogramas.

Para analizar los datos utilizamos el modo visual, añadimos gadget de analisis, y medias. Dentro de medias elegimos cual queremos analizar, en este caso "age".

  • Observaciones. Número de valores observables por el investigador (n).
  • Media. Suma de todos los valores de la variable (x) entre el total de observaciones (n).
$$\overline { x } =\frac { \sum { x }  }{ n } $$
  • Mediana. Es el valor de la observación que deja el 50% de las observaciones menores y el otro 50% mayores. Se sitúa en medio del porcentaje.
  • Moda. Es el valor que se expresa con mayor frecuencia.
  • Mín. Es el mínimo valor registrado.
  • Max. Es el máximo valor registrado.
  • 25%. Se trata de un cuartil. Marca el valor que deja por debajo al 25% de las obsevaciones.
  • 75%. Se trata de un cuartil. Marca el valor que deja por debajo al 75% de las obsevaciones.
  • Desviación típica (σ). Se trata de la desviación respecto la media. La desviación típica más utilizada es +2σ y -2σ.
$$S=\sqrt { \frac { \sum { \left( { x }_{ i }-\overline { x }  \right) ^{ 2 } }  }{ n-1 }  } $$

  • Varianza. Es la misma que la anterior en valores cuadráticos.
$$S^{ 2 }=\frac { \sum { \left( { x }_{ i }-\overline { x }  \right) ^{ 2 } }  }{ n-1 } $$

Según la grafica si es simétrica o asimétrica (hacia la derecha o hacia la izquierda).
Repasamos los percentiles, las medidas de centralización, las medidas de dispersión. Además añadimos conocimientos que veremos posteriormente en clase como es la medida de apuntamiento o curtosis.
Curtosis
Con EpiInfo realizamos tablas de frecuencia. Las tablas de frecuencia nos muestra el porcentaje de cada una de las variables. Para añadir la tabla de frecuencia añadimos gadget de analisis, frecuencia. Ya elegimos sobre cual queremos la frecuencia.

También podemos añadir variables por intervalos, y ver de esta la frecuencia.

A través de la tabla de 2x2 podemos ver como actúan dos variables, la variable dependiente y la variable independiente. Para saber cuál es el alimento que han tomado los enfermos asistentes a la boda, lo realizamos con las variables enfermo o no enfermo y tomó vainilla o no tomó vainilla. Para saber si hay relacción o no observamos la Chi cuadrado, si esta es menor de 0,05 rechazamos la hipótesis nula, como es nuestro caso. El helado de vainilla es el causante de los enfermos en la boda.

Aprendemos como poner en EpiInfo gráficas de sectores (pie chart) o diagrama de barras (column chart). Además de como cambiar los colores de ambas gráficas.
Gráfica de sectores
Diagrama de barras
Este seminario me ha sido de gran utilidad ya que me ha ayudado a repasar y tener más claro los términos dados en las clases teóricas. La utilización de EpiInfo no me resulta tan difícil como creía al principio, poco a poco es fácil de utilizar.

TEMA 7: "Introducción a la bioestadística. Organización de datos."

En este tema entramos en mayor profundidad en la estadística, definida como la ciencia que estudia la variabilidad.


Para las variables se utilizan escalas diferentes:
  • Escala nominal: Consiste en clasificar objetos o fenómenos en variables sin que implique ninguna relación de orden. Ej: Cuando un producto se marca de acuerdo al cumplimiento de las especificaciones de diseño como "conforme y no conforme" o "crítico, grave, y menor". No se obtienen valores numéricos y no se puede realizar un orden de las observaciones con sentido.
  • Escala ordinal: Se les da una relación de orden a las variables, relación de igualdad, desigualdad y orden. Esta escala llamada también escala de orden jerárquico. Ej: valoración de la calidad del servicio: 1 (excelente), 2 (bueno), 3 (regular), 3 (malo) 4 (pésimo). Estos datos son ordinales. Note que una valoración de 1 no indica que el servicio es dos veces mejor que cuando se da una valoración de 2. Sin embargo podemos decir que la valoración de 1 es preferiblemente mejor que 2, y así en los demás casos.
  • Escala de intervalo: Presenta las características de las dos escalas anteriores, identidad y orden. Representando un nivel de medición más preciso, matemáticamente. En una escala de intervalo, el punto cero y la unidad de medida son arbitrarios. Por lo que no se pueden sacar proporciones. Ej: la temperatura.

TIPO DE VARIABLES

Cualitativas. Propiedades que no pueden ser medidas.
  • Nominales. Que pueden ser dicotómicas si se trata de dos variables o policotómicas si son más de dos variables. 
  • Ordinales.
Cuantitativas: Medibles en términos numéricos. Utilizadas en escalas de intervalo y de razón.
  • Discreta. No pueden ser números fraccionados, son nº enteros. Ej: nº de hijos:1,2,3...
  • Continuas. Cualquier tipo de número dentro de un rango. Puede estar fraccionada. Ej: peso, talla, tensión arterial.
La variable discreta no la podemos convertir en continua, pero al contrario sí.

REPRESENTACIÓN DE DATOS
La realizamos mediante tablas de frecuencia. Las columnas muestran la frecuencia y las filas y las distintas variables en filas.

Frecuencia absoluta = f
Frecuencia relativa = h
Lo vemos con un ejemplo realizado en clase sobre el peso el kg de niños atendidos en la consulta del niño sano (N= 40):
   1.Calculamos el recorrido (dominio) Re = Xn – X1 = 6,1 - 3,3 = 2,8
   2.Conocer el nº de intervalos 
$$\sqrt { n } $$
$$\sqrt { 40 } =\quad 6,32\xrightarrow  \quad 6\quad intervalos$$

   3. Amplitud de los intervalos (recorrido/nº de intervalos)
$$amplitud=\frac { 2,8 }{ 6 } =0,46\xrightarrow {  } 0,5$$
   4. Realizamos la tabla
INTERVALOS PESOS
fi
Ʃfi
hi
Ʃhi
[3,3 – 3,8]
3
3
0,075
0,075
(3,8 – 4,3]
11
14
0,275
0,35
(4,3 – 4,8]
12
26
0,3
0,65
(4,8 – 5,3]
7
33
0,175
0,825
(5,3 – 5,8]
4
37
0,1
0,925
(5,8 – 6,3]
3
40
0,075
1
TOTAL
40

1


REPRESENTACIÓN GRÁFICA
Es una forma rápida de transmitir la información numérica, ofreciendo orientación visual. Existen varios tipos de gráficas:
  • Diagrama de barra. Para variables cualitativas

  • Histograma. Para variables continuas.
En este histograma queda dibujado el polígono de frecuencia.

Polígono de frecuencia
  • Gráfico de tronco y hojas. Para variables continuas.
Cada dato de la serie se divide en dos partes: El tronco (decenas) y las hojas (unidades).
  • Gráficos para datos bidimensionales. Para variables cualitativas, con pocas opciones.