ESTADISTICA: junio 2012

lunes, 4 de junio de 2012

PROBABILIDAD Y ESTADISTICA

¿Que es la frecuencia? Es la medida de para   indicar el numero de repeticiones que cualquier fenómeno o suceso en la unidad de cambio.

¿Qué es la frecuencia absoluta? Es aquella que expresa el número de veces en que total aparece un determinado resultado dentro de nuestra estadística.

¿Qué es la frecuencia relativa? Es el cociente entre la frecuencia absoluta de un determinado resultado aparecidos que conforman y muestran la estadística.

¿Qué es la grafica? Es un representación de da tos generalmente numéricos, mediante líneas superficiales o símbolos.

¿Qué es el rango? Algo que responde a la identificación de la dispersión de los datos de una muestra, es el rango el cual se define como, la diferencia entre el dato mayor menos el dato menor de un conjunto de datos.

Medidas de centralización: indica los valores más representativos de un conjunto de datos, y las medidas relacionadas con esta son:

Media aritmética

Mediana

Moda



Medidas de dispersión: se utiliza para medir el grado de dispersión que existe en la distribución, con ella se relacionan:

Recorrido o amplitud

Recorrido intercuartilico

Desviación media

Varianza

Desviación típica

Coeficiente de variación

Medidas de posición: nos informa el lugar que ocupa un dato dentro de un conjunto de ordenándose valores.

®Cuartiles            ® Percentiles

Estadística: Esla ciencia que se ocupa de la recopilación de datos, de su organización y análisis, así como las predicciones a partir de que estos datos puedan hacerse.

Probabilidad: mide la frecuencia con la que se obtiene un resultado o conjunto de datos, al llevar acabo experimentos aleratorios del que se conocen todos los resuldos posibles bajo condiciones suficientemente estables.

Ejercicios:

Frecuencias: ●Absoluta (fi) ●Relativa (ni)   ●Porcentual (pi)

2, 3, 5, 4, 2, 1, 8, 7, 9, 7,

1, 0, 2, 3, 7, 4, 3, 2, 2, 1,

0, 0, 2, 6, 5, 6, 4, 3, 8, 9.

Fi

FI

ni

NI

Pi

PI%

0

3

3

0.1

0.1

10

1

3

6

0.1

0.2

20

2

6

12

0.2

0.4

40

3

4

16

0.133

0.533

53.3

4

3

19

0.1

0.633

63.3

5

2

21

0.066

0.699

69.9

6

2

23

0.066

0.765

76.5

7

3

26

0.1

0.865

86.5

8

2

28

0.066

0.95

93.1

9

2

30

0.066

0.997

99.7

N=30

RANGO

Xi

Fi

FI

ni

NI

pi

PI

0-5

2.5

3

3

0.075

0.75

7.4

7.5

5-10

7.5

6

9

0.15

0.225

15

22.5

10-15

12.5

7

16

0.175

0.4

17.5

40

15-20

17.5

6

22

0.15

0.55

15

55

20-25

22.5

4

26

0.1

0.65

10

65

25-30

27.5

5

31

0.125

0.775

12.5

77.5

30-35

32.5

3

34

0.075

0.85

7.5

85

35-40

37.5

3

37

0.075

0.925

7.5

92.5

40-45

42.5

3

40

0.075

1

7.5

100

N=40

FORMULAS PARA MEDIDAS DE CENTRALIZACIONCON DATOS AGRUPADOS

MEDIA ARITMETICA: Es el valor obtenido por la suma de datos, sus valores de datos dividida entre el número de datos sumados.

Dado un conjunto numérico de datos_x1,x2,xn…se define su mediad aritmética como:

MEDIA ARITMETICA PONDERADA: A veces es útil otorgar pesos o valores a los datos dependiendo de su relevancia para un determinado estudio. En esos casos se puede utilizar una media ponderada. Si _x1,x2…,xn_, son estos números (datos) y w1,w2…wn, son “pesos” respectivos la media ponderada se define de la siguiente manera.

MEDIA MUESTRAL: Es el mismo parámetro que el anterior aunque el objetivo “muestra” se aplica a aquellas situaciones en las que la media aritmética se calcula para un subconjunto de aplicación de objeto de estudio. La media muéstrales un parámetro de extrema importancia en la inferencia de la estadística, siendo de gran utilidad para estimación de la media población, entre otros usos.

MODA: Es el dato más repetido el valor de las variables con mayor frecuencia absoluta. En cierto   sentido la definición matemática corresponde a la locución “estar de moda”.

MEDIANA: Es un valor de la variable que deja por debajo de si a la mitad de los datos, una vez que estos están ordenados de menor a mayor.

NI-1<n/2<NI=N19<19.5<20 MEDIANA

Li Li

Xi

fi

FI

ni

NI

pi

PI

xi-ni

0-5

2.5

7

7

0.07

0.07

7

7

17.5

5-10

7.5

15

22

0.156

0.22

15

22

112.5

10-15

12.5

10

32

0.104

0.32

10

32

125

15-20

17.5

14

46

0.145

0.46

14

46

245

20-25

22.5

27

73

0.28

0.74

28

74

607.5

25-30

27.5

11

84

0.11

0.85

11

85

302.5

30-35

32.5

4

88

10.04

0.89

4

89

130

35-40

37.5

8

96

0.08

0.97

8

97

300

N=96

MEDIANA= Li + (  – Fi)

Li= Límite inferior.

I= Amplitud de rango.

Fi= Frecuencia absoluta.

N= Numero de cuentas.

FI=Frecuencia absoluta aculada

  MEDIDAS DE POSICION

Las Medidas de Posición, también conocidas como Otras Medidas de Dispersión, son otras medidas o métodos que resultan ser más prácticos para precisar ciertas situaciones en las que se busca describir la variación o dispersión en un conjunto de datos.

CUANTILES

Los cuantiles son medidas de posición que se determinan mediante un método que determina la ubicación de los valores que dividen un conjunto de observaciones en partes iguales.

Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes.

Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles, cuando dividen la distribución en diez partes y los centiles o percentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensión de la mediana.

Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u):

u

Q(u)

0.5

Mediana

0.25, 0.75

Cuartiles

0.1, ... , 0.99

Deciles

0.01, ..., 0.99

Centiles

CUARTILES

Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.

Datos Agrupados

Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente:

k= 1,2,3

Donde:

Lk = Límite real inferior de la clase del cuartil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.

fk = Frecuencia de la clase del cuartil k

c = Longitud del intervalo de la clase del cuartil k

Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:

·         El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.

Fórmula de Q1, para series de Datos agrupados:

Donde:

L1 = límite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase

·         El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores.

Fórmula de Q2, para series de Datos agrupados:

Donde:

L1 = límite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase

·         El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones.

Fórmula de Q3, para series de Datos agrupados:

Donde:

L1 = límite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase.

Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.

Para Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

- El primer cuartil:

Cuando n es par:

Cuando n es impar:

Para el tercer cuartil

Cuando n es par:

Cuando n es impar:

DECILES

Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc.

Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico.

Datos Agrupados

Para datos agrupados los deciles se calculan mediante la fórmula.

k= 1,2,3,... 9

Donde:

Lk = Límite real inferior de la clase del decil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.

fk = Frecuencia de la clase del decil k

c = Longitud del intervalo de la clase del decil k

Otra fórmula para calcular los deciles:

·         El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es superado por el 60% de las observaciones.

·         El quinto decil corresponde a la mediana.

·         El noveno decil supera al 90% y es superado por el 10% restante.

Donde (para todos):

L1 = límite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase.

Fórmulas Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

Cuando n es par:

Cuando n es impar:

Siendo A el número del decil.

CENTILES O PERCENTILES

Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc.

Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.

Datos Agrupados

Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la fórmula:

k= 1,2,3,... 99

Donde:

Lk = Límite real inferior de la clase del decil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.

fk = Frecuencia de la clase del decil k

c = Longitud del intervalo de la clase del decil k

MEDIDAS DE DISPERCION

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

Las medidas de dispersión son:

Rango o recorrido

El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística.

Desviación media

La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética.

Di = x - x

La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

La desviación media se representa por

Ejemplo

Calcular la desviación media de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Desviación media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:

Ejemplo

Calcular la desviación media de la distribución:

xi

fi

xi · fi

|x - x|

|x - x| · fi

[10, 15)

12.5

3

37.5

9.286

27.858

[15, 20)

17.5

5

87.5

4.286

21.43

[20, 25)

22.5

7

157.5

0.714

4.998

[25, 30)

27.5

4

110

5.714

22.856

[30, 35)

32.5

2

65

10.174

21.428

21

457.5

98.57

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

La varianza se representa por .

Varianza para datos agrupados

Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Varianza para datos agrupados

Ejercicios de varianza

Calcular la varianza de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Calcular la varianza de la distribución de la tabla:

xi

fi

xi · fi

xi2 · fi

[10, 20)

15

1

15

225

[20, 30)

25

8

200

5000

[30,40)

35

10

350

12 250

[40, 50)

45

9

405

18 225

[50, 60

55

8

440

24 200

[60,70)

65

4

260

16 900

[70, 80)

75

2

150

11 250

42

1 820

88 050

Propiedades de la varianza

1 La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.

2 Si a todos los valores de la variable se les suma un número la varianza no varía.

3 Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número.

4 Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total.

Si todas las muestras tienen el mismo tamaño:

Observaciones sobre la varianza

1 La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas.

2 En los casos que no se pueda hallar la media tampoco será posible hallar la varianza.

3 La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado.

Desviación típica

La desviación típica es la raíz cuadrada de la varianza.

Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.

La desviación típica se representa por σ.

Desviación típica para datos agrupados

Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Ejercicios de desviación típica

Calcular la desviación típica de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Calcular la desviación típica de la distribución de la tabla:

xi

fi

xi · fi

xi2 · fi

[10, 20)

15

1

15

225

[20, 30)

25

8

200

5000

[30,40)

35

10

350

12 250

[40, 50)

45

9

405

18 225

[50, 60)

55

8

440

24 200

[60,70)

65

4

260

16 900

[70, 80)

75

2

150

11 250

42

1 820

88 050

UNIDAD I

LOS DATOS Y LA ECONOMÍA ESTADÍSTICA

LA ESTADÍSTICA EN LA ADMINISTRACIÓN Y LA ECONOMÍA

La Estadística es mucho más que sólo números apilados y gráficas. Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc. se nombran entre los más destacados clientes de ésta, su ausencia conllevaría a un caos generalizado, dejando a los administradores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre.

La Estadística es una disciplina que utiliza recursos matemáticos  para organizar y resumir una gran cantidad de datos obtenidos de la realidad.

Es importante en mi carrera de Administración de Empresas ya que la estadística es la que da las bases y fórmulas cuantitativas y cualitativas, mediante las cuales debe basarse la contabilidad para determinar el funcionamiento económico de la empresa
porque tomando datos anteriores se puede proyectar el comportamiento de la producción de las ventas, los gastos, las perdidas y todo lo referente a ésta, y así en un futuro cercano poder realizar las diferentes estrategias que se requieran para evitar problemas mas adelante.

La estadística es importante para una empresa dado que es esencial para predecir a tiempo los niveles de demanda de sus productos, se necesita para reconocer a tiempo los cambios de tendencia, además permite tomar decisiones que ayuden a corregir problemas de calidad y productividad, se requiere contar con datos estadísticos tanto par fijar precios como para aumentar la rentabilidad.

La administración de empresas como una ciencia económica no es la excepción, esta información se conforma varias veces en datos estadísticos, que deben ser interpretados de la mejor forma y de acuerdo a cada situación por el personal ejecutivo y administrativo de la compañía, por lo tanto no se puede gerenciar lo que no se puede evaluar. La medición de los procesos valiéndose de la información estadística es clave en la consecución de las metas y objetivos empresariales, por lo tanto si la administración no está en capacidad de medir la información como puede mejorar, controlar e implementar mejoras.

La ausencia continua de datos estadísticos al interior de la organización impide una administración verdadera, clara y menos compleja, realizar predicciones basadas más en la intuición o en simples supuestos, tomar decisiones desconociendo las probabilidades de alcanzar los objetivos, son algunos de los problemas o inconvenientes más comunes hallados en las empresas, tomar decisiones, dirigir o realizar una función administrativa con datos intuitivos es lo que contribuye a que las empresas se equivoquen en sus negocios y por lo general si no cierran sus puertas, si hacen que sean empresas sin utilidades o más del montón, de la administración depende el buen uso que se dé a los datos estadísticos lo cual hace la diferencia entre las compañías, estos datos al interior se utilizan en procesos de producción, contables, financieros y económicos.

Datos estadísticos

La presentación de datos estadísticos constituye en sus diferentes modalidades uno de los aspectos de más uso en la estadística descriptiva. A partir podemos visualizar a través de los diferentes medios escritos y televisivos de comunicación masiva la presentación de los datos estadísticos sobre el comportamiento de las principales variables económicas y sociales, nacionales e internacionales.

1-Presentación escrita: Esta forma de presentación de informaciones se usa cuando una serie de datos incluye pocos valores, por lo cual resulta más apropiada la palabra escrita como forma de escribir el comportamiento de los datos; mediante la forma escrita, se resalta la importancia de las informaciones principales.

2-Presentación tabular: Cuando los datos estadísticos se presentan a través de un conjunto de filas y de columnas que responden a un ordenamiento lógico; es de gran eso e importancia para el uso e importancia para el usuario ya que constituye la forma más exacta de presentar las informaciones. Una tabla consta de varias partes, las principales son las siguientes:

1)Título

Es la parte más importante del cuadro y sirve para describir todo el contenido de este.

Encabezados: Son los diferentes subtítulos que se colocan en la parte superior de cada columna.

Columna matriz: Es la columna principal del cuadro.

Cuerpo: El cuerpo contiene todas las informaciones numéricas que aparecen en la tabla.

Fuente: La fuente de los datos contenidos en la tabla indica la procedencia de estos.

2) Notas al pie

Son usadas para hacer algunas aclaraciones sobre aspectos que aparecen en la tabla o cuadro y que no han sido explicados en otras partes.

3) Presentación gráfica:

Proporciona al lector o usuario mayor rapidez en la comprensión de los datos, una grafica es una expresión artística usada para representar un conjunto de datos.

De acuerdo al tipo de variable que vamos a representar, las principales graficas son las siguientes:

Histograma: Es un conjunto de barras o rectángulos unidos uno de otro, en razón de que lo utilizamos para representar variables continuas.

Polígono de frecuencias: Esta grafica se usa para representar los puntos medios de clase en una distribución de frecuencias

Gráfica de barras: Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para representar variables discretas; las barras deben ser de igual base o ancho y separadas a igual distancia. Pueden disponerse en forma vertical y horizontal.

Gráfica lineal: Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o sea, se usan para representar tiempo cronológicas.

Gráfica de barra 100% y gráfica circular: se usan especialmente para representar las partes en que se divide una cantidad total.

La ojiva: Esta grafica consiste en la representación de las frecuencias acumuladas de una distribución de frecuencias. Puede construirse de dos maneras diferentes; sobre la base "menor que" o sobre la base "o más". Puede determinar el valor de la mediana de la distribución.

En estadística denominamos gráficos a aquellas imágenes que, combinando la utilización De sombreado, colores, puntos, líneas, símbolos, números,texto y un sistema De referencia (coordenadas), permiten presentar información cuantitativa.

La utilidad De los gráficos es doble, ya que pueden servir no sólo como sustituto a las tablas, sino que también constituyen por sí mismos una poderosa herramienta para el análisis De los datos, siendo en ocasiones el medio más efectivo no sólo para describir y resumir la información, sino también para analizarla.

En este trabajo solo nos vamos a centrar únicamente en los gráficos como vehículo de presentación de datos, sin abordar su otra faceta como herramienta de análisis.

Distribución de frecuencia

Gráficos estadísticos

Los gráficos son medios popularizados y a menudo los más convenientes para presentar datos, se emplean para tener una representación visual de la totalidad de la información. Los gráficos estadísticos presentan los datos en forma de dibujo de tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos con otros.

Gráficos de barras horizontales

Representan valores discretos a base de trazos horizontales, aislados unos de otros. Se utilizan cuando los textos correspondientes a cada categoría son muy extensos.

·         para una serie

·         para dos o más series

Gráficos de barras proporcionales

Se usan cuando lo que se busca es resaltar la representación de los porcentajes de los datosque componen un total. Las barras pueden ser:

Verticales

Horizontales

Fuente de datos

Definición del problema o tema investigar: el objetivo básico de esta etapa es conocer qué área quieres investigar y que fijes los límites de la información a conocer, es decir, hasta dónde quieres llegar con tu investigación

Investigación preliminar: mediante la revisión de fuentes secundarias o entrevistas a personas relacionadas con el tema, selecciona las variables importantes objeto de estudio.

Determinación de los objetivos específicos: debes precisar con el detalle suficiente las modalidades que puede presentar cada variable seleccionada a investigar y, en el caso de que sea numérica, la unidad de medida de la variable.

Diseño de la investigación: especifica los siguientes aspectos:

o    Selección de las fuentes de información.

o    Especificación del método de recogida: tipo de encuesta (personal, telefónica, postal)

o    Diseño del formato de recogida de datos (borrador del cuestionario y pruebas)

o    Diseño muestral a emplear

o    Presupuesto y planificación temporal.

5.     Recogida de los datos: es necesario que seas cuidadoso al recoger los datos, evita influir en los encuestados, para evitar errores que puedan afectar a los resultados.

6.     Procesamiento de los datos: en primer lugar depura los datos, revisando los cuestionarios y graba las respuestas mediante códigos numéricos en el programa informático elegido para hacer el análisis (hoja de cálculo, paquete estadístico o base de datos).

7.     Analiza los resultados e interprétalos: calcula estadísticos resumen (frecuencias, porcentajes, medias) de cada variable objeto de estudio. También, puedes elaborar tablas cruzadas entre dos variables.

8.     Elaboración del informe: presenta los resultados más importantes que hayas logrado en tu investigación. Combina tablas y gráficos para hacer más atractiva la presentación de estos resultados.

¿QUE ES LA ESTADÍSTICA DESCRIPTIVA?

La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables.

Las variables pueden ser de dos tipos:

Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).

Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).

Las variables también se pueden clasificar en

Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alumnos de una clase).

Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y altura de los alumnos de una clase).

Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad, altura y peso de los alumnos de una clase).

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas

Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podrá ser 3,45).

Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.

Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos

Individuo

cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.

Población

conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad.

Muestra

subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.

Estadística inferencial

La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos para deducir propiedades de una población estadística, a partir de una pequeña parte de la misma. La estadística inferencial comprende como aspectos importantes:

§ La toma de muestras o muestreo.

§ La estimación de parámetros o variables estadísticas.

§ El contraste de hipótesis.

§ El diseño experimental.

§ La inferencia bayesiana.

§ Los métodos no paramétricos

Muestreo en estadística

En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población.

Al elegir una muestra se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población.

Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad alta.

En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción, sigue la llamada distribución muestral.

Planteamiento del problema

Un problema de inferencia estadística suele iniciarse con una fijación de objetivos o algunas preguntas del tipo:

¿Cuál será la media de esta población respecto a tal característica?

¿Se parecen estas dos poblaciones?

¿Hay alguna relación entre...?

En el planteamiento se definen con precisión la población, la característica a estudiar, las variables, etc.

Elaboración de un modelo

Se establece un modelo teórico de comportamiento de la variable de estudio. En ocasiones no es posible diseñar el modelo hasta realizar un estudio previo.

Los posibles modelos son distribuciones de probabilidad.

Extracción de la muestra

Se usa alguna técnica de muestreo o un diseño experimental para obtener información de una pequeña parte de la población.

Tratamiento de los datos

En esta fase se eliminan posibles errores, se depura la muestra, se tabulan los datos y se calculan los valores que serán necesarios en pasos posteriores, como la media muestral, la varianza muestral

Los métodos de esta etapa están definidos por la estadística descriptiva.

UNIDAD II

ESTADISTICA DESCRIPTIVA: MÉTODOS TABULACIONES Y GRÁFICAS

RECOLECCIÓN DE DATOS CUALITATIVOS

Los datos cualitativos consisten en la descripción detallada de situaciones, eventos, personas, comportamientos observables, citas textuales de la gente sobre sus experiencia, actitudes, creencias y pensamientos.

Estos datos cualitativos pueden recogerse utilizando instrumentos como: grabación de entrevistas individuales, videos de observaciones de eventos particulares, testimonios escritos de las personas con respecto al tema a investigar, fotografías, historias de vida, documentos escritos como: actas, recortes de prensa.

Cuando se realiza una investigación cualitativa ,se exige la participación del grupo, se definir el problema a investigar, y el investigador principal debe ser un buen coordinador, mediador y facilitador para que genere un proceso de comunicación con el grupo.

Una vez determinado el equipo de investigación y la planificación del trabajo de campo, el investigador principal debe tener en claro los objetivos, las etapas, y las actividades a realizar en cada salida de campo.

Ante todo el investigador debe visualizar y prever con anticipación las situaciones que se puedan presentar durante su estadía en la comunidad.

Luego se recomienda una elaboración de guías de trabajo de campo, sin descuidar los objetivos principales.

Para garantizar el cumplimiento de estos planes de actividades, el equipo investigador debe reunirse al final de cada jornada para evaluar las tareas realizadas y programar las siguientes.

Los instrumentos que mas se utilizan en los datos cualitativos son:

Entrevistas individuales: se define como una conversación, verbal, cara a cara y tiene como propósito conocer lo que piensa o siente una persona con respecto un tema en particular.

Esta clase de entrevista permite preguntar sobre cuestiones mas complejas con mayor detenimiento, produce por parte del entrevistado mayor participación.

Entrevistas a grupos focales: Es rápida, oportuna, válida y poco costosa, también constituye una fuente importante de información para comprender las actitudes y creencias, saber cultural, y las percepciones de una comunidad.

Esta entrevista es un medio para recolectar en poco tiempo información cualitativa, por lo general con grupos de

6 a 12 personas, y se divide en 2 componentes esenciales.

·         El contenido de la información ( lo que se dice).

·         El proceso de la comunicación (como se dice ).

Para realizar una entrevistas focales, el responsable debe manejar entrevistas individuales y saber técnicas para la dinámica en grupo.

Observación: Constituye un conjunto de técnicas que permiten al investigador adquirir conocimientos por medio de la observación directa y el registro de fenómenos.

En la observación será necesario tener en cuenta dos aspectos importante que pueden influir en el resultado obtenido tras la misma, es el ocultamiento y la intervención. En el ocultamiento el individuo observado puede percatarse de la presencia del observador y distorsionar la conducta. La intervención denota el grado en que el investigador, a diferencia de un observador pasivo, estructura el ámbito de observación en respuesta a las necesidades del estudio.

Los métodos de observación varían según su estructura, así tenemos la observación no estructurada que emplea el procedimiento de la observación participante en la que el investigador actúa como observador y se familiariza con el lugar para posteriormente volverse participante activo.

Los métodos de observación estructurada imponen una serie de limitantes al observador, con el propósito de incrementar su precisión y objetividad, a fin de obtener una representación adecuada del fenómeno de interés.

El papel del entrevistador es muy importante, porque él es un facilitador del proceso de comunicación entre dos personas, su papel es inducir profundidad y detalle en las opiniones del entrevistado, debe inspirar confianza, escuchar activamente y atender el comportamiento verbal y no verbal de la persona que habla.

“Según Patton: la entrevista cualitativa puede tomar las siguientes formas:

Entrevista informal conversacional, entrevista estructurada con una guía y entrevista estandarizada.”

La entrevista informal conversacional: las preguntas se formulan en torno a un asunto que se explora ampliamente sin utilizar un guía que delimite el proceso.

La entrevista estructurada con un guía: procura un marco de referencia a partir del cual se plantean los temas pertinentes al estudio y posibilita un proceso de recolección, y facilita un mejor manejo de la información.

La entrevista estandarizada: Organiza y formaliza el proceso de recolección, este tipo de entrevistas es pertinente cuando hay más de una persona responsable de recolectar información.

Una vez definida la modalidad de pregunta el investigador debe tomar una decisión para relacionar el tipo de pregunta, la secuencia, el nivel de detalles, y la duración de la entrevista.

Los tipos de preguntas pueden ser:

·         Preguntas sobre experiencias o comportamientos: lo que hacen o ha hecho una persona.

·         Pregunta sobre sentimientos: respuestas emocionales de las personas.

·         Preguntas sobre opinión: lo que ellos piensan.

·         Preguntas sobre conocimientos: lo que las personas saben específicamente.

·         Preguntas sobre sensaciones: lo que ven, oyen, tocan.

·         Preguntas de carácter histórico: características del informante.

Es recomendable comenzar las entrevistas con preguntas descriptivas, sobre comportamientos, actividades, o experiencias, temas que requieran poca memoria, e interpretación y sean fáciles de contestar.

Se recomienda plantear preguntas abiertas para que la persona entrevistadas responda en sus propios términos y seleccione sus propias categorías.

También se debe evitar hacer preguntas dicótomas, porque inducen respuestas de si o no.

Al realizar la entrevista de debe iniciar con la presentación del investigador y explicar el objetivo de la misma, dar a conocer los temas a tratar en la entrevista.

La calidad de los datos de una entrevista depende estrechamente de las aptitudes de relación interpersonal del entrevistador, quien debe procurar crear un clima tranquilo para la entrevista y entablar con los informantes un nivel satisfactorio de comunicación.

DATOS CUANTITATIVOS

La investigación cuantitativa es aquella en la que se recogen y analizan datos cuantitativos sobre variables.

La investigación cualitativa evita la cuantificación. Los investigadores cualitativos hacen registros narrativos de los fenómenos que son estudiados mediante técnicas como la observación participante y las entrevistas no estructuradas. La diferencia fundamental entre ambas metodologías es que la cuantitativa estudia la asociación o relación entre variables cuantificadas y la cualitativa lo hace en contextos estructurales y situacionales. La investigación cualitativa trata de identificar la naturaleza profunda de las realidades, su sistema de relaciones, su estructura dinámica. La investigación cuantitativa trata de determinar la fuerza de asociación o correlación entre variables, la generalización y objetivación de los resultados a través de una muestra para hacer inferencia a una población de la cual toda muestra procede. Tras el estudio de la asociación o correlación pretende, a su vez, hacer inferencia causal que explique por qué las cosas suceden o no de una forma determinada.

Las diferencias más ostensibles entre ambas metodologías se muestran en la tabla. Los fundamentos de la metodología cuantitativa podemos encontrarlos en el positivismo que surge en el primer tercio del siglo XIX como una reacción ante el empirismo que se dedicaba a recoger datos sin introducir los conocimientos más allá del campo de la observación. Alguno de los científicos de esta época dedicados a temas relacionados con las ciencias de la salud son Pasteur y Claude Bernard, siendo este último el que propuso la experimentación en medicina^. A principios del siglo XX, surge el neopositivismo o positivismo lógico siendo una de las aportaciones más importantes la inducción probabilística. La clave del positivismo lógico consiste en contrastar hipótesis probabilísticamente y en caso de ser aceptadas y demostradas en circunstancias distintas, a partir de ellas elaborar teorías generales. La estadística dispone de instrumentos cuantitativos para contrastar estas hipótesis y poder aceptarlas o rechazarlas con una seguridad determinada. Por tanto el método científico, tras una observación, genera una hipótesis que contrasta y emite posteriormente unas conclusiones derivadas de dicho contraste de hipótesis.

El contrastar una hipótesis repetidamente verificada no da absoluta garantía de su generalización ya que, como señala Karl Popper, no se dispone de ningún método capaz de garantizar que la generalización de una hipótesis sea válida. Con el ejemplo de los cisnes, K. Popper rebatía las tesis neopositivistas sobre la generalización de las hipótesis.. "todos los cisnes de Austria eran blancos... no se dispone de datos sobre el color de los cisnes fuera de Austria..., todos los cisnes son blancos...". En el momento actual no hay ningún método que garantice que la generalización de una hipótesis sea válida, pero sí se puede rebatir una hipótesis con una sola evidencia en contra de ella. Es por ello que la ciencia, como señala K. Popper "busca explicaciones cada vez mejores".

^{Datos Cuantitativos}

^{Datos que pueden ser contados (llamados
"datos discretos") o medidos (llamados "datos continuos").}

Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de cantidad.

Ejemplo:

Si deseamos clasificar los estudiantes que cursan la materia de estadística I por su estado civil, observamos que pueden existir solteros, casados, divorciados, viudos.

TABULACIONES CRUZADAS Y DIAGRAMAS DE DISPERSIÓN

INTRODUCCIÓN

Este documento describe el proceso completo a seguir para analizar la

Existencia de una relación lógica entre dos variables.

Describe la construcción de los Diagramas de Dispersión a partir de la recogida

de datos acerca de dichas variables y el análisis posterior necesario para

Confirmar la correlación que puede mostrar dicho diagrama, ya que ésta no

Implica la existencia de una relación lógica.

DIAGRAMA DE DISPERSIÓN

La representación gráfica más útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables x1y x2 Para obtener un diagrama de dispersión la secuencia es:

Gráficos

Dispersión

El cuadro de diálogo siguiente:

recoge diferentes tipos de diagramas de dispersión. Éstos pueden ser:

1. Simple: si el diagrama sólo recoge el comportamiento simultáneo de dos variables, una definida en el eje X (abscisas) y la otra en el eje Y (ordenadas). Con el botón Definir se abre el siguiente cuadro:

En Eje X se selecciona la variable que se considera independiente y en Eje Y la dependiente.

En Establecer marcas por puede indicarse alguna variable de control cuyas categorías o valores se representan con un símbolo o color distintivo. Esto permite identificar los puntos pertenecientes a cada categoría y poner de manifiesto si existen comportamientos diferenciados.

En Etiquetar los casos mediante se puede indicar alguna variable cuyos valores se tomarán como etiquetas de los casos. Para visualizar las etiquetas es preciso activar la opción Mostrar el gráfico con las etiquetas de caso del cuadro de diálogo Opciones.

El botón Títulos ofrece la posibilidad de definir dos líneas de título y un subtítulo, y dos líneas de nota al pie del gráfico.



La tabulación cruzada: Es el proceso de creación de una tabla de contingencia desde la distribución de frecuencias multivariada de las variables estadísticas. Muy utilizada en la investigación de encuestas, la tabulación cruzada (o tabla cruzada, de forma abreviada) se suelen producir por una sería de paquetes estadísticos, entre ellos algunos que se especializan en la tarea. Frecuentemente se suelen incorporar ponderaciones de encuesta. Las tablas sin ponderar se pueden producir fácilmente por algunas hojas de cálculo y otras herramientas de inteligencia empresarial, conocidas comúnmente como tablas pivote (también conocidas como tablas dinámicas).

MEDIDAS DE VARIABILIDAD

Definición:

Son intervalos que indican la dispersión de los datos en la

escala de medición.

Responden la pregunta: ¿Dónde están diseminadas las

puntuaciones o los valores obtenidos?

Las medidas de variabilidad más utilizadas son: amplitud

(rango), desviación estándar y varianza.

AMPLITUD Exclusiva (RANGO)

Definición:

Es la medida de variabilidad más simple.

 También llamado rango, es la diferencia entre la puntuación

menor, e indica el número de unidades en la escala de

medición que se necesitan para incluir los valores máximo y

mínimo.

Ejemplo:

17, 18, 20, 20, 24, 28, 28, 30, 33

Rango: 33-17= 16

VARIANZA

Definición:

 Esta relacionada con el tamaño de la diferencia entre cada

puntuación y la media aritmética de la distribución a que

pertenece.

 Es la desviación estándar elevada al cuadrado y se simboliza s

y un 2 como potencia.

 Es un concepto estadístico muy importante, ya que muchas

de las pruebas cuantitativas se fundamentan en él.

 Sin embargo, con fines descriptivos se utiliza

preferentemente la desviación estándar.

DESVIACIÓN ESTÁNDAR O TÍPICA

Definición:

 Es el promedio de desviación de las puntuaciones con

respecto a la media.

 Esta medida se expresa en las unidades originales de

medición de la distribución.

 Cuanto mayor sea la dispersión de los datos alrededor de la

media, mayor será la desviación estándar.

 Se simboliza con s o mediante la abreviatura DE.

ANALISIS EXPLORATORIO DE DATOS

Presentación:

La finalidad del Análisis Exploratorio de Datos (AED) es examinar los datos

previamente a la aplicación de cualquier técnica estadística. De esta forma el analista

consigue un entendimiento básico de sus datos y de las relaciones existentes entre las

variables analizadas.

El AED proporciona métodos sencillos para organizar y preparar los datos, detectar

fallos en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes,

identificación de casos atípicos y comprobación de los supuestos subyacentes en la mayor

parte de las técnicas multivariantes.

ANÁLISIS EXPLORATORIO DE DATOS

El análisis exploratorio tiene como objetivo identificar el modelo eórico más adecuado para representar la población de la cual proceden los datos muestrales. Dicho análisis se basa en gráficos y estadísticos que permiten explorar la distribución identificando características tales como: valores atípicos o outliers, saltos o discontinuidades, concentraciones de valores, forma de la distribución, etc. Por otra parte, este análisis se puede realizar sobre todos los casos conjuntamente o de forma separada por grupos. En este último caso los gráficos y estadísticos permiten identificar si los datos proceden de una o varias poblaciones, considerando la variable que determina los grupos como factor diferenciador de las poblaciones. También permite comprobar, mediante técnicas gráficas y contrastes no paramétricos, si los datos han sido extraídos de una población con distribución aproximadamente normal.

Para realizar un análisis exploratorio, la secuencia de instrucciones es:

Analizar

Estadísticos Descriptivos

Explorar

• Si el análisis de la variable se realiza conjuntamente para todos los casos es suficiente indicar la o las variables en la ventana Dependientes.

• Si el análisis de la variable se realiza por grupos es necesario indicar también la variable que define los grupos en la
ventana Factores.

Opcionalmente se puede indicar en la ventana Etiquetar los casos mediante una variable cuyos valores se tomarán para etiquetar los outliers.
El análisis exploratorio calcula, por defecto, los estadísticos más importantes así como el intervalo de confianza para la media al 95%, el gráfico de tallo y hojas y el diagrama de caja. Para ampliar éste análisis se puede acceder a los siguientes cuadros de diálogo intervalo media

• Estadísticos: Permite modificar el grado de confianza del intervalo para la media, calcular Estimadores robustos centrales (estimador M de Huber, estimador en onda de Andrews, estimador M redescendente de Hampel, estimador biponderado de Tukey), y hallar los Valores atípicos (se obtienen los 5 mayores y los 5 menores valores de la distribución) y algunos Percentiles (los cuartiles y el 5º, 10º, 90º y 95º centil).

Gráficos:

Las opciones del Diagrama de caja se utilizan sólo cuando se han seleccionado varias variables dependientes. Por defecto, se presentan en gráficos distintos las variables dependientes seleccionadas, y para cada una de ellas, en el mimo gráfico, las cajas de los distintos grupos definidos por el factor. Si se seleccionaDependientes juntas se representan en un único gráfico las cajas correspondientes a todas las variables dependientes. Con la opción Ninguno se omite la presentación de los diagramas de caja.

Las alternativas de Descriptivos son el gráfico de tallo y hojas, activado por defecto, y el histograma. Estos gráficos se elaboran por separado para todos los grupos definidos para cada una de las variables dependientes.

-Si se activa la opción Gráficos con pruebas de normalidad se obtienen para cada una de las variables dependientes y para cada uno de los grupos el correspondiente gráfico Q-Q Normal y el gráfico Q-Q Normal sin tendencia. Estos gráficos permiten comprobar si las poblaciones de las que se han extraído las muestras presentan distribución normal. El Q-Q Normal presenta simultáneamente para cada elemento el valor observado y el valor esperado bajo el supuesto de normalidad. Si los datos proceden de una distribución normal los puntos aparecen agrupados en torno a la línea recta esperada. El Q-Q Normal sin tendencia se basa en las diferencias entre los valores observados y los valores esperados bajo la hipótesis de normalidad. Si estas diferencias se distribuyen aleatoriamente alrededor del eje de abscisas puede suponerse que la hipótesis de normalidad es sostenible. Además, esta opción permite contrastar la hipótesis de normalidad con las prueba de Kolgomorov-Smirnov* y de Shapiro-Wilks.

La opción Dispersión por nivel con prueba de Levene, activando No transformados, permite contrastar la hipótesis de igualdad de varianza para los grupos definidos por un factor.

• Opciones* controla el tratamiento de los valores missing en el análisis exploratorio.

UNIDAD III

ESTADISTICA DESCRIPTIVA: METODOS NUMERICOS

Medidas de Localización: Cuartiles, deciles y percentiles.
Las medidas de localización dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra. Así en psicología los resultados de los test o pruebas que realizan a un determinado individuo, sirve para clasificar a dicho sujeto en una determinada categoría en función de la 53-1-u-puntuacióMn obtenida.

Cuartiles.

Deciles.

Percentiles.

Ejemplos de cálculo.

Algunas medidas de dispersión asociadas

Cuartiles
Medida de localización que divide la población o muestra en cuatro partes iguales.

Q₁= Valor de la variable que deja a la izquierda el 25% de la distribución.

Q₂= Valor de la variable que deja a la izquierda el 50% de la distribución = mediana.

Q₃= Valor de la variable que deja a la izquierda el 75% de la distribución.

Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos, depende del tipo de variable.

Caso I: Variable cuantitativa discreta:

En este caso tendremos que observar el tamaño de la muestra: N y para calcular Q₁ o Q₃ procederemos como si tuviésemos que calcular la mediana de la correspondiente mitad de la muestra.

Caso II: Variable cuantitativa continua:

En este caso el cálculo es más simple:, sea la distribución que sigue:

[L_i-2-- L_i-1) n_i-1 N_i-1

[L_i-1-- L_i) n_i N_i

Siendo el intervalo coloreado donde se encuentra el Cuartil correspondiente:

Y

Deciles
Medida de localización que divide la población o muestra en 10 partes iguales
No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver sólo para las variables continuas.
d_{k =}Decil k-simo es aquel valor de la variable que deja a su izquierda el k·10 % de la distribución.

[L_i-2-- L_i-1) n_i-1 N_i-1

[L_i-1-- L_i) n_i N_i

Intervalo donde se encuentra el Decil correspondiente:

k = 1 .. 9

EJEMPLO:
Como se puede observar la forma de calcular estas medidas es muy similar a la del cálculo de la mediana.
Veamos el cálculo de algunas de estas medidas en el ejemplo que estamos estudiando.
Vamos a calcular Q₁,Q₃, d₃, y p₄₅

Li-1

Li

ni

Ni

45

55

6

6

55

65

10

16

65

75

19

35

75

85

11

46

85

95

4

50

Cálculo de Q₁: Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25% de N=50, corresponde al 2º intervalo.(50/4=12.5)

Análogamente calculemos Q₃, Buscamos ahora en la misma columna el correspondiente al 75 %de N que en este caso es el 4º intervalo (3.50/4=37.5)

Veamos ahora el decil 3º. (corresponde al 30 % 3 · 50 / 10 = 15) sería el 2º intervalo.

Por último veamos el percentil 45 (45·50/100 = 22.5) Corresponde al intervalo 3º.

Algunas medidas de Dispersión asociadas
Una vez estudiadas las medidas de localización surgen dos nuevas medidas de dispersión, que son:
Recorrido intercuartílico
Semi recorrido intercuartílico:
Recorrido interdecílico:
Recorrido intercentilico:

MEDIDAS DE VARIABILIDAD

Definición:

Son intervalos que indican la dispersión de los datos en la

escala de medición.

Responden la pregunta: ¿Dónde están diseminadas las

puntuaciones o los valores obtenidos?

Las medidas de variabilidad más utilizadas son: amplitud

(rango), desviación estándar y varianza.

AMPLITUD Exclusiva (RANGO)

Definición:

Es la medida de variabilidad más simple.

 También llamado rango, es la diferencia entre la puntuación

menor, e indica el número de unidades en la escala de

medición que se necesitan para incluir los valores máximo y

mínimo.

Ejemplo:

17, 18, 20, 20, 24, 28, 28, 30, 33

Rango: 33-17= 16

VARIANZA

Definición:

Esta relacionada con el tamaño de la diferencia entre cada

puntuación y la media aritmética de la distribución a que

pertenece.

Es la desviación estándar elevada al cuadrado y se simboliza s

y un 2 como potencia.

Es un concepto estadístico muy importante, ya que muchas

de las pruebas cuantitativas se fundamentan en él.

Sin embargo, con fines descriptivos se utiliza

preferentemente la desviación estándar

DESVIACIÓN ESTÁNDAR O TÍPICA

Definición:

Es el promedio de desviación de las puntuaciones con

respecto a la media.

Esta medida se expresa en las unidades originales de

medición de la distribución.

Cuanto mayor sea la dispersión de los datos alrededor de la

media, mayor será la desviación estándar.

Se simboliza con s o mediante la abreviatura DE.

Manejo de valores atípicos

¿Cómo determina si un valor es realmente un valor atípico y cómo decide si debe continuar o no con el análisis de datos?

A. Uno de los problemas arduos en el análisis de datos es manejar los valores atípicos en un grupo de datos. Un valor atípico es una observación con un valor que no parece corresponderse con el resto de los valores en el grupo de datos. Los valores atípicos también suelen llamarse valores aberrantes o inconsistentes. Por lo general surgen dos preguntas: 1) ¿Es este valor realmente un valor atípico? 2) ¿Puedo eliminar este valor y continuar con el análisis de datos?

La pregunta 1 se refiere a la identificación de un valor atípico, y dos herramientas básicas relacionadas son la representación gráfica y la prueba estadística. Un excelente gráfico para observar la distribución de pequeños grupos de datos es el gráfico de puntos. Por ejemplo, tomemos los datos 5.3, 3.1, 4.9, 3.9, 7.8, 4.7 y 4.3 para los que se muestra el gráfico de puntos en la Figura 1.

Figura 1 — Trazado de puntos para los datos, 5.3, 3.1, 4.9, 3.9, 7.8, 4.7 y 4.3.

Aquí, el valor 7.8 parecer ser un valor atípico porque está bien a la derecha del resto en el gráfico de puntos. En el gráfico, en realidad estamos mirando los espacios entre los valores de datos.

Dos de las pruebas estadísticas utilizadas con mayor frecuencia en un grupo de datos único son la prueba de Dixon y la prueba de Grubbs. La prueba de Dixon utiliza relaciones de los espacios entre datos de diferentes modos según la cantidad de valores en el grupo de datos. En el ejemplo anterior, el tamaño de la muestra es 7, y la relación utilizada es el espacio entre el valor atípico (7.8) y su vecino más próximo (5.3) dividido por el espacio entre los valores más grandes y más pequeños en el grupo. Por lo tanto, el índice de Dixon es:

(7.8 – 5.3)/(7.8 – 3.1) = 2.5/4.7 = 0.532

Este valor se compara con un valor crítico de una tabla, y el valor se declara valor atípico si supera ese valor crítico. El valor crítico depende del tamaño de la muestra, n, y de un nivel de representatividad elegido, que es el riesgo de rechazar una observación válida. La tabla por lo general utiliza niveles de baja representatividad tal como 1% o 5%. Para Para un n = 7 y un riesgo del 5%, el valor crítico es 0.507. El índice de Dixon 0.532 excede este valor crítico, indicando que el valor 7.8 es un valor atípico.

La prueba de Grubbs utiliza una estadística de prueba, T, que es la diferencia absoluta entre el valor atípico, X_O, y el promedio de la muestra X dividida por la desviación estándar de la muestra, s. Para el ejemplo anterior, el promedio de la muestra es X= 4.86 y la desviación estándar de la muestra es = 1.48. La estadística calculada de la prueba es:

Para un n = 7 y un riesgo del 5%, el valor crítico es 1.938 y el T = 1.99 excede este valor crítico, indicando que el valor 7.8 es un valor atípico.

Con respecto a la pregunta 2, debe saberse que las pruebas estadísticas se utilizan para identificar valores atípicos, no para retirarlos del grupo de datos. Técnicamente, una observación no debe retirarse a menos que una investigación halle una causa probable para justificar esta acción. Algunas compañías han definido procedimientos para estas investigaciones, incluyendo la repetición de la prueba del material asociado a la observación de valores atípicos, en caso de ser posible.

En algunos casos, la situación física puede definir el problema. Para las tres observaciones, 98.7, 90.0 y 99.7, el índice de Dixon es

8.7/9.7 = 0.897

El valor crítico para un n = 3 y un riesgo de 5% es 0.941, ¡por lo que el valor 90.0 no puede identificarse como valor atípico! Parte del motivo puede ser la proximidad cercana de los otros dos valores. Sin embargo, si los valores registrados son temperaturas del cuerpo humano en grados Fahrenheit, no hace falta una prueba de valor atípico para llegar a la conclusión de que algo está mal. Este ejemplo también ilustra que es difícil identificar valores atípicos en pequeños grupos de datos, tal como n < 5. La norma ASTM, método para llevar a cabo un estudio entre laboratorios para determinar la precisión de un método de prueba, desalienta estas pruebas de valores atípicos para pequeños grupos de resultados de pruebas repetidos en un mismo laboratorio y sugiere otras metodologías para identificar grupos de datos aberrantes.

Si en la investigación no se encuentra una causa probable, ¿qué debe hacerse? Un enfoque sería realizar un análisis de datos con el valor atípico y sin él. Si las conclusiones son diferentes, entonces se considera que el valor atípico tiene influencia y esto debería indicarse en el informe. Otra opción es utilizar estimadores rigurosos para caracterizar los grupos de datos, tal como la mediana de la muestra en lugar de la media.

La ASTM, Práctica para manejar observaciones de valores atípicos, contiene muchos procedimientos estadísticos para realizar pruebas de valores atípicos. E178 de ASTM se indican otras referencias.

Cuando hay múltiples valores atípicos en un grupo de datos, la investigación resulta más complicada, pero existen procedimientos de prueba para estos casos. Un problema es que un valor atípico puede enmascarar otro valor atípico en una prueba de un valor atípico único. La prueba de Dixon supera esto redefiniendo los espacios a utilizar a medida que aumenta el tamaño de la muestra. Este tema está bien tratado en la norma E178 y en otras fuentes.
Resulta importante destacar que lo primero es considerar los datos gráficamente para identificar la posible existencia de más de un valor atípico, ya sea en la misma dirección o en la dirección opuesta, antes de utilizar la técnica de Dixon o la técnica de Grubbs. Estas técnicas están diseñadas para detectar un único valor atípico en un grupo de datos, y por lo tanto no son adecuadas para la detección de múltiples valores atípicos. Una técnica rigurosa y amplia para identificar eficazmente múltiples valores atípicos es el procedimiento para muchos valores atípicos con generalización extrema de la desviación de Student, descrito en la Referencia Básica de ASQ, Volumen 16. Si bien los valores atípicos múltiples están fuera del alcance deseado de este artículo, los lectores interesados pueden consultar la bibliografía mencionada para obtener ayuda o también pueden consultar a un especialista en estadísticas

MODALIDAD DE LOCALIZACIÓN RELATIVA Y DETECCIÓN DE VALORES ATIPICOS

En epidemiología, las medidas de asociación tratan de estimar la magnitud con la que dos fenómenos se relacionan. Dicha asociación no implica necesariamente causalidad. Ejemplos de medidas de asociación son:

El riesgo relativo, utilizado en los estudios de cohortes. Compara la ocurrencia o incidencia acumulada de un suceso entre quienes están expuestos a un factor de riesgo y quienes no.

La razón de tasas, compara tasas de incidencia, es decir, la velocidad a la que ocurre un determinado fenómeno entre personas expuestas y no expuestas a un factor de riesgo.

El radio, que se usa en los estudios de casos y controles, y que nos permite relacionar cuánto más probable es que se produzca una exposición determinada entre las personas enfermas (casos) que entre las sanas (controles).

En estadística hay datos cualitativos y cuantitativos para las pruebas de 1, 2 y 3 o más variables. Típicos estadísticos de asociación son la regresión y la correlación, que a su vez se divide en datos cardinales y ordinales.

MEDIDAS DE ASOCIACIÓN PARA DATOS ORDINALES

En el cuadro de diálogo Tablas de contingencia: Estadísticos pueden activarse diversas opciones que proporcionan medidas de asociación cuando las variables se miden por lo menos en una escala ordinal; las más utilizadas son:

1.     Correlaciones: con esta opción se obtienen los estadísticos:

Coeficiente de correlación de Pearson: es una medida de asociación lineal adecuada para variables medidas en escala de intervalo .

Coeficiente de correlación de Spearman: mide el grado de correspondencia que existe entre los rangos que se asignan a los valores de las variables analizadas. Por ello, este coeficiente se puede

calcular con datos ordinales, y se define:   , siendo di la diferencia entre los rangos correspondientes a la observación i-ésima. El coeficiente toma valores entre -1 y +1. Un valor cercano a 0 indica que las variables apenas están relacionadas.

La Mediana (X0.5):

Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemas puede ser mejor descrito usando una medida de tendencia central llamada mediana., y denotada por X0.5*

La mediana es una medida de posición y se define como la posición central en el arreglo ordenado de la siguiente manera:

Dado un conjunto de números agrupados en orden creciente de magnitud, la mediana es el número colocado en el centro del arreglo, de tal forma que una mitad de las observaciones está por encima y la otra por debajo de dicho valor. Si el número de observaciones es par, la mediana es la media de los dos valores que se hallan en el medio del arreglo, de donde se concluye en la siguiente definición:

Mediana. Es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos

·         La Mediana para datos no agrupados.

Sea X1, X2; X3; … ; Xn; una sucesión de datos, la mediana denotada por X0.5 se calcula de la siguiente manera:

X0.5 = X (n+1)/2 si n es par

Xn/2 + X(n/2)+1

X0.5= ---------------------- si n es impar

2

Nota: El resultado obtenido en la formula corresponde al número de la observación en el arreglo, por tanto debe reemplazarse por el valor de dicha variable en el arreglo.

Ejemplo: (n es impar)

Se tienen las edades de cinco estudiantes universitarios de I año, a saber: 18,23,25.27 y 35. Obsérvese que los datos deben estar ordenad

Por cuanto que el número de datos es cinco (n=5) y es impar, entonces

X0.5 = Xn+1/2 = X(5+1)/2 = X6/2 = X3 = 25 años

Nota: obsérvese que se obtuvo el número de la variable mediana (X3) que en el arreglo de edades ordenado en forma ascendente corresponde a 25 años (X3=25)

Continuación del ejemplo…(n es par)

Si el número de estudiantes hubiere sido par, suponga que se adiciona un estudiante con 31 años, entonces el arreglo ascendente consecuente sería 18, 23, 25, 27, 31 y 35, entonces la mediana se calcula asi:

·         La mediana para datos agrupados

Si se tiene una distribución de frecuencias, la mediana es igualmente ese valor que tiene 50% de las observaciones por debajo y 50 % por encima. Geométricamente, la mediana es el valor de X sobre el eje de las abscisas correspondiente a la ordenada que divide un histograma en dos partes de igual área.

Para hallar el valor de la mediana, en el caso de datos agrupados debe encontrarse primero la clase mediana, la que se define como la clase más baja para la cual la frecuencia acumulada excede N/2 (siendo N=Σfi ). Encontrada esta clase, la siguiente formula servirá para hallar el valor de la mediana

N/2 – fa

X0.5 = Li + ------------- ( C )

fi

donde:

L = límite inferior de la clase mediana.

N = frecuencia total o Σfi.

fa = frecuencia absoluta acumulada hasta la clase premediana

fi = frecuencia absoluta de la clase mediana

C = amplitud de la clase mediana.

Ejemplo:

Si se toman los datos obtenidos del ejemplo resuelto al construir la tabla de distribución de frecuencias de las cuentas por cobrar de la tienda Cabrera’s y Asociados que fueron las siguientes

Si se desea calcular la mediana, es necesario primero encontrar la clase mediana, que será aquella que en teoría contenga el dato N/2 = 30/2 = 15, que corresponde con la tercera clase por cuanto que la frecuencia acumulada (fa) hasta esa clase es 19, luego entonces:

Respuesta: La mediana de cuentas por cobrar es B/.39.133

·         Propiedades de la mediana

·         Hay solo una mediana en una serie de datos.

·         No es afectada por los valores extremos ( altos o bajos )

·         Puede ser calculada en distribuciones de frecuencia con intervalos abiertos, si no se encuentra en el intervalo abierto.

Puede ser calculada en distribuciones con escala relativa, de intervalos, y ordinal

La Moda (Mo.):

A veces es importante conocer cuál es el valor que más prevalece en el conjunto de datos. El valor que ocurre con más frecuencia se le conoce como moda. La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal, de intervalos y nominal.

En un conjunto de números la moda se define como el valor ó número que ocurre con más frecuencia

Ejemplo:

En el siguiente conjunto de números 1, 5, 5, 9, 12, 12, 12, 14. La moda es igual a 12, por cuanto que es el número que más se repite (tres veces)

·         La Moda para datos agrupados (Mo.):

La Moda puede deducirse de una distribución de frecuencia o de un histograma a partir de la fórmula.

Mo. = Li + [ ( ∆1 / ∆1+∆2 ) ] C

Donde;

Li = límite inferior de la clase modal (clase de mayor frecuencia absoluta (fa)

∆1 = diferencia de las frecuencias absolutas de la clase modal y premodal.

∆2 = diferencia de las frecuencias absolutas de la clase modal y postmodal

C = amplitud de la clase modal.

Ejemplo:

Para encontrar la moda es necesario, en primer lugar, identificar la clase modal; que será aquella que posea la mayor frecuencia absoluta. En el ejemplo de cuentas por cobrar de Cabrera`s y Asociados la clase modal será la primera, por cuanto que tiene la mayor frecuencia absoluta.

A partir de esto se puede reemplazar en la formula anterior los datos, a saber

:

Li =7.42 C=14.415 f1 = 10 (frecuencia absoluta de la clase modal)

f0 = 0 (frecuencia absoluta de la clase premodal)

f2 = 4 (frecuencia absoluta de la clase postmodal)

∆1 = 10–0 = 10 ∆2 = 10-4 = 6

Mo. = 7.42 + [ (10/10+6) 14.415 ] = 7.42 + [ (10/16) 14.415] =

= 7.42 + [ 0.625 (14.415) ] = 7.42 + 9.01 = 16.53

·         Propiedades de la moda

o    La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de intervalos, y relativa).

o    La moda tiene la ventaja de no ser afectada por valores extremos.

o    Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.

·         Desventajas de la moda

·         En muchas series de datos no hay moda porque ningún valor aparece más de una vez.

·         En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cual es el valor representativo de la serie de datos?

Relación empírica entre la media, la mediana y la moda

En distribuciones totalmente simétricas, la media, la mediana y la moda coinciden, localizándose en un mismo valor. En cambio, en distribuciones moderadamente asimétricas, la siguiente relación se mantiene aproximadamente:

Media – Moda = 3(Media – Mediana

Posiciones relativas de la media, la mediana y la moda para curvas de frecuencias asimétricas a derecha e izquierda respectivamente, para curvas simétricas los tres valores coinciden

unidad 4: Introducción ala probabilidad

  EXPERIMENTOS, REGLAS DE CONTEO Y ASIGNACIÓN DE PROBABILIDADES

En el estudio de la probabilidad, definimos un EXPERIMENTO como un proceso que genera resultados bien definidos. En cualquier repetición siempre de un experimento, ocurrirá uno y solo uno de los posibles resultados experimentales. A continuación vemos algunos ejemplos de experimentos y sus resultados.

         EXPERIMENTO                                                       RESULTADOS DEL EXPERIMENTO

         Lanzar una moneda                                                 Cara, escudo

        Seleccionar una parte para inspeccionarla           Defectuoso, no defectuoso

         Venta de Teléfonos                                                  Compro, no compro

        Tirar un dado                                                              1, 2, 3, 4, 5,6

         Jugar un partido de fútbol                                         Ganar, perder, empatar

Cuando hayamos especificado todos los resultados posibles, habremos identificado el ESPACIO MUESTRAL del experimento.

ESPACIO MUESTRAL

Para un experimento el espacio muestral es el conjunto de todos los resultados experimentales.

Un resultado experimental también se conoce como PUNTO MUESTRAL para identificarlo como elemento del espacio muestral.

Considere el primer experimento de la tabla anterior- lanzamiento de una moneda. Los resultados experimentales (puntos muéstrales) están determinados por la cara superior de la moneda- cara o escudo. Si S representa el espacio muestral podremos usar la siguiente notación para describirlo.

                                                  S={cara, escudo}

El espacio muestral para el segundo experimento de la tabla- seleccionar una parte para inspección- tiene el siguiente, espacio muestral y puntos muestrales.

                                                   S={defectuoso,no defectuoso}

Los experimentos, antes descritos tienen dos resultados experimentales(punto muestral). Sin embargo, suponga que consideramos el cuarto experimento listado- lanzar un dado. Los posibles resultados experimentales definidos como el numero de puntos que aparecen en la cara superior del dado son los seis puntos del espacio muestral para este experimento.



                                                S={1,2,3,4,5,6}

REGLAS DE CONTEO, COMBINACIONES, PERMUTACIONES

Un paso necesario en la asignación de probabilidades es poder identificar y contar los resultados experimentales. A continuación se analizan tres reglas de conteo que resultan útiles.

EXPERIMENTO DE VARIAS ETAPAS

La primer regla de conteo es para experimentos de varias etapas. Considere el experimento que consite en lanzar dos monedas. Los resultados experimentales se definen en términos de la sucesión de caras o escudos que aparecen en las caras superiores de las dos monedas. ¿Cuantos resultados experimentales son posibles para este experimento? Lanzar las dos monedas se pueden considerar como un experimento de dos pasos en que el primero es el lanzamiento de la primera moneda y el segundo es el lanzamiento de la segunda. Si para denotar escudo usamos la H y para denotar cara empleamos una T.(H,H) indica el resultado experimental con escudo en la primera moneda y un escudo en la segunda. Con esta notación podemos describir el espacio muestral S para el lanzamiento de monedas de la manera siguiente:

                 S={(H,H),(H,T),(T,H),(T,T)}

Así vemos que son posibles cuatro resultados experimentales.En este caso, no es difícil listarlos todos.

La regla de conteo para experimentos de varias etapas permite determinar el numero de resultados experimentales sin listarlos.

REGLA DE CONTEO PARA EXPERIMENTOS DE ETAPAS MÚLTIPLES

Si un experimento se puede describir como una sucesión de K etapas, en las que hay n1 resultados posibles de la primera etapa, n2 en la segunda, etc.., la cantidad total de resultados experimentales es igual a (n1),(n2)......(nK).

Si el experimento de lanzar dos monedas se considera como una sucesión de primero lanzar una moneda (n1=2) y luego lanzar la otra (n2=2), podemos inferir de la regla de conteo que hay (2)(2)=4 resultados experimentales distintos. Como se observa, hay S={(H,H),(H,T),(T,H),(T,T)}. El numero de resultados experimentales en un experimento que consiste en el lanzamiento d seis monedas es (2)(2)(2)(2)(2)(2)=64

COMBINACIONES

Una segunda regla de conteo que con frecuencia es de utilidad, permite contar la cantidad de resultados experimentales cuando en un experimento se deben seleccionar r objetos entre un conjunto de n objetos(por lo común mas grande). Se llama regla de conteo para combinaciones. El orden de los objetos seleccionados no es importante en el orden.

Regla de conteo para combinaciones

La cantidad de combinaciones de n objetos tomados r a la vez es

La notación! significa factorial; por ejemplo, 5 factorial es 5!=(5)(4)(3)(2)(1)=120. Por definición, 0! es igual a 1.

Un ejemplo de la regla de conteo para combinaciones es un procedimiento de control de calidad en que un inspector selecciona al azar dos de cinco partes, para examinar y ver si tiene defectos. En un grupo de cinco partes, ¿cuantas combinaciones de dos partes se puede seleccionar?. La regla de conteo de la ecuación que para n=5 y r=2 el resultado es

Así, hay 10 resultados en el experimento de seleccionar al azar dos partes de un grupo de cinco. Si identificamos a cinco partes como A,B,C,AD,AE,BC,BD,BE,CD,CE y DE.

Otros ejemplo es el siguiente: la lotería de ohio emplea selección aleatoria de seis números de un grupo de 47 para determinar al ganador semanal. Se puede aplicar la regla de conteo. para combinaciones, para calcular la cantidad de maneras en que se pueden seleccionar seis números distintos de entre un grupo de 47 números.

La regla de conteo para combinaciones indica que hay mas de 10 millones de resultados experimentales para determinar al ganador de la lotería. Una persona se compra un boleto de lotería tiene una posibilidad de ganar 10737573 .

PERMUTACIONES

Una tercer regla de conteo que a veces resulta útil es la regla de conteo para permutuaciones. Esta permite que uno pueda calcular el numero de resultados experimentales al seleccionar r objetos de un conjunto n objetos, donde es importante el orden de selección. Si los mismos r objetos se seleccionan en otro orden se considera que se trata de un resultado experimental distinto . En las permutaciones si importa el orden

Regla de conteo para permutaciones

El numero de permutaciones de n objetos tomando r a la vez esta dado por

La regla de conteo para permutuaciones tiene estrecha relación con la de las combinaciones. No obstante, un experimento tendrá mas permutaciones que combinaciones para el mismo numero de objetos porque cada selección de r objetos tiene n! formas distintas para ordenarlos.

Como ejemplo, considere de nuevo el proceso de control de calidad en que un inspector selecciona dos de cinco parte para hallar los defectos. ¿Cuantas permutuaciones es posible seleccionar? La regla de conteo de ecuación muestra que con n=5 y r=2 se tiene

Evento estadístico

En estadística, un evento o suceso es un subconjunto de un espacio muestral, es decir, un conjunto de posibles resultados que se pueden dar en un experimento aleatorio.
Formalmente, sea Ω un espacio muestral, entonces un evento es un subconjunto

dondedonde  son una serie de posibles

resultados.

Evento simple o suceso elemental

Un suceso o evento simple es un subconjunto del espacio muestral que contiene un único elemento.

Ejemplos de espacios muestrales y sucesos elementales:

§ Si se trata de contar objetos y el espacio muestral S = {0, 1, 2, 3, ...} (los números naturales), entonces los sucesos elementales son cada uno de los conjuntos {k}, donde k ∈ N.

§ Si se lanza una moneda dos veces, S = {cc, cs, sc, ss}, donde (c representa "sale cara" y s, "sale cruz"), los sucesos elementales son {cc}, {cs}, {sc} y {ss}.

§ Si X es una variable aleatoria normalmente distribuida, S = (-∞, +∞), los números reales, los sucesos elementales son todos los conjuntos {x}, donde x ∈ R.

Los sucesos elementales pueden tener probabilidades que son estrictamente mayores que cero, cero, no definidas o cualquier combinación de estas. Por ejemplo, la probabilidad de cualquier variable aleatoria discreta está determinada por las probabilidades asignadas a los sucesos elementales del experimento que determina la variable. Por otra parte, cualquier suceso elemental tiene probabilidad cero en cualquier variable aleatoria continua. Existen distribuciones mixtas que no son completamente continuas, ni completamente discretas, entre las que pueden darse ambas situaciones.
***ALGUNAS RELACIONES BÁSICAS DE PROBABILIDADTEORÍA DE PROBABILIDAD

SIGNIFICADO

Es la “posibilidad” u “oportunidad” de que ocurra un hecho o fenómeno.

·         Precipitaciones el fin de semana.*

·         Que gane el equipo XX el próximo partido.

·         Que salga un número par al arrojar un dado.

La Estadística, como un método para efectuar generalizaciones o tomar decisiones ante la Incertidumbre, se basa en la Teoría de Probabilidad, porque la Probabilidad es a la vez el Lenguaje y la Medida de la Incertidumbre y los riesgos asociados con ella.

CONCEPTOS BÁSICOS

·         Experimento Aleatorio

Un experimento se considera aleatorio o estocástico si sus resultados son inciertos.

·         Espacio Muestral

Conjunto de todos los resultados posibles de un experimento aleatorio. Es un conjunto universal y se simboliza con S.

Ejemplo: el experimento consiste en arrojar un dado

S = {1, 2, 3, 4, 5, 6}

·         Punto Muestral

Cada uno de los resultados posibles de un experimento aleatorio.

·         Suceso, hecho o evento

Es un subconjunto del espacio muestral S. Un suceso E definido en un espacio muestral se dice que es simple o elemental si contiene un solo punto muestral en S; se dice que es *compuesto*** si contiene más de un punto muestral.

Ejemplo: Experimento que consiste en arrojar un dado

Espacio Muestral S = { 1, 2, 3, 4, 5, 6}

Eventos Simples E1 ={1 } E2 ={2} E3= {3} E4 ={4} E5 ={5} E6 ={6}

Eventos compuestos E1 ={1, 3, 5 } E2 ={2, 4, 6 }

TEORIAS DE PROBABILIDAD

OBJETIVAS SUBJETIVAS

Clásica a Priori Clásica Empírica

o Frecuencial

·         Teoría Clásica a priori

Teoría de la razón insuficiente

Cuando no hay razones para preferir uno de los posibles resultados o suceso a cualquier otro, todos deben considerarse con la misma probabilidad de ocurrencia. Entonces la probabilidad de ocurrencia de un suceso E, es:

Resultados favorables

Resultados posibles

La Teoría Clásica a priori se basa en el conocimiento anterior o previo del proceso o fenómeno.

·         Teoría Clásica frecuencial

Cuando el experimento aleatorio se repite un gran número de veces (n) y el suceso ocurre (m) veces, la frecuencia relativa m/n será prácticamente (casi igual, aproximadamente) igual a P.

1er Enfoque frecuencia relativa n: grande

2do Enfoque P (E): Lim n "

La teoría frecuencial se basa en datos observados como resultado de repetir el experimento un número grande de veces.

LAS FRECUENCIAS RELATIVAS ESTABILIZAN LAS PROBABILIDADES

Ejemplo:

La moneda se arroja 200 veces; el número de caras en cada 20 ocasiones que se arroja se muestra en el cuadro que sigue. ¿Cuál es la probabilidad de que caiga cara cuando se arroja la moneda?

·         Con la base de este experimento, la mejor respuesta que puede enunciarse es que la probabilidad de que con esta moneda particular caiga cara al arrojarla es 98/200= 0,49.

La gráfica siguiente muestra el número de tiros y la frecuencia relativa acumulativa. Adviértase que la gráfica varía alrededor de la frecuencia relativa de 0.5 calculada si la moneda es ordinaria, normal o legal.

·         Las fluctuaciones de las frecuencias relativas varían considerablemente, cuando n es pequeño.

·         Cuando n es grande, las fluctuaciones disminuyen y la frecuencia relativa presenta regularidad estadística.

AXIOMAS DE PROBABILIDAD

La probabilidad de un evento E en un experimento aleatorio, es el valor numérico P(E) que satisface los siguientes axiomas:

· Si E es un evento definitivo del espacio muestral S, entonces:

0 "P (E) " 1

· Si S representa el conjunto de todos los resultados posibles de un experimento aleatorio, entonces:

P (S)= 1

· Si A y B son dos eventos cualesquiera definidos en el mismo espacio muestral y, si A" B = , entonces A y B se dice que son mutuamente excluyentes y, la probabilidad de que ocurra A ó B es la suma de probabilidad de sus probabilidades:

P (A " B) = P (A) + P (B)

· Si A y B son dos eventos cualesquiera definidos en el mismo espacio muestral y, si A " B " , entonces A y B se dice que son no mutuamente excluyentes y, la probabilidad de que ocurra A ó B es la suma de probabilidad de sus probabilidades menos la probabilidad de ocurrencia de ambos eventos:

P (A " B) = P (A) + P (B) - P (A" B)

· Evento imposible, es aquel que no tiene ningún resultado favorable dentro de un conjunto de resultados posibles de un experimento aleatorio:

P () = 0

· Evento complementario , de un evento A es el evento que consiste en todos los resultados que no contiene el evento A:

P ( ) = 1 - P (A)

REGLAS PARA CÁLCULO DE PROBABILIDADES

·         Probabilidad Conjunta.

·         Probabilidad Marginal.

·         Probabilidad Condicional.

Independencia

PROBABILIDAD CONDICIONAL

En esta sección examinaremos como la probabilidad de ciertos eventos depende o se ve influida por la ocurrencia de otros. Para ello veremos algunos ejemplos.

Ejemplo 27: Se seleccionan dos semillas aleatoriamente, una por una, de una bolsa que contiene 10 semillas de flores rojas y 5 de flores blancas. ¿Cuál es la probabilidad de que:

La primera semilla sea roja?

La segunda semilla sea blanca dado que la primera fue roja?

Solución:

La probabilidad de que la primera semilla sea roja es 10 /15 , puesto que hay 10 semillas de flores rojas de un total de 15. Escrito con notación de probabilidad tenemos

b.La probabilidad de que la segunda semilla sea blanca se ve influida por lo que salió primero, es decir esta probabilidad está sujeta a una condición, la de que la primera semilla sea roja. Este tipo de probabilidad se le llama probabilidad condicional y se denota por

, y se lee: la probabilidad de B₂ dado R₁.

Esta probabilidadpuesto que todavía hay 5 semillas blancas en un total de 14 restantes.

Veamos la situación en un diagrama de árbol:

Definición de Probabilidad Condicional:Para dos eventos cualesquiera A y B en un espacio muestra S, tales que P(A) > 0 con P(A) ¹ 0, la probabilidad del evento B dado el evento A, se define por

TEOREMAS DE VALLES

En la teoría de la probabilidad el teorema de valles es un resultado enunciado por Thomas valles en 1763¹ que expresa la probabilidad condicional de un evento aleatorio A dado B en términos de la distribución de probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de sólo A.

En términos más generales y menos matemáticos, el teorema de valles es de enorme relevancia puesto que vincula la probabilidad de A dado B con la probabilidad de B dado A. Es decir que sabiendo la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podría saber -si se tiene algún dato más-, la probabilidad de tener gripe si se tiene un dolor de cabeza, muestra este sencillo ejemplo la alta relevancia del teorema en cuestión para la ciencia en todas sus ramas, puesto que tiene vinculación íntima con la comprensión de la probabilidad de aspectos causales dados los efectos observados.

Además, unido a la definición de Probabilidad condicionada, obtenemos la Fórmula de valles, también conocida como la Regla de Valles:

El teorema de valles es válido en todas las aplicaciones de la teoría de la probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades que emplea. En esencia, los seguidores de la estadística tradicional sólo admiten probabilidades basadas en experimentos repetibles y que tengan una confirmación empírica mientras que los llamados estadísticos bayesianos permiten probabilidades subjetivas. El teorema puede servir entonces para indicar cómo debemos modificar nuestras probabilidades subjetivas cuando recibimos información adicional de un experimento. La estadística bayesiana está demostrando su utilidad en ciertas estimaciones basadas en el conocimiento subjetivo a priori y el hecho de permitir revisar esas estimaciones en función de la evidencia empírica es lo que está abriendo nuevas formas de hacer conocimiento. Una aplicación de esto son los clasificadores bayesianos que son frecuentemente usados en implementaciones de filtros de correo basura o spam, que se adaptan

Como observación, se tiene y su demostración resulta trivial.

DISTRIBUCIONES DISCRETAS DE PROBABILIDAD

Variables aleratorias

Una Variable aleatoria X es una regla que asigna un valor numérico a cada resultado en el espacio mestrual de un experimento.

Una vareable aleatoria discreta puede tomar en específico, aislado valor numérico, como resultado de lanzar un dado, o el número de dolares en una cuenta bancaria escogido de forma aleatoria.

Una variable aleatoria continua puede tomar cualquier valor dentro de un continuo intervalo de tiempo, como la temperatura en el Parque Central, o la altura de un atleta en centrimetros.

Variable aleatoria discreta que sólo puede asumir finitamente muchos valores (como el resultado de lanzar un dado) se llama variables aleatorias finitas.

Se llama variable aleatoria a toda función que asocia a cada elemento del espacio muestral E un número real.

Se utilizan letras mayúsculas X, Y, ... para designar variables aleatorias, y las respectivas minúsculas (x, y, ...) para designar valores concretos de las mismas.

Variable aleatoria discreta

Una variable aleatoria discreta es aquella que sólo puede tomar valores enteros.

Ejemplos

El número de hijos de una familia, la puntuación obtenida al lanzar un dado.

Variable aleatoria continua

Una variable aleatoria continua es aquella que puede tomar todos los valores posibles dentro de un cierto intervalo de la recta real.

Ejemplos

La altura de los alumnos de una clase, las horas de duración de una pila.

DISTRIBUCIONES DISCRETAS DE PROBABILIDAD

Cuando se habla de los tipos de probabilidad, decimos que esta se clasifica en tres:

1.       Probabilidad clásica.

2.      Probabilidad distribución de frecuencias.

3.      Probabilidad subjetiva.

La distribución de probabilidades esta muy relacionado con el tipo de variables. Nosotros conocemos dos tipos de variables:

a.       Variable discreta, y

b.      Variable continúa.

En este trabajo, estudiaremos las principales distribuciones de variables discretas. Una distribución de probabilidades para una variable aleatoria discreta es un listado mutuamente excluyente de todos los resultados numéricos posibles para esa variable aleatoria tal que una probabilidad específica de ocurrencia se asocia con cada resultado.

El valor esperado de una variable aleatoria discreta es un promedio ponderado de todos los posibles resultados, donde las ponderaciones son las probabilidades asociadas con cada uno de los resultados.

Donde: Xi = i-ésimo resultado de X, la variable discreta de interés.

P(Xi) = probabilidad de ocurrencia del i-ésimo resultado de X

La varianza de una variable aleatoria discreta (s 2) se define como el promedio ponderado de los cuadros de las diferencias entre cada resultado posible y su media (los pesos son las probabilidades de los resultados posibles).

Donde: Xi = i-ésimo resultado de X, la variable discreta de interés.

P(Xi) = probabilidad de ocurrencia del i-ésimo resultado de X

Las distribuciones de probabilidades discretas más importantes son:

1.       Distribución Binomial, y

2.      Distribución de Poisson

Hablaremos de cada tipo de distribución y como lo resolveremos aplicando el Excel.

VALOR ESPERADO Y VARIANZA

En teoría de probabilidad, la varianza (que suele representarse comode una variable aleatoria es una dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.

Está medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviación estándar, es la raíz cuadrada de la varianza, es una medida de dispersión alternativa expresada en las mismas unidades de los datos de la variable objeto de estudio. La varianza tiene como valor mínimo 0.

Hay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersión más robustas.

Dada una variable aleatoria X con media μ = E(X), se define su varianza, Var(X) (también representada como o, simplemente σ²), como.

Desarrollando la definición anterior, se obtiene la siguiente definición alternativa (y equivalente):

DISTRIBUCIÓN BINOMIAL

La distribución binomial es una distribución de probabilidades que surge al cumplirse cinco condiciones:

1.       Existe una serie de N ensayos,

2.      En cada ensayo hay sólo dos posibles resultados,

3.      En cada ensayo, los dos resultados posibles son mutuamente excluyentes,

4.      Los resultados de cada ensayo son independientes entre si, y

La probabilidad de cada resultado posible en cualquier ensayo es la misma de un ensayo a otro.

Cuando se cumple estas condiciones, la distribución binomial proporciona cada resultado posible de los N ensayos y la probabilidad de obtener cada uno de estos resultados.

Para este tipo de distribución de probabilidad, la función matemática es la siguiente:

Donde: P(X) = probabilidad de X éxitos dados los parámetros n y p

n = tamaño de la muestra

p = probabilidad de éxito

1 – p = probabilidad de fracaso

X = numero de éxitos en la muestra ( X = 0, 1, 2, …….. n)

El términoindica la probabilidad de obtener X éxitos de n observaciones en una

DISTRIBUCIÓN  DE  POISSON.

Características:

En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo, pieza, etc, etc,:

- # de defectos de una tela por m²

- # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc.

- # de bacterias por cm² de cultivo

- # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.

- # de llegadas de embarcaciones a  un puerto por día, mes, etc, etc.

Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o producto, la fórmula a utilizar sería:

donde:

p(x, l) = probabilidad de que ocurran x éxitos, cuando el número promedio de ocurrencia de ellos es l

l = media o promedio de éxitos por unidad de tiempo, área o producto

e = 2.718

x= variable que nos denota el número de éxitos que se desea que ocurra

Hay que hacer notar que en esta distribución el número de éxitos que ocurren por unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo es independiente de otro intervalo dado, así como cada área es independiente de otra área dada y cada producto es independiente de otro producto dado.

Distribución hipergeométrica

La función de probabilidad de una variable aleatoria con distribución hipergeométrica puede deducirse a través de razonamientos combinatorios y es igual a

donde( N)es el tamaño de población, (n)es el tamaño de la muestra extraída, (b)es el número de

elementos en la población original que pertenecen a la categoría deseada y (x)es el número de

elementos en la muestra que pertenecen a dicha categoría. La notación hace referencia al coeficiente binomial, es decir, el número de combinaciones posibles al seleccionar (b)elementos de un total (a).

El valor esperado de una variable aleatoriaX que sigue la distribución hipergeométrica es

y su varianza,

En la fórmula anterior, definiendo

y se obtiene

La distribución hipergeométrica es aplicable a muestreos sin reemplazo y la binomial a muestreos con reemplazo. En situaciones en las que el número esperado de repeticiones en el muestreo es presumiblemente bajo, puede aproximarse la primera por la segunda. Esto es así cuando N es grande y el tamaño relativo de la muestra extraída, n/N, es pequeño

DISTRIBUCIONES CONTINUAS DE PROBABILIDAD

Distribución de probabilidad uniforme

La distribución de probabilidad uniforme es un ejemplo de una distribución de probabilidad es continua. Una distribución de probabilidad es continua cuando los resultados posibles del experimento son obtenidos de variables aleatorias continuas, es decir, de variables cuantitativas que pueden tomar cualquier valor, y que resultan principalmente del proceso de medición.

Ejemplos de variables aleatorias continuas son:

La estatura de un grupo de personas

El tiempo dedicado a estudiar

La temperatura en una ciudad

Es una distribución en el intervalo [a,b] en la cual las probabilidades son las mismas para todos los posibles resultados, desde el mínimo de a hasta el máximo de b. El experimento de lanzar un dado es un ejemplo que cumple la distribución uniforme, ya que todos los 6 resultados posibles tienen 1/6 de probabilidad de ocurrencia.

La función de densidad de una distribución uniforme (altura de cada rectángulo en la gráfica anterior) es:

Donde:

a = mínimo valor de la distribución

b = máximo valor de la distribución

b – a = Rango de la distribución

La media, valor medio esperado o esperanza matemática de una distribución uniforme se calcula empleando la siguiente fórmula:

La varianza de una distribución uniforme se calcula empleando la siguiente fórmula

La probabilidad de que una observación caiga entre dos valores se calcula de la siguiente manera:

Distribución de probabilidad exponencial

Si en el contexto de un proceso de Poisson ocurren eventos o éxitos en un espectro continuo de tiempo y espacio. Entonces la longitud del espacio o tiempo entre eventos sucesivos sigue una distribución de probabilidad exponencial. Puesto que el tiempo y el espacio son un espectro continuo, esta es una distribución continua.

En caso de este tipo de distribución no vale la pena preguntarse ¿cuál es la probabilidad de que el primer pedido de servicio se haga exactamente de aquí a un minuto?. Mas bien debemos asignar un intervalo dentro del cual el evento puede ocurrir, preguntándonos, ¿cuál es la probabilidad de que el primer pedido se produzca en el próximo minuto?.

Dado que el proceso de Poisson es estacionario, la distribución exponencial se aplica ya sea cuando estamos interesados en el tiempo (o espacio) hasta el primer evento, el tiempo entre dos eventos sucesivos, o el tiempo hasta que ocurra el primer evento después de cualquier punto aleatoriamente seleccionado.

Donde l es la cifra media de ocurrencias para el intervalo de interés, la probabilidad exponencial de que el primer evento ocurra dentro del intervalo designado de tiempo o espacio es.

P(T < t) = 1 - e -l

De manera que a probabilidad exponencial de que el primer evento no ocurra dentro del intervalo designado de tiempo o espacio es:

P(T > t) = e -l

Ejemplo:

Un departamento de mantenimiento recibe un promedio de 5 llamadas por hora. Comenzando en un momento aleatoriamente seleccionado, la probabilidad de que una llamada llegue dentro de media hora es:

Promedio 5 por hora, como el intervalo es media hora tenemos que l = 2,5/media hora.

P (T < 30 min.) = 1- e -5 = 1 - 0,08208 = 0,91792

Distribución de probabilidad normal

Es una distribución de probabilidad continua que es tanto simétrica como mesocurtica. La curva que representa la distribución de probabilidad normal se describe generalmente como en forma de campana. Esta distribución es importante en inferencia estadística por tres razones diferentes:

1.       Se sabe que las medidas producidas en muchos procesos aleatorios siguen esta distribución.

2.      Las probabilidades normales pueden utilizarse generalmente para aproximar otras distribuciones de probabilidad, tales como las distribuciones binomial y de Poisson.

3.      Las distribuciones estadísticas tales como la media de la muestra y la proporción de la muestra, siguen a menudo la distribución normal, sin tener en cuenta la distribución de la población

Los valores de los parámetros de la distribución de probabilidad normal son m = 0 y s = 1. Cualquier conjunto de valores X normalmente distribuido pueden convertirse en valores normales estándar z por medio de la formula:

Haciendo posible el uso de la tabla de proporciones de área y hace innecesario el uso de la ecuación de la función de densidad de cualquier distribución normal dada.

Para aproximar las distribuciones discretas binomial y de Poisson se debe hacer:

Binomial

m = np

s = np(1-p)

Si n > 30

.np> 5 n(1-p) > 5

Poisson

m = l

s = l

           l> 10

Suscribirse a: Entradas (Atom)