PROBABILIDAD Y ESTADISTICA
¿Que es la frecuencia? Es la medida de para indicar el numero de repeticiones que cualquier fenómeno o suceso en la unidad de cambio.
¿Qué es la frecuencia absoluta? Es aquella que expresa el número de veces en que total aparece un determinado resultado dentro de nuestra estadística.
¿Qué es la frecuencia relativa? Es el cociente entre la frecuencia absoluta de un determinado resultado aparecidos que conforman y muestran la estadística.
¿Qué es la grafica? Es un representación de da tos generalmente numéricos, mediante líneas superficiales o símbolos.
¿Qué es el rango? Algo que responde a la identificación de la dispersión de los datos de una muestra, es el rango el cual se define como, la diferencia entre el dato mayor menos el dato menor de un conjunto de datos.
Medidas de centralización: indica los valores más representativos de un conjunto de datos, y las medidas relacionadas con esta son:
Media aritmética
Mediana
Moda
Medidas de dispersión: se utiliza para medir el grado de dispersión que existe en la distribución, con ella se relacionan:
Recorrido o amplitud
Recorrido intercuartilico
Desviación media
Varianza
Desviación típica
Coeficiente de variación
Medidas de posición: nos informa el lugar que ocupa un dato dentro de un conjunto de ordenándose valores.
®Cuartiles ® Percentiles
Estadística: Esla ciencia que se ocupa de la recopilación de datos, de su organización y análisis, así como las predicciones a partir de que estos datos puedan hacerse.
Probabilidad: mide la frecuencia con la que se obtiene un resultado o conjunto de datos, al llevar acabo experimentos aleratorios del que se conocen todos los resuldos posibles bajo condiciones suficientemente estables.
Ejercicios:
Frecuencias: ●Absoluta (fi) ●Relativa (ni) ●Porcentual (pi)
2, 3, 5, 4, 2, 1, 8, 7, 9, 7,
1, 0, 2, 3, 7, 4, 3, 2, 2, 1,
0, 0, 2, 6, 5, 6, 4, 3, 8, 9.
Fi
|
FI
|
ni
|
NI
|
Pi
|
PI%
| |
0
|
3
|
3
|
0.1
|
0.1
|
10
| |
1
|
3
|
6
|
0.1
|
0.2
|
20
| |
2
|
6
|
12
|
0.2
|
0.4
|
40
| |
3
|
4
|
16
|
0.133
|
0.533
|
53.3
| |
4
|
3
|
19
|
0.1
|
0.633
|
63.3
| |
5
|
2
|
21
|
0.066
|
0.699
|
69.9
| |
6
|
2
|
23
|
0.066
|
0.765
|
76.5
| |
7
|
3
|
26
|
0.1
|
0.865
|
86.5
| |
8
|
2
|
28
|
0.066
|
0.95
|
93.1
| |
9
|
2
|
30
|
0.066
|
0.997
|
99.7
| |
N=30
| ||||||
RANGO
|
Xi
|
Fi
|
FI
|
ni
|
NI
|
pi
|
PI
|
0-5
|
2.5
|
3
|
3
|
0.075
|
0.75
|
7.4
|
7.5
|
5-10
|
7.5
|
6
|
9
|
0.15
|
0.225
|
15
|
22.5
|
10-15
|
12.5
|
7
|
16
|
0.175
|
0.4
|
17.5
|
40
|
15-20
|
17.5
|
6
|
22
|
0.15
|
0.55
|
15
|
55
|
20-25
|
22.5
|
4
|
26
|
0.1
|
0.65
|
10
|
65
|
25-30
|
27.5
|
5
|
31
|
0.125
|
0.775
|
12.5
|
77.5
|
30-35
|
32.5
|
3
|
34
|
0.075
|
0.85
|
7.5
|
85
|
35-40
|
37.5
|
3
|
37
|
0.075
|
0.925
|
7.5
|
92.5
|
40-45
|
42.5
|
3
|
40
|
0.075
|
1
|
7.5
|
100
|
N=40
| |||||||
FORMULAS PARA MEDIDAS DE CENTRALIZACIONCON DATOS AGRUPADOS
MEDIA ARITMETICA: Es el valor obtenido por la suma de datos, sus valores de datos dividida entre el número de datos sumados.
Dado un conjunto numérico de datos x1,x2,xn… se define su mediad aritmética como:
MEDIA ARITMETICA PONDERADA: A veces es útil otorgar pesos o valores a los datos dependiendo de su relevancia para un determinado estudio. En esos casos se puede utilizar una media ponderada. Si x1,x2…,xn, son estos números (datos) y w1,w2…wn, son “pesos” respectivos la media ponderada se define de la siguiente manera.
MEDIA MUESTRAL: Es el mismo parámetro que el anterior aunque el objetivo “muestra” se aplica a aquellas situaciones en las que la media aritmética se calcula para un subconjunto de aplicación de objeto de estudio. La media muéstrales un parámetro de extrema importancia en la inferencia de la estadística, siendo de gran utilidad para estimación de la media población, entre otros usos.
MODA: Es el dato más repetido el valor de las variables con mayor frecuencia absoluta. En cierto sentido la definición matemática corresponde a la locución “estar de moda”.
MEDIANA: Es un valor de la variable que deja por debajo de si a la mitad de los datos, una vez que estos están ordenados de menor a mayor.
NI-1<n/2<NI=N19<19.5<20 MEDIANA
Li Li
|
Xi
|
fi
|
FI
|
ni
|
NI
|
pi
|
PI
|
xi-ni
|
0-5
|
2.5
|
7
|
7
|
0.07
|
0.07
|
7
|
7
|
17.5
|
5-10
|
7.5
|
15
|
22
|
0.156
|
0.22
|
15
|
22
|
112.5
|
10-15
|
12.5
|
10
|
32
|
0.104
|
0.32
|
10
|
32
|
125
|
15-20
|
17.5
|
14
|
46
|
0.145
|
0.46
|
14
|
46
|
245
|
20-25
|
22.5
|
27
|
73
|
0.28
|
0.74
|
28
|
74
|
607.5
|
25-30
|
27.5
|
11
|
84
|
0.11
|
0.85
|
11
|
85
|
302.5
|
30-35
|
32.5
|
4
|
88
|
10.04
|
0.89
|
4
|
89
|
130
|
35-40
|
37.5
|
8
|
96
|
0.08
|
0.97
|
8
|
97
|
300
|
N=96
| ||||||||
MEDIANA= Li +
(
– Fi)
Li= Límite inferior.
I= Amplitud de rango.
Fi= Frecuencia absoluta.
N= Numero de cuentas.
FI=Frecuencia absoluta aculada
MEDIDAS DE POSICION
Las Medidas de Posición, también conocidas como Otras Medidas de Dispersión, son otras medidas o métodos que resultan ser más prácticos para precisar ciertas situaciones en las que se busca describir la variación o dispersión en un conjunto de datos.
CUANTILES
Los cuantiles son medidas de posición que se determinan mediante un método que determina la ubicación de los valores que dividen un conjunto de observaciones en partes iguales.
Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes.
Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles, cuando dividen la distribución en diez partes y los centiles o percentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensión de la mediana.
Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u):
u
|
Q(u)
|
0.5
|
Mediana
|
0.25, 0.75
|
Cuartiles
|
0.1, ... , 0.99
|
Deciles
|
0.01, ..., 0.99
|
Centiles
|
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.
Datos Agrupados

Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente:
k= 1,2,3
Donde:
Lk = Límite real inferior de la clase del cuartil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k
c = Longitud del intervalo de la clase del cuartil k
Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:
· El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.
Fórmula de Q1, para series de Datos agrupados:
Donde:
L1 = límite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
· El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores.
Fórmula de Q2, para series de Datos agrupados:
Donde:
L1 = límite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
· El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones.
Fórmula de Q3, para series de Datos agrupados:
Donde:
L1 = límite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.
Para Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
- El primer cuartil:
Cuando n es par:
Cuando n es impar:
Para el tercer cuartil
Cuando n es par:
Cuando n es impar:
Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico.
Datos Agrupados
Para datos agrupados los deciles se calculan mediante la fórmula.
k= 1,2,3,... 9
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
Otra fórmula para calcular los deciles:
· El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es superado por el 60% de las observaciones.
· El quinto decil corresponde a la mediana.
· El noveno decil supera al 90% y es superado por el 10% restante.
Donde (para todos):
L1 = límite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Fórmulas Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
Siendo A el número del decil.
CENTILES O PERCENTILES
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.
Datos Agrupados
Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la fórmula:

k= 1,2,3,... 99
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
MEDIDAS DE
DISPERCION
Las medidas de dispersión nos informan sobre cuánto se alejan del
centro los valores de la distribución.
Las medidas de dispersión son:
Rango o recorrido
El rango es la diferencia entre el mayor y el menor
de los datos de una distribución estadística.
Desviación media
La desviación respecto a la media es la diferencia entre
cada valor de la variable estadística y la media aritmética.
Di = x - x
La desviación media es la media aritmética de los valores
absolutos de las desviaciones respecto a la media.
La desviación media se representa por
Ejemplo
Calcular la desviación media de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
Desviación
media para datos agrupados
Si los datos vienen agrupados en una tabla de frecuencias, la
expresión de la desviación media es:
Ejemplo
Calcular la desviación media de la distribución:
xi
|
fi
|
xi · fi
|
|x - x|
|
|x - x| · fi
|
|
[10, 15)
|
12.5
|
3
|
37.5
|
9.286
|
27.858
|
[15, 20)
|
17.5
|
5
|
87.5
|
4.286
|
21.43
|
[20, 25)
|
22.5
|
7
|
157.5
|
0.714
|
4.998
|
[25, 30)
|
27.5
|
4
|
110
|
5.714
|
22.856
|
[30, 35)
|
32.5
|
2
|
65
|
10.174
|
21.428
|
21
|
457.5
|
98.57
|
La varianza es la media aritmética del cuadrado de las
desviaciones respecto a la media de una distribución estadística.
La varianza se representa por
.
Varianza
para datos agrupados
Para simplificar el cálculo de la varianza vamos o utilizar las
siguientes expresiones que son equivalentes a las anteriores.
Varianza para datos agrupados
Ejercicios
de varianza
Calcular la varianza de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
Calcular la varianza de la distribución de la tabla:
xi
|
fi
|
xi · fi
|
xi2 ·
fi
|
|
[10, 20)
|
15
|
1
|
15
|
225
|
[20, 30)
|
25
|
8
|
200
|
5000
|
[30,40)
|
35
|
10
|
350
|
12 250
|
[40, 50)
|
45
|
9
|
405
|
18 225
|
[50, 60
|
55
|
8
|
440
|
24 200
|
[60,70)
|
65
|
4
|
260
|
16 900
|
[70, 80)
|
75
|
2
|
150
|
11 250
|
42
|
1 820
|
88 050
|
1 La varianza será siempre un valor positivo o cero, en el
caso de que las puntuaciones sean iguales.
2 Si a todos los valores de la variable se les suma un número
la varianza no varía.
3 Si todos los valores de la variable se multiplican por un número
la varianza queda multiplicada por el cuadrado de dicho número.
4 Si tenemos varias distribuciones con la misma media y conocemos
sus respectivas varianzas se puede calcular la varianza total.
Si todas las muestras tienen el mismo tamaño:
Observaciones sobre la
varianza
1 La varianza, al igual que la media, es un índice muy sensible a
las puntuaciones extremas.
2 En los casos que no se
pueda hallar la media tampoco será posible hallar la varianza.
3 La varianza no viene expresada en las mismas unidades que los datos,
ya que las desviaciones están elevadas al cuadrado.
Desviación típica
La desviación típica es la raíz cuadrada de la varianza.
Es decir, la raíz cuadrada de la media de los cuadrados de las
puntuaciones de desviación.
La desviación típica se representa por σ.
Desviación
típica para datos agrupados
Para simplificar el cálculo vamos o utilizar las siguientes expresiones
que son equivalentes a las anteriores.
Ejercicios
de desviación típica
Calcular la desviación típica de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
Calcular la desviación típica de la distribución de la
tabla:
xi
|
fi
|
xi · fi
|
xi2 ·
fi
|
|
[10, 20)
|
15
|
1
|
15
|
225
|
[20, 30)
|
25
|
8
|
200
|
5000
|
[30,40)
|
35
|
10
|
350
|
12 250
|
[40, 50)
|
45
|
9
|
405
|
18 225
|
[50, 60)
|
55
|
8
|
440
|
24 200
|
[60,70)
|
65
|
4
|
260
|
16 900
|
[70, 80)
|
75
|
2
|
150
|
11 250
|
42
|
1 820
|
88 050
|
UNIDAD I
LOS
DATOS Y LA ECONOMÍA ESTADÍSTICA
LA
ESTADÍSTICA EN LA ADMINISTRACIÓN Y LA ECONOMÍA
La
Estadística es mucho más que sólo números apilados y gráficas. Es una ciencia
con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las
demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc.
se nombran entre los más destacados clientes de ésta, su ausencia conllevaría a
un caos generalizado, dejando a los administradores y ejecutivos sin
información vital a la hora de tomar decisiones en tiempos de incertidumbre.
La Estadística es una disciplina que utiliza recursos matemáticos para
organizar y resumir una gran cantidad de datos obtenidos de la realidad.
Es importante en mi carrera de Administración de Empresas ya que
la estadística es la que da las bases y fórmulas cuantitativas y
cualitativas, mediante las cuales debe basarse la contabilidad para determinar
el funcionamiento económico de la empresa
porque tomando datos anteriores se puede proyectar el comportamiento de
la producción de las ventas, los gastos, las perdidas y todo lo
referente a ésta, y así en un futuro cercano poder realizar las
diferentes estrategias que se requieran para evitar problemas mas
adelante.
La
estadística es importante para una empresa dado que es esencial para predecir a
tiempo los niveles de demanda de sus productos, se necesita para
reconocer a tiempo los cambios de tendencia, además permite tomar decisiones que
ayuden a corregir problemas de calidad y productividad, se requiere contar con
datos estadísticos tanto par fijar precios como para aumentar la rentabilidad.
La administración de empresas como una
ciencia económica no es la excepción, esta información se conforma varias veces
en datos estadísticos, que deben ser interpretados de la mejor forma y de
acuerdo a cada situación por el personal ejecutivo y administrativo de la
compañía, por lo tanto no se puede gerenciar lo que no se puede evaluar. La medición
de los procesos valiéndose de la información estadística es clave en la
consecución de las metas y objetivos empresariales, por lo tanto si la
administración no está en capacidad de medir la información como puede mejorar,
controlar e implementar mejoras.
La ausencia continua de datos estadísticos al
interior de la organización impide una administración verdadera, clara y menos
compleja, realizar predicciones basadas más en la intuición o en simples
supuestos, tomar decisiones desconociendo las probabilidades de alcanzar los
objetivos, son algunos de los problemas o inconvenientes más comunes hallados
en las empresas, tomar decisiones, dirigir o realizar una función
administrativa con datos intuitivos es lo que contribuye a que las empresas se
equivoquen en sus negocios y por lo general si no cierran sus puertas, si hacen
que sean empresas sin utilidades o más del montón, de la administración depende
el buen uso que se dé a los datos estadísticos lo cual hace la diferencia entre
las compañías, estos datos al interior se utilizan en procesos de producción,
contables, financieros y económicos.
Datos
estadísticos
La presentación de datos estadísticos
constituye en sus diferentes modalidades uno de los aspectos de más uso en
la estadística descriptiva. A partir podemos visualizar a través de los
diferentes medios escritos
y televisivos de comunicación masiva la presentación de los datos
estadísticos sobre el comportamiento de las principales variables económicas y sociales, nacionales e
internacionales.
1-Presentación escrita: Esta forma de presentación
de informaciones se usa cuando una serie de datos incluye pocos valores, por lo cual resulta más apropiada la palabra
escrita como forma de escribir el comportamiento de los datos; mediante la
forma escrita, se resalta la importancia de las informaciones principales.
2-Presentación tabular: Cuando los datos estadísticos
se presentan a través de un conjunto de filas y de columnas que responden a un
ordenamiento lógico; es de gran eso e importancia para el uso e importancia
para el usuario ya que constituye la forma más exacta de presentar
las informaciones. Una tabla consta de varias partes, las principales son las
siguientes:
1)Título
Es la parte más importante del
cuadro y sirve para describir todo el contenido de este.
Encabezados: Son los
diferentes subtítulos que se colocan en la parte superior de cada columna.
Columna matriz:
Es la columna principal del cuadro.
Cuerpo: El cuerpo contiene
todas las informaciones numéricas que aparecen en la tabla.
Fuente: La fuente de los datos
contenidos en la tabla indica la procedencia de estos.
2)
Notas al pie
Son usadas para hacer algunas
aclaraciones sobre aspectos que aparecen en la tabla o cuadro y que no han sido
explicados en otras partes.
3) Presentación gráfica:
Proporciona al lector o
usuario mayor rapidez en la comprensión de los datos, una grafica es
una expresión artística usada para representar un conjunto de datos.
De acuerdo al tipo de variable
que vamos a representar, las principales graficas son las siguientes:
Histograma: Es un conjunto de barras o
rectángulos unidos uno de otro, en razón de que lo utilizamos para representar
variables continuas.
Polígono de frecuencias: Esta
grafica se usa para representar los puntos medios de clase en
una distribución de frecuencias
Gráfica de barras: Es un conjunto de rectángulos
o barras separadas una de la otra, en razón de que se usa para representar
variables discretas; las barras deben ser de igual base o ancho y separadas a
igual distancia. Pueden disponerse en forma vertical y horizontal.
Gráfica lineal: Son usadas principalmente para
representar datos clasificados por cantidad o tiempo;
o sea, se usan para representar tiempo cronológicas.
Gráfica de barra 100% y
gráfica circular: se usan especialmente para representar las partes en que se
divide una cantidad total.
La ojiva: Esta grafica
consiste en la representación de las frecuencias acumuladas de una distribución
de frecuencias. Puede construirse de dos maneras diferentes; sobre la base
"menor que" o sobre la base "o más". Puede determinar
el valor de
la mediana de la distribución.
En estadística denominamos gráficos a aquellas imágenes que, combinando la utilización De
sombreado, colores, puntos, líneas, símbolos, números,texto y
un sistema De referencia (coordenadas), permiten
presentar información cuantitativa.
La utilidad De los gráficos es doble, ya que pueden
servir no sólo como sustituto a las tablas, sino que también constituyen por sí
mismos una poderosa herramienta para el análisis De los datos, siendo en ocasiones
el medio más efectivo no sólo para describir y resumir la
información, sino también para analizarla.
En este trabajo solo nos vamos a centrar únicamente en
los gráficos como vehículo de presentación de datos, sin abordar su
otra faceta como herramienta de análisis.
Gráficos estadísticos
Los gráficos son medios
popularizados y a menudo los más convenientes para presentar datos,
se emplean para tener una representación visual de la totalidad de la información.
Los gráficos estadísticos
presentan los datos en forma de dibujo de
tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos
con otros.
Gráficos de barras
horizontales
Representan valores discretos
a base de trazos horizontales, aislados unos de otros. Se utilizan cuando los
textos correspondientes a cada categoría son muy extensos.
·
para una serie
·
para dos o más
series
Gráficos de barras
proporcionales
Se usan cuando lo que se busca
es resaltar la representación de los porcentajes de los datosque
componen un total. Las barras pueden ser:
Verticales
Horizontales
- Definición del problema o tema investigar: el objetivo básico de
esta etapa es conocer qué área quieres investigar y que fijes los límites de la
información a conocer, es decir, hasta dónde quieres llegar con tu
investigación
- Investigación
preliminar: mediante la revisión de fuentes secundarias o entrevistas a
personas relacionadas con el tema, selecciona las variables importantes objeto
de estudio.
- Determinación de los objetivos
específicos: debes precisar con el detalle suficiente las modalidades que
puede presentar cada variable seleccionada a investigar y, en el caso de que
sea numérica, la unidad de medida de la variable.
-
Diseño de la investigación: especifica los
siguientes aspectos:
o Selección de las
fuentes de información.
o Especificación del
método de recogida: tipo de encuesta (personal, telefónica, postal)
o Diseño del formato de
recogida de datos (borrador del cuestionario y pruebas)
o Diseño muestral a
emplear
o Presupuesto y
planificación temporal.
5. Recogida de los
datos: es necesario que seas cuidadoso al recoger los datos, evita influir
en los encuestados, para evitar errores que puedan afectar a los resultados.
6. Procesamiento de los
datos: en primer lugar depura los datos, revisando los cuestionarios y
graba las respuestas mediante códigos numéricos en el programa informático elegido
para hacer el análisis (hoja de cálculo, paquete estadístico o base de datos).
7. Analiza los
resultados e interprétalos: calcula estadísticos resumen (frecuencias,
porcentajes, medias) de cada variable objeto de estudio. También, puedes
elaborar tablas cruzadas entre dos variables.
8. Elaboración del
informe: presenta los resultados más importantes que hayas logrado en tu
investigación. Combina tablas y gráficos para hacer más atractiva la
presentación de estos resultados.
¿QUE ES LA ESTADÍSTICA DESCRIPTIVA?
La estadística
descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una
población, altura de los estudiantes de una escuela, temperatura en los meses
de verano, etc) y trata de extraer conclusiones sobre el comportamiento de
estas variables.
Las variables pueden ser de dos
tipos:
Variables cualitativas o atributos: no se pueden medir numéricamente (por
ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio
de un producto, ingresos anuales).
Las variables también se
pueden clasificar en
Variables unidimensionales: sólo recogen información sobre
una característica (por ejemplo: edad de los alumnos de una clase).
Variables bidimensionales: recogen información sobre dos
características de la población (por ejemplo: edad y altura de los alumnos de
una clase).
Variables pluridimensionales: recogen información sobre tres o
más características (por ejemplo: edad, altura y peso de los alumnos de una
clase).
Por su parte, las variables cuantitativas se pueden
clasificar en discretas y continuas
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo,
nunca podrá ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo,
la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.
Cuando se estudia el comportamiento de una variable hay que distinguir
los siguientes conceptos
Individuo
cualquier elemento que porte información sobre el fenómeno que se
estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es
un individuo; si estudiamos el precio de la vivienda, cada vivienda es un
individuo.
Población
conjunto de todos los individuos (personas, objetos, animales,
etc.) que porten información sobre el fenómeno que se estudia. Por ejemplo, si
estudiamos el precio de la vivienda en una ciudad, la población será el total
de las viviendas de dicha ciudad.
Muestra
subconjunto que seleccionamos de la población. Así, si se estudia
el precio de la vivienda de una ciudad, lo normal será no recoger información
sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que
se suele seleccionar un subgrupo (muestra) que se entienda que es
suficientemente representativo.
Estadística inferencial
La estadística inferencial es una
parte de la estadística que comprende los métodos y
procedimientos para deducir propiedades de una población estadística, a partir de una pequeña parte de la misma. La estadística
inferencial comprende como aspectos importantes:
§ La toma de muestras o muestreo.
§ La estimación de parámetros
o variables estadísticas.
§ El contraste de hipótesis.
§ El diseño experimental.
§ La inferencia bayesiana.
§ Los métodos no paramétricos
Muestreo en estadística
En estadística se conoce como muestreo a la
técnica para la selección de una muestra a partir de una población.
Al elegir una muestra se espera conseguir que
sus propiedades sean extrapolables a la población. Este proceso
permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se
alcanzarían si se realizase un estudio de toda la población.
Cabe mencionar que para que el muestreo sea
válido y se pueda realizar un estudio adecuado (que consienta no solo hacer
estimaciones de la población sino estimar también los márgenes de error
correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca
podremos estar enteramente seguros de que el resultado sea una muestra
representativa,
pero sí podemos actuar de manera que esta condición se alcance con una
probabilidad alta.
En el muestreo, si el tamaño de la muestra es
más pequeño que el tamaño de la población, se puede extraer dos o más muestras
de la misma población. Al conjunto de muestras que se pueden obtener de la
población se denomina espacio
muestral. La variable que asocia a cada muestra su probabilidad de
extracción, sigue la llamada distribución
muestral.
Planteamiento del problema
Un problema de inferencia estadística suele
iniciarse con una fijación de objetivos o algunas preguntas del tipo:
¿Cuál
será la media de esta población respecto a tal característica?
¿Se parecen
estas dos poblaciones?
¿Hay
alguna relación entre...?
En el planteamiento se definen con precisión la
población, la característica a estudiar, las variables, etc.
Elaboración de un
modelo
Se establece un modelo teórico de
comportamiento de la variable de estudio. En ocasiones no es posible diseñar el
modelo hasta realizar un estudio previo.
Los posibles modelos son distribuciones
de probabilidad.
Extracción de la
muestra
Se usa alguna técnica de muestreo o un diseño
experimental para obtener información de una pequeña parte de la población.
Tratamiento de los
datos
En esta fase se eliminan posibles errores, se
depura la muestra, se tabulan los datos y se calculan los valores que serán
necesarios en pasos posteriores, como la media
muestral,
la varianza muestral
Los métodos de esta etapa están definidos por
la estadística
descriptiva.
UNIDAD II
ESTADISTICA DESCRIPTIVA: MÉTODOS TABULACIONES Y GRÁFICAS
RECOLECCIÓN DE DATOS CUALITATIVOS
Los datos cualitativos
consisten en la descripción detallada de situaciones, eventos, personas,
comportamientos observables, citas textuales de la gente sobre sus experiencia,
actitudes, creencias y pensamientos.
Estos datos cualitativos
pueden recogerse utilizando instrumentos como: grabación de entrevistas
individuales, videos de observaciones de eventos particulares, testimonios
escritos de las personas con respecto al tema a investigar, fotografías,
historias de vida, documentos escritos como: actas, recortes de prensa.
Cuando se realiza una
investigación cualitativa ,se exige la participación del grupo, se definir el
problema a investigar, y el investigador principal debe ser un buen
coordinador, mediador y facilitador para que genere un proceso de comunicación
con el grupo.
Una vez determinado el equipo
de investigación y la planificación del trabajo de campo, el investigador
principal debe tener en claro los objetivos, las etapas, y las actividades a
realizar en cada salida de campo.
Ante todo el investigador debe
visualizar y prever con anticipación las situaciones que se puedan presentar
durante su estadía en la comunidad.
Luego se recomienda una
elaboración de guías de trabajo de campo, sin descuidar los objetivos
principales.
Para garantizar el cumplimiento
de estos planes de actividades, el equipo investigador debe reunirse al final
de cada jornada para evaluar las tareas realizadas y programar las siguientes.
Los instrumentos que mas se
utilizan en los datos cualitativos son:
Entrevistas
individuales: se define como una conversación, verbal, cara a cara y tiene como
propósito conocer lo que piensa o siente una persona con respecto un tema en
particular.
Esta clase de entrevista
permite preguntar sobre cuestiones mas complejas con mayor detenimiento,
produce por parte del entrevistado mayor participación.
Entrevistas
a grupos focales: Es rápida,
oportuna, válida y poco costosa, también constituye una fuente importante de
información para comprender las actitudes y creencias, saber cultural, y las
percepciones de una comunidad.
Esta entrevista es un medio
para recolectar en poco tiempo información cualitativa, por lo general con
grupos de
6 a 12 personas, y se divide en 2 componentes
esenciales.
·
El contenido de la información
( lo que se dice).
·
El proceso de la comunicación
(como se dice ).
Para realizar una entrevistas
focales, el responsable debe manejar entrevistas individuales y saber técnicas
para la dinámica en grupo.
Observación:
Constituye un conjunto de técnicas que permiten al investigador adquirir
conocimientos por medio de la observación directa y el registro de fenómenos.
En la observación será
necesario tener en cuenta dos aspectos importante que pueden influir en el
resultado obtenido tras la misma, es el ocultamiento y la intervención. En el
ocultamiento el individuo observado puede percatarse de la presencia del
observador y distorsionar la conducta. La intervención denota el grado en que
el investigador, a diferencia de un observador pasivo, estructura el ámbito de
observación en respuesta a las necesidades del estudio.
Los métodos de observación
varían según su estructura, así tenemos la observación no estructurada que
emplea el procedimiento de la observación participante en la que el
investigador actúa como observador y se familiariza con el lugar para
posteriormente volverse participante activo.
Los métodos de observación
estructurada imponen una serie de limitantes al observador, con el propósito de
incrementar su precisión y objetividad, a fin de obtener una representación
adecuada del fenómeno de interés.
El papel del entrevistador es
muy importante, porque él es un facilitador del proceso de comunicación
entre dos personas, su papel es inducir profundidad y detalle en las opiniones
del entrevistado, debe inspirar confianza, escuchar activamente y atender el
comportamiento verbal y no verbal de la persona que habla.
“Según Patton: la entrevista
cualitativa puede tomar las siguientes formas:
Entrevista informal
conversacional, entrevista estructurada con una guía y entrevista
estandarizada.”
La
entrevista informal conversacional: las preguntas se formulan en
torno a un asunto que se explora ampliamente sin utilizar un guía que delimite
el proceso.
La
entrevista estructurada con un guía: procura un marco de
referencia a partir del cual se plantean los temas pertinentes al estudio y
posibilita un proceso de recolección, y facilita un mejor manejo de la
información.
La
entrevista estandarizada: Organiza y formaliza el
proceso de recolección, este tipo de entrevistas es pertinente cuando hay más
de una persona responsable de recolectar información.
Una vez definida la modalidad
de pregunta el investigador debe tomar una decisión para relacionar el tipo de
pregunta, la secuencia, el nivel de detalles, y la duración de la entrevista.
Los tipos de preguntas pueden
ser:
·
Preguntas sobre experiencias o
comportamientos: lo que hacen o ha hecho una persona.
·
Pregunta sobre sentimientos:
respuestas emocionales de las personas.
·
Preguntas sobre opinión: lo que
ellos piensan.
·
Preguntas sobre conocimientos:
lo que las personas saben específicamente.
·
Preguntas sobre sensaciones:
lo que ven, oyen, tocan.
·
Preguntas de carácter
histórico: características del informante.
Es recomendable comenzar las
entrevistas con preguntas descriptivas, sobre comportamientos, actividades, o
experiencias, temas que requieran poca memoria, e interpretación y sean fáciles
de contestar.
Se recomienda plantear
preguntas abiertas para que la persona entrevistadas responda en sus propios términos
y seleccione sus propias categorías.
También se debe evitar hacer
preguntas dicótomas, porque inducen respuestas de si o no.
Al realizar la entrevista de
debe iniciar con la presentación del investigador y explicar el objetivo de la
misma, dar a conocer los temas a tratar en la entrevista.
La calidad de los datos de una
entrevista depende estrechamente de las aptitudes de relación interpersonal del
entrevistador, quien debe procurar crear un clima tranquilo para la entrevista
y entablar con los informantes un nivel satisfactorio de comunicación.
DATOS CUANTITATIVOS
La investigación
cuantitativa es aquella en la que se recogen y analizan datos cuantitativos
sobre variables.
La investigación
cualitativa evita la cuantificación. Los investigadores cualitativos
hacen registros narrativos de los fenómenos que son estudiados mediante
técnicas como la observación participante y las entrevistas no estructuradas.
La diferencia fundamental entre ambas metodologías es que la
cuantitativa estudia la asociación o relación entre variables
cuantificadas y la cualitativa lo hace en contextos estructurales y
situacionales. La investigación cualitativa trata de identificar la
naturaleza profunda de las realidades, su sistema de relaciones, su estructura
dinámica. La investigación cuantitativa trata de determinar la fuerza de
asociación o correlación entre variables, la generalización y objetivación de
los resultados a través de una muestra para hacer inferencia a una población de
la cual toda muestra procede. Tras el estudio de la asociación o
correlación pretende, a su vez, hacer inferencia causal que explique por qué
las cosas suceden o no de una forma determinada.
Las
diferencias más ostensibles entre ambas metodologías se muestran en la tabla.
Los fundamentos de la metodología cuantitativa podemos encontrarlos en el
positivismo que surge en el primer tercio del siglo XIX como una reacción ante
el empirismo que se dedicaba a recoger datos sin introducir los conocimientos
más allá del campo de la observación. Alguno de los científicos de esta
época dedicados a temas relacionados con las ciencias de la salud son Pasteur y
Claude Bernard, siendo este último el que propuso la experimentación en
medicina. A principios
del siglo XX, surge el neopositivismo o positivismo lógico siendo una de las
aportaciones más importantes la inducción probabilística. La clave del
positivismo lógico consiste en contrastar hipótesis probabilísticamente y en
caso de ser aceptadas y demostradas en circunstancias distintas, a partir de
ellas elaborar teorías generales. La estadística dispone de instrumentos
cuantitativos para contrastar estas hipótesis y poder aceptarlas o rechazarlas
con una seguridad determinada. Por tanto el método científico, tras una
observación, genera una hipótesis que contrasta y emite posteriormente unas
conclusiones derivadas de dicho contraste de hipótesis.
El contrastar una
hipótesis repetidamente verificada no da absoluta garantía de su generalización
ya que, como señala Karl Popper, no se dispone de ningún método capaz de
garantizar que la generalización de una hipótesis sea válida. Con el
ejemplo de los cisnes, K. Popper rebatía las tesis neopositivistas sobre la
generalización de las hipótesis.. "todos los cisnes de Austria eran
blancos... no se dispone de datos sobre el color de los cisnes fuera de
Austria..., todos los cisnes son blancos...". En el momento actual
no hay ningún método que garantice que la generalización de una hipótesis sea
válida, pero sí se puede rebatir una hipótesis con una sola evidencia en contra
de ella. Es por ello que la ciencia, como señala K. Popper "busca
explicaciones cada vez mejores".
Datos Cuantitativos
Datos que pueden ser contados (llamados
"datos discretos") o medidos (llamados "datos continuos").
Datos Cualitativos: cuando
los datos son cuantitativos, la diferencia entre ellos es de clase y no de
cantidad.
Ejemplo:
Si deseamos clasificar los
estudiantes que cursan la materia de estadística I por su estado civil,
observamos que pueden existir solteros, casados, divorciados, viudos.
TABULACIONES CRUZADAS Y DIAGRAMAS DE DISPERSIÓN
INTRODUCCIÓN
Este
documento describe el proceso completo a seguir para analizar la
Existencia
de una relación lógica entre dos variables.
Describe
la construcción de los Diagramas de Dispersión a partir de la recogida
de
datos acerca de dichas variables y el análisis posterior necesario para
Confirmar
la correlación que puede mostrar dicho diagrama, ya que ésta no
Implica
la existencia de una relación lógica.
DIAGRAMA DE DISPERSIÓN
La
representación gráfica más útil para describir el comportamiento conjunto de
dos variables es el diagrama de dispersión o nube de puntos, donde cada caso
aparece representado como un punto en el plano definido por las variables x1y x2 Para obtener un diagrama de dispersión la secuencia es:
Gráficos
Dispersión
El
cuadro de diálogo siguiente:
recoge diferentes tipos de diagramas de
dispersión. Éstos pueden ser:
1. Simple: si el
diagrama sólo recoge el comportamiento simultáneo de dos variables, una
definida en el eje X (abscisas) y la otra en el eje Y (ordenadas). Con el
botón Definir se abre el siguiente cuadro:
- En Eje X se selecciona la
variable que se considera independiente y en Eje Y la
dependiente.
- En Establecer marcas por puede
indicarse alguna variable de control cuyas categorías o valores se
representan con un símbolo o color distintivo. Esto permite identificar
los puntos pertenecientes a cada categoría y poner de manifiesto si
existen comportamientos diferenciados.
- En Etiquetar los casos mediante se
puede indicar alguna variable cuyos valores se tomarán como etiquetas de
los casos. Para visualizar las etiquetas es preciso activar la
opción Mostrar el gráfico con las etiquetas de caso del
cuadro de diálogo Opciones.
- El botón Títulos ofrece la
posibilidad de definir dos líneas de título y un subtítulo, y dos líneas
de nota al pie del gráfico.
La tabulación cruzada: Es el proceso de creación de una tabla de contingencia desde la distribución de
frecuencias multivariada de las
variables estadísticas. Muy utilizada en la investigación de encuestas, la
tabulación cruzada (o tabla cruzada, de forma abreviada) se suelen producir por
una sería de paquetes estadísticos, entre ellos algunos que se especializan en
la tarea. Frecuentemente se suelen incorporar ponderaciones de encuesta. Las
tablas sin ponderar se pueden producir fácilmente por algunas hojas de cálculo y otras herramientas
de inteligencia empresarial, conocidas comúnmente como tablas pivote (también conocidas como tablas dinámicas).
MEDIDAS
DE VARIABILIDAD
Definición:
Son intervalos que indican la dispersión de
los datos en la
escala
de medición.
Responden la pregunta: ¿Dónde están
diseminadas las
puntuaciones
o los valores obtenidos?
Las medidas de variabilidad más utilizadas
son: amplitud
(rango),
desviación estándar y varianza.
AMPLITUD
Exclusiva (RANGO)
Definición:
Es
la medida de variabilidad más simple.
También llamado rango, es la diferencia entre la puntuación
menor,
e indica el número de unidades en la escala de
medición
que se necesitan para incluir los valores máximo y
mínimo.
Ejemplo:
17,
18, 20, 20, 24, 28, 28, 30, 33
Rango:
33-17= 16
VARIANZA
Definición:
Esta relacionada con el tamaño de la diferencia entre cada
puntuación
y la media aritmética de la distribución a que
pertenece.
Es la desviación estándar elevada al cuadrado y se simboliza s
y
un 2 como potencia.
Es un concepto estadístico muy importante, ya que muchas
de
las pruebas cuantitativas se fundamentan en él.
Sin embargo, con fines descriptivos se utiliza
preferentemente
la desviación estándar.
DESVIACIÓN
ESTÁNDAR O TÍPICA
Definición:
Es el promedio de desviación de las puntuaciones con
respecto
a la media.
Esta medida se expresa en las unidades originales de
medición
de la distribución.
Cuanto mayor sea la dispersión de los datos alrededor de la
media,
mayor será la desviación estándar.
Se simboliza con s o mediante la abreviatura
DE.
ANALISIS
EXPLORATORIO DE DATOS
Presentación:
La
finalidad del Análisis Exploratorio de
Datos (AED) es examinar los datos
previamente
a la aplicación de cualquier técnica estadística. De esta forma el analista
consigue
un entendimiento básico de sus datos y de las relaciones existentes entre las
variables
analizadas.
El
AED proporciona métodos sencillos para organizar y preparar los datos, detectar
fallos
en el diseño y recogida de datos, tratamiento y
evaluación de datos ausentes,
identificación
de casos atípicos y comprobación de los supuestos subyacentes en la mayor
parte
de las técnicas multivariantes.
ANÁLISIS
EXPLORATORIO DE DATOS
El
análisis exploratorio tiene como objetivo identificar el modelo eórico más
adecuado para representar la población de la cual proceden los datos
muestrales. Dicho análisis se basa en gráficos y estadísticos que permiten
explorar la distribución identificando características tales como: valores
atípicos o outliers, saltos o discontinuidades, concentraciones de valores, forma
de la distribución, etc. Por otra parte, este análisis se puede realizar sobre
todos los casos conjuntamente o de forma separada por grupos. En este último
caso los gráficos y estadísticos permiten identificar si los datos proceden de
una o varias poblaciones, considerando la variable que determina los grupos
como factor diferenciador de las poblaciones. También permite comprobar,
mediante técnicas gráficas y contrastes no paramétricos, si los datos han sido
extraídos de una población con distribución aproximadamente normal.
Para realizar un análisis exploratorio,
la secuencia de instrucciones es:
Analizar
Estadísticos Descriptivos
Explorar
• Si el análisis de
la variable se realiza conjuntamente para todos los casos es suficiente indicar
la o las variables en la ventana Dependientes.
• Si el análisis de
la variable se realiza por grupos es necesario indicar también la variable que
define los grupos en la
ventana Factores.
Opcionalmente
se puede indicar en la ventana Etiquetar los casos mediante una
variable cuyos valores se tomarán para etiquetar los outliers.
El análisis exploratorio calcula, por defecto, los estadísticos más
importantes así como el intervalo de confianza para la media al 95%, el gráfico
de tallo y hojas y el diagrama de caja. Para ampliar éste análisis se puede
acceder a los siguientes cuadros de diálogo intervalo media
•
Estadísticos: Permite modificar el grado de
confianza del intervalo para la media, calcular Estimadores robustos
centrales (estimador M de Huber, estimador en onda de Andrews,
estimador M redescendente de Hampel, estimador biponderado de Tukey), y hallar
los Valores atípicos (se obtienen los 5 mayores y los 5
menores valores de la distribución) y algunos Percentiles (los
cuartiles y el 5º, 10º, 90º y 95º centil).
Gráficos:
Las opciones del Diagrama
de caja se utilizan sólo cuando se han seleccionado varias variables
dependientes. Por defecto, se presentan en gráficos distintos las variables
dependientes seleccionadas, y para cada una de ellas, en el mimo gráfico, las
cajas de los distintos grupos definidos por el factor. Si se seleccionaDependientes
juntas se representan en un único gráfico las cajas correspondientes
a todas las variables dependientes. Con la opción Ninguno se
omite la presentación de los diagramas de caja.
Las alternativas de Descriptivos son
el gráfico de tallo y hojas, activado por defecto, y el histograma. Estos
gráficos se elaboran por separado para todos los grupos definidos para cada
una de las variables dependientes.
-Si se activa la opción Gráficos
con pruebas de normalidad se obtienen para cada una de las variables
dependientes y para cada uno de los grupos el correspondiente gráfico Q-Q
Normal y el gráfico Q-Q Normal sin tendencia. Estos gráficos permiten
comprobar si las poblaciones de las que se han extraído las muestras
presentan distribución normal. El Q-Q Normal presenta simultáneamente para
cada elemento el valor observado y el valor esperado bajo el supuesto de
normalidad. Si los datos proceden de una distribución normal los puntos
aparecen agrupados en torno a la línea recta esperada. El Q-Q Normal sin
tendencia se basa en las diferencias entre los valores observados y los
valores esperados bajo la hipótesis de normalidad. Si estas diferencias se
distribuyen aleatoriamente alrededor del eje de abscisas puede suponerse que
la hipótesis de normalidad es sostenible. Además, esta opción permite
contrastar la hipótesis de normalidad con las prueba de Kolgomorov-Smirnov* y
de Shapiro-Wilks*.
La opción Dispersión por
nivel con prueba de Levene, activando No transformados,
permite contrastar la hipótesis de igualdad de varianza para los grupos
definidos por un factor.
• Opciones controla el tratamiento de los valores missing en el análisis exploratorio.
UNIDAD
III
ESTADISTICA DESCRIPTIVA: METODOS
NUMERICOS
Medidas de Localización:
Cuartiles, deciles y percentiles.
Las medidas de localización
dividen la distribución en partes iguales, sirven para clasificar a un
individuo o elemento dentro de una determinada población o muestra. Así en
psicología los resultados de los test o pruebas que realizan a un determinado
individuo, sirve para clasificar a dicho sujeto en una determinada categoría en
función de la 53-1-u-puntuacióMn obtenida.
Cuartiles
Medida de localización que divide
la población o muestra en cuatro partes iguales.
- Q1= Valor de la variable que deja a la
izquierda el 25% de la distribución.
- Q2= Valor de la variable que deja a la
izquierda el 50% de la distribución = mediana.
- Q3= Valor de la variable que deja a la
izquierda el 75% de la distribución.
Al igual que ocurre con el
cálculo de la mediana, el cálculo de estos estadísticos, depende del tipo de
variable.
Caso
I: Variable cuantitativa discreta:
En este caso tendremos que observar el tamaño de
la muestra: N y para calcular Q1 o
Q3 procederemos como
si tuviésemos que calcular la mediana de la correspondiente mitad de la
muestra.
Caso
II: Variable cuantitativa continua:
En este caso el cálculo es más simple:, sea la
distribución que sigue:
[Li-2 -- Li-1)
ni-1
Ni-1
[Li-1 -- Li)
ni
Ni
Siendo el intervalo coloreado
donde se encuentra el Cuartil correspondiente:
Deciles
Medida de localización que divide
la población o muestra en 10 partes iguales
No tiene mucho sentido
calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver
sólo para las variables continuas.
dk = Decil k-simo es aquel valor de
la variable que deja a su izquierda el k·10 % de la distribución.
[Li-2 -- Li-1)
ni-1
Ni-1
[Li-1 -- Li)
ni
Ni
Intervalo donde se encuentra el
Decil correspondiente:
k = 1 .. 9
EJEMPLO:
Como se puede observar la forma
de calcular estas medidas es muy similar a la del cálculo de la mediana.
Veamos el cálculo de algunas de
estas medidas en el ejemplo que estamos estudiando.
Vamos a calcular Q1,Q3,
d3, y p45
Li-1
Li
ni
Ni
45
55
6
6
55
65
10
16
65
75
19
35
75
85
11
46
85
95
4
50
Cálculo de Q1:
Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25%
de N=50, corresponde al 2º intervalo.(50/4=12.5)
Análogamente calculemos Q3,
Buscamos ahora en la misma columna el correspondiente al 75 %de N que en este
caso es el 4º intervalo (3.50/4=37.5)
Veamos ahora el decil 3º.
(corresponde al 30 % 3 · 50 / 10 = 15) sería el 2º intervalo.
Por último veamos el percentil 45
(45·50/100 = 22.5) Corresponde al intervalo 3º.
Algunas medidas de Dispersión asociadas
Una vez estudiadas las medidas de
localización surgen dos nuevas medidas de dispersión, que son:
Recorrido intercuartílico
Semi recorrido intercuartílico:
Recorrido interdecílico:
Recorrido intercentilico:
MEDIDAS DE VARIABILIDAD
Definición:
Son intervalos que indican la dispersión de
los datos en la
escala
de medición.
Responden la pregunta: ¿Dónde están
diseminadas las
puntuaciones
o los valores obtenidos?
Las medidas de variabilidad más utilizadas
son: amplitud
(rango),
desviación estándar y varianza.
AMPLITUD
Exclusiva (RANGO)
Definición:
Es
la medida de variabilidad más simple.
También llamado rango, es la diferencia entre la puntuación
menor,
e indica el número de unidades en la escala de
medición
que se necesitan para incluir los valores máximo y
mínimo.
Ejemplo:
17,
18, 20, 20, 24, 28, 28, 30, 33
Rango:
33-17= 16
VARIANZA
Definición:
Esta
relacionada con el tamaño de la diferencia entre cada
puntuación
y la media aritmética de la distribución a que
pertenece.
Es
la desviación estándar elevada al cuadrado y se simboliza s
y
un 2 como potencia.
Es
un concepto estadístico muy importante, ya que muchas
de
las pruebas cuantitativas se fundamentan en él.
Sin
embargo, con fines descriptivos se utiliza
preferentemente
la desviación estándar
DESVIACIÓN
ESTÁNDAR O TÍPICA
Definición:
Es el promedio de desviación de las puntuaciones
con
respecto
a la media.
Esta medida se expresa en las unidades
originales de
medición
de la distribución.
Cuanto mayor sea la dispersión de los datos
alrededor de la
media,
mayor será la desviación estándar.
Se simboliza con s o mediante la abreviatura
DE.
Manejo de valores
atípicos
¿Cómo determina si un valor es realmente un
valor atípico y cómo decide si debe continuar o no con el análisis de datos?
A. Uno
de los problemas arduos en el análisis de datos es manejar los valores atípicos
en un grupo de datos. Un valor atípico es una observación con un valor que no
parece corresponderse con el resto de los valores en el grupo de datos. Los
valores atípicos también suelen llamarse valores aberrantes o inconsistentes.
Por lo general surgen dos preguntas: 1) ¿Es este valor realmente un valor
atípico? 2) ¿Puedo eliminar este valor y continuar con el análisis de datos?
La
pregunta 1 se refiere a la identificación de un valor atípico, y dos
herramientas básicas relacionadas son la representación gráfica y la prueba
estadística. Un excelente gráfico para observar la distribución de
pequeños grupos de datos es el gráfico de puntos. Por ejemplo, tomemos
los datos 5.3, 3.1, 4.9, 3.9, 7.8, 4.7 y 4.3 para los que se muestra el gráfico
de puntos en la Figura 1.
Figura 1 — Trazado de puntos para los datos, 5.3, 3.1, 4.9, 3.9,
7.8, 4.7 y 4.3.
Aquí, el
valor 7.8 parecer ser un valor atípico porque está bien a la derecha del resto
en el gráfico de puntos. En el gráfico, en realidad estamos mirando los
espacios entre los valores de datos.
Dos de
las pruebas estadísticas utilizadas con mayor frecuencia en un grupo de datos
único son la prueba de Dixon y la prueba de Grubbs. La prueba de Dixon utiliza
relaciones de los espacios entre datos de diferentes modos según la cantidad de
valores en el grupo de datos. En el ejemplo anterior, el tamaño de la muestra
es 7, y la relación utilizada es el espacio entre el valor atípico (7.8) y su
vecino más próximo (5.3) dividido por el espacio entre los valores más grandes
y más pequeños en el grupo. Por lo tanto, el índice de Dixon es:
(7.8 – 5.3)/(7.8 – 3.1) = 2.5/4.7 = 0.532
Este
valor se compara con un valor crítico de una tabla, y el valor se declara valor
atípico si supera ese valor crítico. El valor crítico depende del tamaño de la
muestra, n, y de un nivel de representatividad elegido, que es el riesgo de
rechazar una observación válida. La tabla por lo general utiliza niveles de
baja representatividad tal como 1% o 5%. Para Para un n = 7 y un riesgo del 5%,
el valor crítico es 0.507. El índice de Dixon 0.532 excede este valor crítico,
indicando que el valor 7.8 es un valor atípico.
La
prueba de Grubbs utiliza una estadística de prueba, T, que es la diferencia
absoluta entre el valor atípico, XO, y el promedio de la muestra X dividida por la desviación estándar
de la muestra, s. Para el ejemplo anterior, el promedio de la muestra es X= 4.86 y la desviación estándar de
la muestra es = 1.48. La estadística calculada de la prueba es:
Para un
n = 7 y un riesgo del 5%, el valor crítico es 1.938 y el T = 1.99 excede este
valor crítico, indicando que el valor 7.8 es un valor atípico.
Con
respecto a la pregunta 2, debe saberse que las pruebas estadísticas se utilizan
para identificar valores atípicos, no para retirarlos del grupo de datos.
Técnicamente, una observación no debe retirarse a menos que una investigación
halle una causa probable para justificar esta acción. Algunas compañías han
definido procedimientos para estas investigaciones, incluyendo la repetición de
la prueba del material asociado a la observación de valores atípicos, en caso
de ser posible.
En
algunos casos, la situación física puede definir el problema. Para las tres
observaciones, 98.7, 90.0 y 99.7, el índice de Dixon es
8.7/9.7 = 0.897
El valor
crítico para un n = 3 y un riesgo de 5% es 0.941, ¡por lo que el valor 90.0 no
puede identificarse como valor atípico! Parte del motivo puede ser la
proximidad cercana de los otros dos valores. Sin embargo, si los valores
registrados son temperaturas del cuerpo humano en grados Fahrenheit, no hace
falta una prueba de valor atípico para llegar a la conclusión de que algo está
mal. Este ejemplo también ilustra que es difícil identificar valores atípicos
en pequeños grupos de datos, tal como n < 5. La norma ASTM, método para
llevar a cabo un estudio entre laboratorios para determinar la precisión de un
método de prueba, desalienta estas pruebas de valores atípicos para pequeños
grupos de resultados de pruebas repetidos en un mismo laboratorio y sugiere
otras metodologías para identificar grupos de datos aberrantes.
Si en la
investigación no se encuentra una causa probable, ¿qué debe hacerse? Un enfoque
sería realizar un análisis de datos con el valor atípico y sin él. Si las
conclusiones son diferentes, entonces se considera que el valor atípico tiene
influencia y esto debería indicarse en el informe. Otra opción es utilizar
estimadores rigurosos para caracterizar los grupos de datos, tal como la
mediana de la muestra en lugar de la media.
La ASTM, Práctica para manejar observaciones de
valores atípicos, contiene muchos procedimientos estadísticos para realizar
pruebas de valores atípicos. E178 de ASTM se indican otras referencias.
Cuando
hay múltiples valores atípicos en un grupo de datos, la investigación resulta más
complicada, pero existen procedimientos de prueba para estos casos. Un problema
es que un valor atípico puede enmascarar otro valor atípico en una prueba de un
valor atípico único. La prueba de Dixon supera esto redefiniendo los espacios a
utilizar a medida que aumenta el tamaño de la muestra. Este tema está bien
tratado en la norma E178 y en otras fuentes.
Resulta importante
destacar que lo primero es considerar los datos gráficamente para identificar
la posible existencia de más de un valor atípico, ya sea en la misma dirección
o en la dirección opuesta, antes de utilizar la técnica de Dixon o la técnica
de Grubbs. Estas técnicas están diseñadas para detectar un único valor atípico
en un grupo de datos, y por lo tanto no son adecuadas para la detección de
múltiples valores atípicos. Una técnica rigurosa y amplia para identificar
eficazmente múltiples valores atípicos es el procedimiento para muchos valores
atípicos con generalización extrema de la desviación de Student, descrito en la
Referencia Básica de ASQ, Volumen 16. Si bien los valores atípicos múltiples
están fuera del alcance deseado de este artículo, los lectores interesados
pueden consultar la bibliografía mencionada para obtener ayuda o también pueden
consultar a un especialista en estadísticas
MODALIDAD DE LOCALIZACIÓN RELATIVA Y DETECCIÓN DE VALORES ATIPICOS
En epidemiología, las medidas de asociación tratan de estimar la magnitud con la
que dos fenómenos se relacionan. Dicha asociación no implica necesariamente causalidad. Ejemplos de medidas de
asociación son:
- El riesgo relativo,
utilizado en los estudios de cohortes. Compara la ocurrencia o incidencia acumulada de un suceso entre quienes están expuestos a un factor de riesgo y quienes no.
- La razón de tasas, compara tasas de incidencia, es decir, la velocidad a la que ocurre un determinado fenómeno
entre personas expuestas y no expuestas a un factor de riesgo.
- El radio, que se usa en los estudios de casos y
controles, y que nos permite
relacionar cuánto más probable es que se produzca una exposición
determinada entre las personas enfermas (casos) que entre las sanas
(controles).
En estadística hay datos cualitativos y cuantitativos para las pruebas de 1, 2 y 3 o
más variables. Típicos estadísticos de asociación son la regresión y la correlación, que a su vez se divide en datos cardinales y ordinales.
MEDIDAS DE ASOCIACIÓN PARA DATOS ORDINALES
En el cuadro de diálogo Tablas de contingencia: Estadísticos pueden
activarse diversas opciones que proporcionan medidas de asociación cuando las
variables se miden por lo menos en una escala ordinal; las más utilizadas son:
1. Correlaciones: con esta opción se
obtienen los estadísticos:
- Coeficiente
de correlación de Pearson: es una medida de asociación lineal
adecuada para variables medidas en escala de intervalo *.
Coeficiente de correlación
de Spearman:
mide el grado de correspondencia que existe entre los rangos que se asignan a
los valores de las variables analizadas. Por ello, este coeficiente se puede
- calcular
con datos ordinales, y se define: , siendo di la diferencia entre
los rangos correspondientes a la observación i-ésima. El coeficiente toma
valores entre -1 y +1. Un valor cercano a 0 indica que las variables
apenas están relacionadas.
- La Mediana
(X0.5):
-
Cuando una serie de datos contiene uno o dos valores muy
grandes o muy pequeños, la media aritmética no es representativa. El valor
central en tales problemas puede ser mejor descrito usando una medida de tendencia
central llamada mediana., y denotada por X0.5
La mediana es una medida de posición y se define como la
posición central en el arreglo ordenado de la siguiente manera:
Dado un conjunto de números agrupados en orden creciente
de magnitud, la mediana es el número colocado en el centro del arreglo, de tal
forma que una mitad de las observaciones está por encima y la otra por debajo
de dicho valor. Si el número de observaciones es par, la mediana es la media de
los dos valores que se hallan en el medio del arreglo, de donde se concluye en
la siguiente definición:
Mediana. Es el punto medio de los valores de una serie de datos después de haber
sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana
como posteriores en el arreglo de datos
·
La Mediana para
datos no agrupados.
Sea X1, X2; X3; … ; Xn; una sucesión de datos, la mediana
denotada por X0.5 se calcula de la siguiente manera:
X0.5 = X (n+1)/2 si n es par
Xn/2 + X(n/2)+1
X0.5= ---------------------- si n es impar
2
Nota: El resultado obtenido en la formula corresponde al
número de la observación en el arreglo, por tanto debe reemplazarse por el
valor de dicha variable en el arreglo.
Ejemplo: (n es impar)
Se tienen las edades de cinco estudiantes universitarios
de I año, a saber: 18,23,25.27 y 35. Obsérvese que los datos deben estar
ordenad
Por cuanto que el número de datos es cinco (n=5) y es
impar, entonces
X0.5 = Xn+1/2 =
X(5+1)/2 = X6/2 = X3 = 25 años
Nota: obsérvese que se obtuvo el número de la variable
mediana (X3) que en el arreglo de edades ordenado en forma ascendente
corresponde a 25 años (X3=25)
Continuación del ejemplo…(n es par)
Si el número de estudiantes hubiere sido par, suponga que
se adiciona un estudiante con 31 años, entonces el arreglo ascendente
consecuente sería 18, 23, 25, 27, 31 y 35, entonces la mediana se calcula asi:
·
La mediana para
datos agrupados
Si se tiene una distribución de frecuencias, la mediana
es igualmente ese valor que tiene 50% de las observaciones por debajo y 50 %
por encima. Geométricamente, la mediana es el valor de X sobre el eje de las
abscisas correspondiente a la ordenada que divide un histograma en dos partes
de igual área.
Para hallar el valor de la mediana, en el caso de datos
agrupados debe encontrarse primero la clase mediana, la que se define como la
clase más baja para la cual la frecuencia acumulada excede N/2 (siendo N=Σfi ).
Encontrada esta clase, la siguiente formula servirá para hallar el valor de la
mediana
N/2 – fa
X0.5 = Li +
------------- ( C )
fi
donde:
L = límite inferior de la clase mediana.
N = frecuencia total o Σfi.
fa = frecuencia absoluta acumulada hasta la clase
premediana
fi = frecuencia absoluta de la clase mediana
C = amplitud de la clase mediana.
Ejemplo:
Si se toman los datos obtenidos del ejemplo resuelto al
construir la tabla de distribución de frecuencias de las cuentas por cobrar de
la tienda Cabrera’s y Asociados que fueron las siguientes
Si se desea calcular la mediana, es necesario primero
encontrar la clase mediana, que será aquella que en teoría contenga el dato N/2 = 30/2 = 15, que corresponde con la
tercera clase por cuanto que la frecuencia acumulada (fa) hasta esa clase es
19, luego entonces:
Respuesta: La mediana de cuentas por cobrar es B/.39.133
·
Propiedades de
la mediana
·
Hay solo una
mediana en una serie de datos.
·
No es afectada
por los valores extremos ( altos o bajos )
·
Puede ser
calculada en distribuciones de frecuencia con intervalos abiertos, si no se
encuentra en el intervalo abierto.
Puede ser calculada en distribuciones con escala relativa, de
intervalos, y ordinal
La Moda (Mo.):
A veces es importante conocer cuál es el valor que más
prevalece en el conjunto de datos. El valor que ocurre con más frecuencia
se le conoce como moda. La moda es la medida de tendencia central
especialmente útil para describir mediciones de tipo ordinal, de intervalos y
nominal.
En un conjunto de números la moda se define como el valor
ó número que ocurre con más frecuencia
Ejemplo:
En el siguiente conjunto de números 1, 5, 5, 9, 12, 12,
12, 14. La moda es igual a 12, por cuanto que es el número que más se repite
(tres veces)
·
La Moda para
datos agrupados (Mo.):
La Moda puede deducirse de una distribución de frecuencia
o de un histograma a partir de la fórmula.
Mo. = Li + [ (
∆1 / ∆1+∆2 ) ] C
Donde;
Li = límite inferior de la clase modal (clase de mayor
frecuencia absoluta (fa)
∆1 = diferencia de las frecuencias absolutas de la clase
modal y premodal.
∆2 = diferencia de las frecuencias absolutas de la clase
modal y postmodal
C = amplitud de la clase modal.
Ejemplo:
Para encontrar la moda es necesario, en primer lugar,
identificar la clase modal; que será aquella que posea la mayor frecuencia
absoluta. En el ejemplo de cuentas por cobrar de Cabrera`s y Asociados
la clase modal será la primera, por cuanto que tiene la mayor frecuencia
absoluta.
A partir de esto se puede reemplazar en la formula
anterior los datos, a saber
:
Li =7.42 C=14.415 f1 = 10 (frecuencia absoluta de la clase modal)
f0 = 0 (frecuencia
absoluta de la clase premodal)
f2 = 4 (frecuencia
absoluta de la clase postmodal)
∆1 = 10–0 = 10 ∆2 = 10-4 = 6
Mo. = 7.42 + [ (10/10+6) 14.415 ] = 7.42 + [ (10/16)
14.415] =
= 7.42 + [ 0.625 (14.415) ] = 7.42 + 9.01 = 16.53
·
Propiedades de
la moda
o La moda se puede determinar en todos los
tipos de mediciones (nominal, ordinal, de intervalos, y relativa).
o La moda tiene la ventaja de no ser afectada
por valores extremos.
o Al igual que la mediana, puede ser
calculada en distribuciones con intervalos abiertos.
·
Desventajas de
la moda
·
En muchas series
de datos no hay moda porque ningún valor aparece más de una vez.
·
En algunas
series de datos hay más de una moda, en este caso uno podría preguntarse ¿cual
es el valor representativo de la serie de datos?
Relación
empírica entre la media, la mediana y la moda
En distribuciones totalmente simétricas, la media, la
mediana y la moda coinciden, localizándose en un mismo valor. En cambio, en distribuciones moderadamente asimétricas, la
siguiente relación se mantiene aproximadamente:
Media – Moda =
3(Media – Mediana
Posiciones relativas de la media, la mediana y la moda
para curvas de frecuencias asimétricas a derecha e izquierda respectivamente,
para curvas simétricas los tres valores coinciden
unidad 4: Introducción ala probabilidad
EXPERIMENTOS, REGLAS DE CONTEO Y ASIGNACIÓN DE PROBABILIDADES
En el estudio de la probabilidad, definimos un EXPERIMENTO como un
proceso que genera resultados bien definidos. En cualquier repetición siempre
de un experimento, ocurrirá uno y solo uno de los posibles resultados
experimentales. A continuación vemos algunos ejemplos de experimentos y
sus resultados.
EXPERIMENTO
RESULTADOS DEL EXPERIMENTO
Lanzar una
moneda
Cara, escudo
Seleccionar una parte
para inspeccionarla Defectuoso,
no defectuoso
Venta de
Teléfonos Compro,
no compro
Tirar un
dado 1,
2, 3, 4, 5,6
Jugar un partido de
fútbol Ganar,
perder, empatar
Cuando hayamos especificado todos los resultados posibles, habremos
identificado el ESPACIO MUESTRAL del experimento.
ESPACIO MUESTRAL
Para un experimento el espacio muestral es el conjunto de todos los
resultados experimentales.
Un resultado experimental también se conoce como PUNTO MUESTRAL para
identificarlo como elemento del espacio muestral.
Considere el primer experimento de la tabla anterior- lanzamiento de una
moneda. Los resultados experimentales (puntos muéstrales) están determinados
por la cara superior de la moneda- cara o escudo. Si S representa el espacio
muestral podremos usar la siguiente notación para describirlo.
S={cara, escudo}
El espacio muestral para el segundo experimento de la tabla- seleccionar
una parte para inspección- tiene el siguiente, espacio muestral y puntos muestrales.
S={defectuoso,no defectuoso}
Los experimentos, antes descritos tienen dos resultados
experimentales(punto muestral). Sin embargo, suponga que consideramos el cuarto
experimento listado- lanzar un dado. Los posibles resultados experimentales
definidos como el numero de puntos que aparecen en la cara superior del dado
son los seis puntos del espacio muestral para este experimento.
S={1,2,3,4,5,6}
REGLAS DE CONTEO, COMBINACIONES, PERMUTACIONES
Un paso necesario en la asignación de probabilidades es poder
identificar y contar los resultados experimentales. A continuación se analizan
tres reglas de conteo que resultan útiles.
EXPERIMENTO DE VARIAS ETAPAS
La primer regla de conteo es para experimentos de varias etapas.
Considere el experimento que consite en lanzar dos monedas. Los resultados
experimentales se definen en términos de la sucesión de caras o escudos que
aparecen en las caras superiores de las dos monedas. ¿Cuantos resultados
experimentales son posibles para este experimento? Lanzar las dos monedas se
pueden considerar como un experimento de dos pasos en que el primero es el
lanzamiento de la primera moneda y el segundo es el lanzamiento de la segunda.
Si para denotar escudo usamos la H y para denotar cara empleamos una T.(H,H)
indica el resultado experimental con escudo en la primera moneda y un escudo en
la segunda. Con esta notación podemos describir el espacio muestral S para el
lanzamiento de monedas de la manera siguiente:
S={(H,H),(H,T),(T,H),(T,T)}
Así vemos que son posibles cuatro resultados experimentales.En este
caso, no es difícil listarlos todos.
La regla de conteo para experimentos de varias etapas permite determinar
el numero de resultados experimentales sin listarlos.
REGLA DE CONTEO PARA EXPERIMENTOS DE ETAPAS MÚLTIPLES
Si un experimento se puede describir como una sucesión de K etapas, en
las que hay n1 resultados posibles de la primera etapa, n2 en la
segunda, etc.., la cantidad total de resultados experimentales es igual a (n1),(n2)......(nK).
Si el experimento de lanzar dos monedas se considera como una sucesión
de primero lanzar una moneda (n1=2) y luego lanzar la otra (n2=2), podemos
inferir de la regla de conteo que hay (2)(2)=4 resultados experimentales
distintos. Como se observa, hay S={(H,H),(H,T),(T,H),(T,T)}. El numero de
resultados experimentales en un experimento que consiste en el lanzamiento d
seis monedas es (2)(2)(2)(2)(2)(2)=64
COMBINACIONES
Una segunda regla de conteo que con frecuencia es de utilidad, permite
contar la cantidad de resultados experimentales cuando en un experimento se
deben seleccionar r objetos entre un conjunto de n objetos(por
lo común mas grande). Se llama regla de conteo para combinaciones. El
orden de los objetos seleccionados no es importante en el orden.
Regla de conteo para combinaciones
La cantidad de combinaciones de n objetos tomados r a
la vez es
La notación! significa factorial; por ejemplo, 5 factorial es
5!=(5)(4)(3)(2)(1)=120. Por definición, 0! es igual a 1.
Un ejemplo de la regla de conteo para combinaciones es un procedimiento
de control de calidad en que un inspector selecciona al azar dos de cinco
partes, para examinar y ver si tiene defectos. En un grupo de cinco partes,
¿cuantas combinaciones de dos partes se puede seleccionar?. La regla de conteo
de la ecuación que para n=5 y r=2 el resultado es
Así, hay 10 resultados en el experimento de seleccionar al azar dos
partes de un grupo de cinco. Si identificamos a cinco partes como
A,B,C,AD,AE,BC,BD,BE,CD,CE y DE.
Otros ejemplo es el siguiente: la lotería de ohio emplea selección
aleatoria de seis números de un grupo de 47 para determinar al ganador semanal.
Se puede aplicar la regla de conteo. para combinaciones, para calcular la
cantidad de maneras en que se pueden seleccionar seis números distintos de
entre un grupo de 47 números.
La regla de conteo para combinaciones indica que hay mas de 10
millones de resultados experimentales para determinar al ganador de la lotería.
Una persona se compra un boleto de lotería tiene una posibilidad de ganar
10737573 .
PERMUTACIONES
Una tercer regla de conteo que a veces resulta útil es la regla de
conteo para permutuaciones. Esta permite que uno pueda calcular el numero de
resultados experimentales al seleccionar r objetos de un
conjunto n objetos, donde es importante el orden de selección. Si
los mismos r objetos se seleccionan en otro orden se considera que
se trata de un resultado experimental distinto . En las permutaciones si
importa el orden
Regla de conteo para permutaciones
El numero de permutaciones de n objetos tomando r
a la vez esta dado por
La regla de conteo para permutuaciones tiene estrecha relación con la de
las combinaciones. No obstante, un experimento tendrá mas permutaciones que
combinaciones para el mismo numero de objetos porque cada selección de r
objetos tiene n! formas distintas para ordenarlos.
Como ejemplo, considere de nuevo el proceso de control de calidad
en que un inspector selecciona dos de cinco parte para hallar los
defectos. ¿Cuantas permutuaciones es posible seleccionar? La regla de
conteo de ecuación muestra que con n=5 y r=2 se tiene
Evento
estadístico
En estadística, un evento o suceso es
un subconjunto de un espacio
muestral, es
decir, un conjunto de posibles resultados que se pueden dar en un experimento aleatorio.
Formalmente,
sea Ω un espacio muestral, entonces un evento es
un subconjunto
donde
donde son una serie de posibles
resultados.
Evento simple o suceso elemental
Un suceso o evento
simple es un subconjunto del espacio muestral que contiene
un único elemento.
Ejemplos de
espacios muestrales y sucesos elementales:
§ Si se trata de contar objetos y el espacio muestral S = {0, 1, 2, 3, ...} (los números naturales), entonces los sucesos elementales son cada uno de los
conjuntos {k}, donde k ∈ N.
§ Si se lanza una moneda dos veces, S = {cc, cs, sc, ss}, donde (c
representa "sale cara" y s, "sale cruz"), los sucesos
elementales son {cc}, {cs}, {sc} y {ss}.
§ Si X es una variable aleatoria normalmente distribuida, S = (-∞, +∞), los números reales, los sucesos elementales son todos los conjuntos {x},
donde x ∈ R.
Los sucesos
elementales pueden tener probabilidades que son estrictamente mayores que cero,
cero, no definidas o cualquier combinación de estas. Por ejemplo, la
probabilidad de cualquier variable aleatoria
discreta está
determinada por las probabilidades asignadas a los sucesos elementales del
experimento que determina la variable. Por otra parte, cualquier suceso
elemental tiene probabilidad cero en cualquier variable aleatoria
continua. Existen distribuciones mixtas que no son
completamente continuas, ni completamente discretas, entre las que pueden darse
ambas situaciones.
ALGUNAS
RELACIONES BÁSICAS DE PROBABILIDADTEORÍA DE PROBABILIDAD
SIGNIFICADO
Es la “posibilidad” u “oportunidad” de que ocurra
un hecho o fenómeno.
·
Precipitaciones el fin de semana.
·
Que gane el equipo XX el próximo partido.
·
Que salga un número par al arrojar un dado.
La Estadística, como un método para efectuar
generalizaciones o tomar decisiones ante la Incertidumbre, se
basa en la Teoría de Probabilidad, porque la Probabilidad es
a la vez el Lenguaje y la Medida de
la Incertidumbre y los riesgos asociados con
ella.
CONCEPTOS
BÁSICOS
·
Experimento Aleatorio
Un experimento se considera aleatorio o estocástico
si sus resultados son inciertos.
·
Espacio Muestral
Conjunto de todos los resultados posibles de un
experimento aleatorio. Es un conjunto universal y se simboliza con S.
Ejemplo: el experimento consiste en
arrojar un dado
S = {1,
2, 3, 4, 5, 6}
·
Punto Muestral
Cada uno de los resultados posibles de un
experimento aleatorio.
·
Suceso, hecho o evento
Es un subconjunto del espacio muestral S.
Un suceso E definido en un espacio muestral se
dice que es simple o elemental si
contiene un solo punto muestral en S; se dice que es compuesto si
contiene más de un punto muestral.
Ejemplo: Experimento que consiste en arrojar un
dado
Espacio Muestral S = { 1, 2, 3, 4, 5, 6}
Eventos Simples E1 ={1 } E2 ={2} E3= {3} E4 ={4} E5
={5} E6 ={6}
Eventos compuestos E1 ={1, 3, 5 } E2 ={2, 4, 6 }
TEORIAS
DE PROBABILIDAD
OBJETIVAS SUBJETIVAS
Clásica a Priori Clásica Empírica
o Frecuencial
·
Teoría Clásica a priori
Teoría de la razón insuficiente
Cuando no hay razones para preferir uno de los
posibles resultados o suceso a cualquier otro, todos deben considerarse con la
misma probabilidad de ocurrencia. Entonces la probabilidad de ocurrencia de un
suceso E, es:
Resultados favorables
Resultados posibles
La Teoría Clásica a
priori se basa en el conocimiento anterior o previo del proceso o
fenómeno.
·
Teoría Clásica frecuencial
Cuando el experimento aleatorio se
repite un gran número de veces (n) y el suceso ocurre (m) veces, la frecuencia
relativa m/n será prácticamente (casi igual, aproximadamente) igual a P.
1er Enfoque frecuencia relativa n:
grande
2do Enfoque P (E): Lim n
"
La teoría
frecuencial se basa en datos observados como resultado de repetir el
experimento un número grande de veces.
LAS FRECUENCIAS RELATIVAS ESTABILIZAN LAS PROBABILIDADES
Ejemplo:
La moneda se arroja 200 veces; el
número de caras en cada 20 ocasiones que se arroja se muestra en el cuadro que
sigue. ¿Cuál es la probabilidad de que caiga cara cuando se arroja la moneda?
·
Con la base de este experimento, la mejor respuesta que puede enunciarse
es que la probabilidad de que con esta moneda particular caiga cara al
arrojarla es 98/200= 0,49.
La gráfica siguiente
muestra el número de tiros y la frecuencia relativa acumulativa. Adviértase que
la gráfica varía alrededor de la frecuencia relativa de 0.5 calculada si la
moneda es ordinaria, normal o legal.
·
Las fluctuaciones de las frecuencias relativas varían considerablemente,
cuando n es pequeño.
·
Cuando n es grande, las fluctuaciones disminuyen y
la frecuencia relativa presenta regularidad estadística.
AXIOMAS DE PROBABILIDAD
La probabilidad de un evento E en un
experimento aleatorio, es el valor numérico P(E) que satisface los siguientes
axiomas:
·
Si E es un evento definitivo del espacio muestral S, entonces:
0 "P (E) " 1
·
Si S representa el conjunto de todos los resultados posibles de un
experimento aleatorio, entonces:
P (S)= 1
·
Si A y B son dos eventos cualesquiera definidos en el mismo espacio
muestral y, si A" B = , entonces A y B se dice que son mutuamente
excluyentes y, la probabilidad de que ocurra A ó B es la suma de
probabilidad de sus probabilidades:
P (A " B) = P (A) + P (B)
·
Si A y B son dos eventos cualesquiera definidos en el mismo espacio
muestral y, si A " B " , entonces A y B se dice que son no
mutuamente excluyentes y, la probabilidad de que ocurra A ó B es
la suma de probabilidad de sus probabilidades menos la probabilidad de
ocurrencia de ambos eventos:
P (A " B) = P (A) + P (B) - P (A" B)
·
Evento imposible, es aquel que no tiene ningún resultado
favorable dentro de un conjunto de resultados posibles de un experimento
aleatorio:
P () = 0
·
Evento complementario , de un evento A es el evento que
consiste en todos los resultados que no contiene el evento A:
P ( ) = 1 - P (A)
REGLAS PARA CÁLCULO DE PROBABILIDADES
·
Probabilidad Conjunta.
·
Probabilidad Marginal.
·
Probabilidad Condicional.
Independencia
PROBABILIDAD CONDICIONAL
En esta
sección examinaremos como la probabilidad de ciertos eventos depende o se ve
influida por la ocurrencia de otros. Para ello veremos algunos ejemplos.
Ejemplo 27: Se seleccionan dos semillas aleatoriamente, una por una, de una bolsa
que contiene 10 semillas de flores rojas y 5 de flores blancas. ¿Cuál es la
probabilidad de que:
- La primera semilla sea roja?
- La segunda semilla sea
blanca dado que la primera fue roja?
Solución:
- La probabilidad de que la
primera semilla sea roja es 10 /15 , puesto que hay 10 semillas
de flores rojas de un total de 15. Escrito con notación de probabilidad
tenemos
b.La probabilidad de que la
segunda semilla sea blanca se ve influida por lo que salió primero, es
decir esta probabilidad está sujeta a una condición, la de que la primera
semilla sea roja. Este tipo de probabilidad se le llama probabilidad
condicional y se denota por
, y se
lee: la probabilidad de B2 dado R1.
Veamos la
situación en un diagrama de árbol:
Definición de Probabilidad Condicional:Para dos eventos cualesquiera A
y B en un espacio muestra S, tales que P(A) > 0 con P(A) ¹ 0, la probabilidad del evento B
dado el evento A, se define por
TEOREMAS DE VALLES
En la teoría
de la probabilidad el teorema de valles es un resultado enunciado por Thomas
valles en 17631 que expresa la probabilidad condicional de un evento
aleatorio A dado B en términos de la distribución de
probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de sólo A.
En términos más generales y menos
matemáticos, el teorema de valles es de enorme relevancia puesto que vincula la
probabilidad de A dado B con la probabilidad de B dado A. Es decir que sabiendo
la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podría
saber -si se tiene algún dato más-, la probabilidad de tener gripe si se tiene
un dolor de cabeza, muestra este sencillo ejemplo la alta relevancia del
teorema en cuestión para la ciencia en todas sus ramas, puesto que tiene
vinculación íntima con la comprensión de la probabilidad de aspectos causales dados
los efectos observados.
Además, unido a la definición de Probabilidad
condicionada,
obtenemos la Fórmula de valles, también conocida como la Regla de Valles:
El teorema de valles es válido en todas las aplicaciones de la teoría de
la probabilidad. Sin embargo, hay una controversia sobre el tipo de
probabilidades que emplea. En esencia, los seguidores de la estadística tradicional sólo admiten probabilidades basadas en experimentos repetibles
y que tengan una confirmación empírica mientras que los llamados estadísticos
bayesianos permiten probabilidades subjetivas. El teorema puede servir entonces
para indicar cómo debemos modificar nuestras probabilidades subjetivas cuando
recibimos información adicional de un experimento. La estadística bayesiana
está demostrando su utilidad en ciertas estimaciones basadas en el conocimiento
subjetivo a priori y el hecho de permitir revisar esas estimaciones en función
de la evidencia empírica es lo que está abriendo nuevas formas de hacer
conocimiento. Una aplicación de esto son los clasificadores bayesianos que son frecuentemente usados en implementaciones de filtros de correo
basura o spam, que se adaptan
DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
Variables aleratorias
Una Variable aleatoria X es una regla que asigna un
valor numérico a cada resultado en el espacio mestrual de un experimento.
Una vareable aleatoria discreta puede tomar en
específico, aislado valor numérico, como resultado de lanzar un dado, o el
número de dolares en una cuenta bancaria escogido de forma aleatoria.
Una variable aleatoria continua puede tomar cualquier
valor dentro de un continuo intervalo de tiempo, como la temperatura en el
Parque Central, o la altura de un atleta en centrimetros.
Variable aleatoria discreta que sólo puede asumir finitamente muchos
valores (como el resultado de lanzar un dado) se llama variables
aleatorias finitas.
Se llama variable aleatoria a toda función que
asocia a cada elemento del espacio muestral E un número real.
Se utilizan letras mayúsculas X, Y, ... para designar
variables aleatorias, y las respectivas minúsculas (x, y, ...) para designar
valores concretos de las mismas.
Variable aleatoria discreta
Una variable
aleatoria discreta es aquella que sólo puede tomar valores enteros.
Ejemplos
El
número de hijos de una familia, la puntuación obtenida al lanzar un dado.
Variable aleatoria continua
Una variable
aleatoria continua es aquella que puede tomar todos los
valores posibles dentro de un cierto intervalo de la recta real.
Ejemplos
La
altura de los alumnos de una clase, las horas de duración de una pila.
DISTRIBUCIONES
DISCRETAS DE PROBABILIDAD
Cuando se habla de los tipos de probabilidad, decimos
que esta se clasifica en tres:
1. Probabilidad clásica.
2. Probabilidad distribución de frecuencias.
3. Probabilidad subjetiva.
La distribución de probabilidades esta muy relacionado
con el tipo de variables. Nosotros conocemos dos tipos de variables:
a. Variable discreta, y
b. Variable continúa.
En este trabajo, estudiaremos las principales distribuciones de
variables discretas. Una distribución de probabilidades para una variable
aleatoria discreta es un listado mutuamente excluyente de todos
los resultados numéricos posibles para esa variable aleatoria tal que
una probabilidad específica de ocurrencia se asocia con cada resultado.
El valor esperado de una variable aleatoria discreta
es un promedio ponderado de todos los posibles resultados, donde las
ponderaciones son las probabilidades asociadas con cada uno de los resultados.
Donde: Xi = i-ésimo resultado de X, la variable
discreta de interés.
P(Xi) = probabilidad de ocurrencia del i-ésimo
resultado de X
La varianza de una variable aleatoria discreta (s
2) se define como el promedio ponderado de los cuadros de las
diferencias entre cada resultado posible y su media (los pesos son las
probabilidades de los resultados posibles).
Donde: Xi = i-ésimo resultado de X, la variable
discreta de interés.
P(Xi) = probabilidad de ocurrencia del i-ésimo
resultado de X
Las distribuciones de probabilidades discretas más importantes
son:
1. Distribución Binomial, y
2. Distribución de Poisson
Hablaremos de cada tipo de distribución y como lo
resolveremos aplicando el Excel.
VALOR ESPERADO Y VARIANZA
En teoría de probabilidad, la varianza (que suele representarse como
de una variable aleatoria es una dispersión definida como la esperanza del cuadrado de la
desviación de dicha variable respecto a su media.
Está medida en unidades distintas de las de
la variable. Por ejemplo, si la variable mide una distancia en metros, la
varianza se expresa en metros al cuadrado. La desviación estándar, es la raíz cuadrada
de la varianza, es una medida de dispersión alternativa expresada en las mismas
unidades de los datos de la variable objeto de estudio. La varianza tiene como
valor mínimo 0.
Hay que tener en cuenta que la varianza puede
verse muy influida por los valores atípicos y no se aconseja su
uso cuando las distribuciones de las variables aleatorias tienen colas pesadas.
En tales casos se recomienda el uso de otras medidas de dispersión más robustas.
Dada
una variable aleatoria X con media μ
= E(X), se define su varianza, Var(X) (también
representada como
o,
simplemente σ2), como.
Desarrollando la
definición anterior, se obtiene la siguiente definición alternativa (y
equivalente):
DISTRIBUCIÓN BINOMIAL
La distribución binomial es una distribución de probabilidades que surge
al cumplirse cinco condiciones:
1. Existe una serie de N ensayos,
2. En cada ensayo hay sólo dos posibles resultados,
3. En cada ensayo, los dos resultados posibles son mutuamente excluyentes,
4. Los resultados de cada ensayo son independientes entre si, y
La probabilidad de cada resultado
posible en cualquier ensayo es la misma de un ensayo a otro.
Cuando se cumple estas condiciones, la distribución binomial proporciona
cada resultado posible de los N ensayos y la probabilidad de obtener
cada uno de estos resultados.
Para este tipo de distribución de probabilidad, la función matemática es la siguiente:
Donde: P(X) = probabilidad de X éxitos dados los
parámetros n y p
n = tamaño de la muestra
p = probabilidad de éxito
1 – p = probabilidad de fracaso
X = numero de éxitos en la muestra ( X = 0, 1, 2, …….. n)
DISTRIBUCIÓN DE POISSON.
Características:
En este tipo de experimentos los éxitos buscados son expresados por
unidad de área, tiempo, pieza, etc, etc,:
- # de defectos de una tela por m2
- # de aviones que aterrizan en un aeropuerto por día, hora, minuto,
etc, etc.
- # de bacterias por cm2 de
cultivo
- # de llamadas telefónicas a un conmutador por hora, minuto, etc,
etc.
- # de llegadas de embarcaciones a un puerto por día, mes, etc, etc.
Para determinar la probabilidad de que ocurran x éxitos por unidad de
tiempo, área, o producto, la fórmula a utilizar sería:
donde:
p(x, l) = probabilidad de que ocurran x éxitos, cuando el número promedio de
ocurrencia de ellos es l
l = media o promedio de éxitos por unidad de tiempo, área o producto
e = 2.718
x= variable que nos
denota el número de éxitos que se desea que ocurra
Hay que hacer notar que en esta distribución el número de éxitos que
ocurren por unidad de tiempo, área o producto es totalmente al azar y que cada
intervalo de tiempo es independiente de otro intervalo dado, así como cada área
es independiente de otra área dada y cada producto es independiente de otro
producto dado.
Distribución hipergeométrica
La función de probabilidad de una variable aleatoria con distribución hipergeométrica puede deducirse a través de razonamientos combinatorios y es igual a
donde( N)es el tamaño de población, (n)es el tamaño de la muestra extraída, (b)es el número de
elementos
en la población original que pertenecen a la categoría deseada y (x)es el número de
elementos en la muestra que pertenecen a dicha categoría. La notación
hace referencia al coeficiente binomial, es decir, el número de
combinaciones posibles al seleccionar (b)elementos de un total (a).
El valor esperado de una variable aleatoriaX que sigue la distribución hipergeométrica es
y su varianza,
La
distribución hipergeométrica es aplicable a muestreos sin reemplazo y la binomial a muestreos con reemplazo. En situaciones en
las que el número esperado de repeticiones en el muestreo es presumiblemente
bajo, puede aproximarse la primera por la segunda. Esto es así cuando N
es grande y el tamaño relativo de la muestra extraída, n/N, es pequeño
DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
Distribución de probabilidad uniforme
La distribución de probabilidad uniforme es un ejemplo de una
distribución de probabilidad es continua. Una distribución de probabilidad es
continua cuando los resultados posibles del experimento son obtenidos de variables aleatorias continuas, es decir, de variables cuantitativas que pueden
tomar cualquier valor, y que resultan principalmente del proceso de medición.
Ejemplos de variables aleatorias continuas son:
La estatura de un grupo de personas
El tiempo dedicado a estudiar
La temperatura en una ciudad
Es una distribución en el intervalo [a,b] en la cual las
probabilidades son las mismas para todos los posibles resultados, desde el
mínimo de a hasta el máximo de b. El experimento de lanzar un
dado es un ejemplo que cumple la distribución uniforme, ya que todos los
6 resultados posibles tienen 1/6 de probabilidad de ocurrencia.
La función de densidad de una distribución uniforme (altura de cada rectángulo en la gráfica
anterior) es:
Donde:
a = mínimo valor de la distribución
b = máximo valor de la distribución
b – a = Rango de la distribución
La media, valor medio esperado o esperanza matemática de una distribución uniforme se calcula empleando la siguiente fórmula:
La varianza de una distribución uniforme se
calcula empleando la siguiente fórmula
La probabilidad de que una observación caiga entre dos valores se calcula de la siguiente manera:
Distribución de probabilidad exponencial
Si en el contexto de un proceso de Poisson ocurren eventos o éxitos en un espectro continuo de tiempo y
espacio. Entonces la longitud del espacio o tiempo entre eventos sucesivos
sigue una distribución de probabilidad exponencial. Puesto que el tiempo y el
espacio son un espectro continuo, esta es una distribución continua.
En caso de este tipo de distribución no vale la pena preguntarse ¿cuál
es la probabilidad de que el primer pedido de servicio se haga exactamente de aquí a un minuto?. Mas bien debemos asignar un
intervalo dentro del cual el evento puede ocurrir, preguntándonos, ¿cuál es la
probabilidad de que el primer pedido se produzca en el próximo minuto?.
Dado que el proceso de Poisson es estacionario, la distribución
exponencial se aplica ya sea cuando estamos interesados en el tiempo (o
espacio) hasta el primer evento, el tiempo entre dos eventos sucesivos, o el
tiempo hasta que ocurra el primer evento después de cualquier punto aleatoriamente
seleccionado.
Donde l es la cifra media de ocurrencias para el intervalo de interés, la probabilidad exponencial de que el primer evento ocurra dentro del
intervalo designado de tiempo o espacio es.
P(T < t) = 1
- e -l
De manera que a probabilidad exponencial de que
el primer evento no ocurra dentro del intervalo designado de tiempo o espacio
es:
P(T > t) = e
-l
Ejemplo:
Un departamento de mantenimiento recibe un promedio de 5 llamadas por hora.
Comenzando en un momento aleatoriamente seleccionado, la probabilidad de que
una llamada llegue dentro de media hora es:
Promedio 5 por hora, como el intervalo es media
hora tenemos que l = 2,5/media
hora.
P (T < 30
min.) = 1- e -5 = 1 - 0,08208 = 0,91792
Distribución de probabilidad
normal
Es una distribución de probabilidad continua que es tanto simétrica como mesocurtica. La
curva que representa la distribución de probabilidad normal se describe
generalmente como en forma de campana. Esta distribución es importante en
inferencia estadística por tres razones diferentes:
1.
Se
sabe que las medidas producidas en muchos procesos aleatorios siguen esta distribución.
2.
Las
probabilidades normales pueden utilizarse generalmente para aproximar otras
distribuciones de probabilidad, tales como las distribuciones binomial y de
Poisson.
3.
Las
distribuciones estadísticas tales como la media de la muestra y la proporción
de la muestra, siguen a menudo la distribución normal, sin tener en cuenta la
distribución de la población
Los valores de los parámetros de la distribución de probabilidad normal
son m = 0 y s = 1. Cualquier conjunto de valores X normalmente distribuido pueden
convertirse en valores normales estándar z por medio de la formula:
Haciendo posible el uso de la tabla de
proporciones de área y hace innecesario el uso de la ecuación de la función de densidad de cualquier distribución normal dada.
Para aproximar las distribuciones discretas
binomial y de Poisson se debe hacer:
Binomial
m = np
s = np(1-p)
Si n > 30
.np> 5 n(1-p)
> 5
Poisson
m = l
s = l
l> 10
La
Estadística es mucho más que sólo números apilados y gráficas. Es una ciencia
con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las
demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc.
se nombran entre los más destacados clientes de ésta, su ausencia conllevaría a
un caos generalizado, dejando a los administradores y ejecutivos sin
información vital a la hora de tomar decisiones en tiempos de incertidumbre.
La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran cantidad de datos obtenidos de la realidad.
Es importante en mi carrera de Administración de Empresas ya que la estadística es la que da las bases y fórmulas cuantitativas y cualitativas, mediante las cuales debe basarse la contabilidad para determinar el funcionamiento económico de la empresa
porque tomando datos anteriores se puede proyectar el comportamiento de la producción de las ventas, los gastos, las perdidas y todo lo referente a ésta, y así en un futuro cercano poder realizar las diferentes estrategias que se requieran para evitar problemas mas adelante.
La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran cantidad de datos obtenidos de la realidad.
Es importante en mi carrera de Administración de Empresas ya que la estadística es la que da las bases y fórmulas cuantitativas y cualitativas, mediante las cuales debe basarse la contabilidad para determinar el funcionamiento económico de la empresa
porque tomando datos anteriores se puede proyectar el comportamiento de la producción de las ventas, los gastos, las perdidas y todo lo referente a ésta, y así en un futuro cercano poder realizar las diferentes estrategias que se requieran para evitar problemas mas adelante.
La
estadística es importante para una empresa dado que es esencial para predecir a
tiempo los niveles de demanda de sus productos, se necesita para
reconocer a tiempo los cambios de tendencia, además permite tomar decisiones que
ayuden a corregir problemas de calidad y productividad, se requiere contar con
datos estadísticos tanto par fijar precios como para aumentar la rentabilidad.
La administración de empresas como una
ciencia económica no es la excepción, esta información se conforma varias veces
en datos estadísticos, que deben ser interpretados de la mejor forma y de
acuerdo a cada situación por el personal ejecutivo y administrativo de la
compañía, por lo tanto no se puede gerenciar lo que no se puede evaluar. La medición
de los procesos valiéndose de la información estadística es clave en la
consecución de las metas y objetivos empresariales, por lo tanto si la
administración no está en capacidad de medir la información como puede mejorar,
controlar e implementar mejoras.
La ausencia continua de datos estadísticos al
interior de la organización impide una administración verdadera, clara y menos
compleja, realizar predicciones basadas más en la intuición o en simples
supuestos, tomar decisiones desconociendo las probabilidades de alcanzar los
objetivos, son algunos de los problemas o inconvenientes más comunes hallados
en las empresas, tomar decisiones, dirigir o realizar una función
administrativa con datos intuitivos es lo que contribuye a que las empresas se
equivoquen en sus negocios y por lo general si no cierran sus puertas, si hacen
que sean empresas sin utilidades o más del montón, de la administración depende
el buen uso que se dé a los datos estadísticos lo cual hace la diferencia entre
las compañías, estos datos al interior se utilizan en procesos de producción,
contables, financieros y económicos.
Datos
estadísticos
La presentación de datos estadísticos
constituye en sus diferentes modalidades uno de los aspectos de más uso en
la estadística descriptiva. A partir podemos visualizar a través de los
diferentes medios escritos
y televisivos de comunicación masiva la presentación de los datos
estadísticos sobre el comportamiento de las principales variables económicas y sociales, nacionales e
internacionales.
1-Presentación escrita: Esta forma de presentación
de informaciones se usa cuando una serie de datos incluye pocos valores, por lo cual resulta más apropiada la palabra
escrita como forma de escribir el comportamiento de los datos; mediante la
forma escrita, se resalta la importancia de las informaciones principales.
2-Presentación tabular: Cuando los datos estadísticos
se presentan a través de un conjunto de filas y de columnas que responden a un
ordenamiento lógico; es de gran eso e importancia para el uso e importancia
para el usuario ya que constituye la forma más exacta de presentar
las informaciones. Una tabla consta de varias partes, las principales son las
siguientes:
1)Título
Es la parte más importante del
cuadro y sirve para describir todo el contenido de este.
Encabezados: Son los
diferentes subtítulos que se colocan en la parte superior de cada columna.
Columna matriz:
Es la columna principal del cuadro.
Cuerpo: El cuerpo contiene
todas las informaciones numéricas que aparecen en la tabla.
Fuente: La fuente de los datos
contenidos en la tabla indica la procedencia de estos.
2)
Notas al pie
Son usadas para hacer algunas
aclaraciones sobre aspectos que aparecen en la tabla o cuadro y que no han sido
explicados en otras partes.
3) Presentación gráfica:
Proporciona al lector o
usuario mayor rapidez en la comprensión de los datos, una grafica es
una expresión artística usada para representar un conjunto de datos.
De acuerdo al tipo de variable
que vamos a representar, las principales graficas son las siguientes:
Histograma: Es un conjunto de barras o
rectángulos unidos uno de otro, en razón de que lo utilizamos para representar
variables continuas.
Polígono de frecuencias: Esta
grafica se usa para representar los puntos medios de clase en
una distribución de frecuencias
Gráfica de barras: Es un conjunto de rectángulos
o barras separadas una de la otra, en razón de que se usa para representar
variables discretas; las barras deben ser de igual base o ancho y separadas a
igual distancia. Pueden disponerse en forma vertical y horizontal.
Gráfica lineal: Son usadas principalmente para
representar datos clasificados por cantidad o tiempo;
o sea, se usan para representar tiempo cronológicas.
Gráfica de barra 100% y
gráfica circular: se usan especialmente para representar las partes en que se
divide una cantidad total.
La ojiva: Esta grafica
consiste en la representación de las frecuencias acumuladas de una distribución
de frecuencias. Puede construirse de dos maneras diferentes; sobre la base
"menor que" o sobre la base "o más". Puede determinar
el valor de
la mediana de la distribución.
En estadística denominamos gráficos a aquellas imágenes que, combinando la utilización De
sombreado, colores, puntos, líneas, símbolos, números,texto y
un sistema De referencia (coordenadas), permiten
presentar información cuantitativa.
La utilidad De los gráficos es doble, ya que pueden
servir no sólo como sustituto a las tablas, sino que también constituyen por sí
mismos una poderosa herramienta para el análisis De los datos, siendo en ocasiones
el medio más efectivo no sólo para describir y resumir la
información, sino también para analizarla.
En este trabajo solo nos vamos a centrar únicamente en
los gráficos como vehículo de presentación de datos, sin abordar su
otra faceta como herramienta de análisis.
Gráficos estadísticos
Los gráficos son medios
popularizados y a menudo los más convenientes para presentar datos,
se emplean para tener una representación visual de la totalidad de la información.
Los gráficos estadísticos
presentan los datos en forma de dibujo de
tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos
con otros.
Gráficos de barras
horizontales
Representan valores discretos
a base de trazos horizontales, aislados unos de otros. Se utilizan cuando los
textos correspondientes a cada categoría son muy extensos.
·
para una serie
·
para dos o más
series
Gráficos de barras
proporcionales
Se usan cuando lo que se busca
es resaltar la representación de los porcentajes de los datosque
componen un total. Las barras pueden ser:
Verticales
Horizontales
- Definición del problema o tema investigar: el objetivo básico de esta etapa es conocer qué área quieres investigar y que fijes los límites de la información a conocer, es decir, hasta dónde quieres llegar con tu investigación
- Investigación preliminar: mediante la revisión de fuentes secundarias o entrevistas a personas relacionadas con el tema, selecciona las variables importantes objeto de estudio.
- Determinación de los objetivos específicos: debes precisar con el detalle suficiente las modalidades que puede presentar cada variable seleccionada a investigar y, en el caso de que sea numérica, la unidad de medida de la variable.
- Diseño de la investigación: especifica los siguientes aspectos:o Selección de las fuentes de información.o Especificación del método de recogida: tipo de encuesta (personal, telefónica, postal)o Diseño del formato de recogida de datos (borrador del cuestionario y pruebas)o Diseño muestral a emplearo Presupuesto y planificación temporal.5. Recogida de los datos: es necesario que seas cuidadoso al recoger los datos, evita influir en los encuestados, para evitar errores que puedan afectar a los resultados.
6. Procesamiento de los datos: en primer lugar depura los datos, revisando los cuestionarios y graba las respuestas mediante códigos numéricos en el programa informático elegido para hacer el análisis (hoja de cálculo, paquete estadístico o base de datos).7. Analiza los resultados e interprétalos: calcula estadísticos resumen (frecuencias, porcentajes, medias) de cada variable objeto de estudio. También, puedes elaborar tablas cruzadas entre dos variables.
8. Elaboración del informe: presenta los resultados más importantes que hayas logrado en tu investigación. Combina tablas y gráficos para hacer más atractiva la presentación de estos resultados.¿QUE ES LA ESTADÍSTICA DESCRIPTIVA?La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables.
Las variables pueden ser de dos
tipos:
Variables cualitativas o atributos: no se pueden medir numéricamente (por
ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio
de un producto, ingresos anuales).
Las variables también se
pueden clasificar en
Variables unidimensionales: sólo recogen información sobre
una característica (por ejemplo: edad de los alumnos de una clase).
Variables bidimensionales: recogen información sobre dos
características de la población (por ejemplo: edad y altura de los alumnos de
una clase).
Variables pluridimensionales: recogen información sobre tres o
más características (por ejemplo: edad, altura y peso de los alumnos de una
clase).
Por su parte, las variables cuantitativas se pueden
clasificar en discretas y continuas
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo,
nunca podrá ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo,
la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.
Cuando se estudia el comportamiento de una variable hay que distinguir
los siguientes conceptos
Individuo
cualquier elemento que porte información sobre el fenómeno que se
estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es
un individuo; si estudiamos el precio de la vivienda, cada vivienda es un
individuo.
Población
conjunto de todos los individuos (personas, objetos, animales,
etc.) que porten información sobre el fenómeno que se estudia. Por ejemplo, si
estudiamos el precio de la vivienda en una ciudad, la población será el total
de las viviendas de dicha ciudad.
Muestra
subconjunto que seleccionamos de la población. Así, si se estudia
el precio de la vivienda de una ciudad, lo normal será no recoger información
sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que
se suele seleccionar un subgrupo (muestra) que se entienda que es
suficientemente representativo.
Estadística inferencial
La estadística inferencial es una
parte de la estadística que comprende los métodos y
procedimientos para deducir propiedades de una población estadística, a partir de una pequeña parte de la misma. La estadística
inferencial comprende como aspectos importantes:
§ La toma de muestras o muestreo.
§ La estimación de parámetros
o variables estadísticas.
§ El contraste de hipótesis.
§ El diseño experimental.
§ La inferencia bayesiana.
§ Los métodos no paramétricos
En estadística se conoce como muestreo a la
técnica para la selección de una muestra a partir de una población.
Al elegir una muestra se espera conseguir que
sus propiedades sean extrapolables a la población. Este proceso
permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se
alcanzarían si se realizase un estudio de toda la población.
Cabe mencionar que para que el muestreo sea
válido y se pueda realizar un estudio adecuado (que consienta no solo hacer
estimaciones de la población sino estimar también los márgenes de error
correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca
podremos estar enteramente seguros de que el resultado sea una muestra
representativa,
pero sí podemos actuar de manera que esta condición se alcance con una
probabilidad alta.
En el muestreo, si el tamaño de la muestra es
más pequeño que el tamaño de la población, se puede extraer dos o más muestras
de la misma población. Al conjunto de muestras que se pueden obtener de la
población se denomina espacio
muestral. La variable que asocia a cada muestra su probabilidad de
extracción, sigue la llamada distribución
muestral.
Planteamiento del problema
Un problema de inferencia estadística suele
iniciarse con una fijación de objetivos o algunas preguntas del tipo:
¿Cuál
será la media de esta población respecto a tal característica?
¿Se parecen
estas dos poblaciones?
¿Hay
alguna relación entre...?
En el planteamiento se definen con precisión la
población, la característica a estudiar, las variables, etc.
Elaboración de un
modelo
Se establece un modelo teórico de
comportamiento de la variable de estudio. En ocasiones no es posible diseñar el
modelo hasta realizar un estudio previo.
Los posibles modelos son distribuciones
de probabilidad.
Extracción de la
muestra
Se usa alguna técnica de muestreo o un diseño
experimental para obtener información de una pequeña parte de la población.
Tratamiento de los
datos
En esta fase se eliminan posibles errores, se
depura la muestra, se tabulan los datos y se calculan los valores que serán
necesarios en pasos posteriores, como la media
muestral,
la varianza muestral
Los métodos de esta etapa están definidos por
la estadística
descriptiva.
UNIDAD II
ESTADISTICA DESCRIPTIVA: MÉTODOS TABULACIONES Y GRÁFICAS
RECOLECCIÓN DE DATOS CUALITATIVOS
Los datos cualitativos
consisten en la descripción detallada de situaciones, eventos, personas,
comportamientos observables, citas textuales de la gente sobre sus experiencia,
actitudes, creencias y pensamientos.
Estos datos cualitativos
pueden recogerse utilizando instrumentos como: grabación de entrevistas
individuales, videos de observaciones de eventos particulares, testimonios
escritos de las personas con respecto al tema a investigar, fotografías,
historias de vida, documentos escritos como: actas, recortes de prensa.
Cuando se realiza una
investigación cualitativa ,se exige la participación del grupo, se definir el
problema a investigar, y el investigador principal debe ser un buen
coordinador, mediador y facilitador para que genere un proceso de comunicación
con el grupo.
Una vez determinado el equipo
de investigación y la planificación del trabajo de campo, el investigador
principal debe tener en claro los objetivos, las etapas, y las actividades a
realizar en cada salida de campo.
Ante todo el investigador debe
visualizar y prever con anticipación las situaciones que se puedan presentar
durante su estadía en la comunidad.
Luego se recomienda una
elaboración de guías de trabajo de campo, sin descuidar los objetivos
principales.
Para garantizar el cumplimiento
de estos planes de actividades, el equipo investigador debe reunirse al final
de cada jornada para evaluar las tareas realizadas y programar las siguientes.
Los instrumentos que mas se
utilizan en los datos cualitativos son:
Entrevistas
individuales: se define como una conversación, verbal, cara a cara y tiene como
propósito conocer lo que piensa o siente una persona con respecto un tema en
particular.
Esta clase de entrevista
permite preguntar sobre cuestiones mas complejas con mayor detenimiento,
produce por parte del entrevistado mayor participación.
Entrevistas
a grupos focales: Es rápida,
oportuna, válida y poco costosa, también constituye una fuente importante de
información para comprender las actitudes y creencias, saber cultural, y las
percepciones de una comunidad.
Esta entrevista es un medio
para recolectar en poco tiempo información cualitativa, por lo general con
grupos de
6 a 12 personas, y se divide en 2 componentes
esenciales.
·
El contenido de la información
( lo que se dice).
·
El proceso de la comunicación
(como se dice ).
Para realizar una entrevistas
focales, el responsable debe manejar entrevistas individuales y saber técnicas
para la dinámica en grupo.
Observación:
Constituye un conjunto de técnicas que permiten al investigador adquirir
conocimientos por medio de la observación directa y el registro de fenómenos.
En la observación será
necesario tener en cuenta dos aspectos importante que pueden influir en el
resultado obtenido tras la misma, es el ocultamiento y la intervención. En el
ocultamiento el individuo observado puede percatarse de la presencia del
observador y distorsionar la conducta. La intervención denota el grado en que
el investigador, a diferencia de un observador pasivo, estructura el ámbito de
observación en respuesta a las necesidades del estudio.
Los métodos de observación
varían según su estructura, así tenemos la observación no estructurada que
emplea el procedimiento de la observación participante en la que el
investigador actúa como observador y se familiariza con el lugar para
posteriormente volverse participante activo.
Los métodos de observación
estructurada imponen una serie de limitantes al observador, con el propósito de
incrementar su precisión y objetividad, a fin de obtener una representación
adecuada del fenómeno de interés.
El papel del entrevistador es
muy importante, porque él es un facilitador del proceso de comunicación
entre dos personas, su papel es inducir profundidad y detalle en las opiniones
del entrevistado, debe inspirar confianza, escuchar activamente y atender el
comportamiento verbal y no verbal de la persona que habla.
“Según Patton: la entrevista
cualitativa puede tomar las siguientes formas:
Entrevista informal
conversacional, entrevista estructurada con una guía y entrevista
estandarizada.”
La
entrevista informal conversacional: las preguntas se formulan en
torno a un asunto que se explora ampliamente sin utilizar un guía que delimite
el proceso.
La
entrevista estructurada con un guía: procura un marco de
referencia a partir del cual se plantean los temas pertinentes al estudio y
posibilita un proceso de recolección, y facilita un mejor manejo de la
información.
La
entrevista estandarizada: Organiza y formaliza el
proceso de recolección, este tipo de entrevistas es pertinente cuando hay más
de una persona responsable de recolectar información.
Una vez definida la modalidad
de pregunta el investigador debe tomar una decisión para relacionar el tipo de
pregunta, la secuencia, el nivel de detalles, y la duración de la entrevista.
Los tipos de preguntas pueden
ser:
·
Preguntas sobre experiencias o
comportamientos: lo que hacen o ha hecho una persona.
·
Pregunta sobre sentimientos:
respuestas emocionales de las personas.
·
Preguntas sobre opinión: lo que
ellos piensan.
·
Preguntas sobre conocimientos:
lo que las personas saben específicamente.
·
Preguntas sobre sensaciones:
lo que ven, oyen, tocan.
·
Preguntas de carácter
histórico: características del informante.
Es recomendable comenzar las
entrevistas con preguntas descriptivas, sobre comportamientos, actividades, o
experiencias, temas que requieran poca memoria, e interpretación y sean fáciles
de contestar.
Se recomienda plantear
preguntas abiertas para que la persona entrevistadas responda en sus propios términos
y seleccione sus propias categorías.
También se debe evitar hacer
preguntas dicótomas, porque inducen respuestas de si o no.
Al realizar la entrevista de
debe iniciar con la presentación del investigador y explicar el objetivo de la
misma, dar a conocer los temas a tratar en la entrevista.
La calidad de los datos de una
entrevista depende estrechamente de las aptitudes de relación interpersonal del
entrevistador, quien debe procurar crear un clima tranquilo para la entrevista
y entablar con los informantes un nivel satisfactorio de comunicación.
DATOS CUANTITATIVOS
La investigación
cuantitativa es aquella en la que se recogen y analizan datos cuantitativos
sobre variables.
La investigación
cualitativa evita la cuantificación. Los investigadores cualitativos
hacen registros narrativos de los fenómenos que son estudiados mediante
técnicas como la observación participante y las entrevistas no estructuradas.
La diferencia fundamental entre ambas metodologías es que la
cuantitativa estudia la asociación o relación entre variables
cuantificadas y la cualitativa lo hace en contextos estructurales y
situacionales. La investigación cualitativa trata de identificar la
naturaleza profunda de las realidades, su sistema de relaciones, su estructura
dinámica. La investigación cuantitativa trata de determinar la fuerza de
asociación o correlación entre variables, la generalización y objetivación de
los resultados a través de una muestra para hacer inferencia a una población de
la cual toda muestra procede. Tras el estudio de la asociación o
correlación pretende, a su vez, hacer inferencia causal que explique por qué
las cosas suceden o no de una forma determinada.
Las
diferencias más ostensibles entre ambas metodologías se muestran en la tabla.
Los fundamentos de la metodología cuantitativa podemos encontrarlos en el
positivismo que surge en el primer tercio del siglo XIX como una reacción ante
el empirismo que se dedicaba a recoger datos sin introducir los conocimientos
más allá del campo de la observación. Alguno de los científicos de esta
época dedicados a temas relacionados con las ciencias de la salud son Pasteur y
Claude Bernard, siendo este último el que propuso la experimentación en
medicina. A principios
del siglo XX, surge el neopositivismo o positivismo lógico siendo una de las
aportaciones más importantes la inducción probabilística. La clave del
positivismo lógico consiste en contrastar hipótesis probabilísticamente y en
caso de ser aceptadas y demostradas en circunstancias distintas, a partir de
ellas elaborar teorías generales. La estadística dispone de instrumentos
cuantitativos para contrastar estas hipótesis y poder aceptarlas o rechazarlas
con una seguridad determinada. Por tanto el método científico, tras una
observación, genera una hipótesis que contrasta y emite posteriormente unas
conclusiones derivadas de dicho contraste de hipótesis.
El contrastar una
hipótesis repetidamente verificada no da absoluta garantía de su generalización
ya que, como señala Karl Popper, no se dispone de ningún método capaz de
garantizar que la generalización de una hipótesis sea válida. Con el
ejemplo de los cisnes, K. Popper rebatía las tesis neopositivistas sobre la
generalización de las hipótesis.. "todos los cisnes de Austria eran
blancos... no se dispone de datos sobre el color de los cisnes fuera de
Austria..., todos los cisnes son blancos...". En el momento actual
no hay ningún método que garantice que la generalización de una hipótesis sea
válida, pero sí se puede rebatir una hipótesis con una sola evidencia en contra
de ella. Es por ello que la ciencia, como señala K. Popper "busca
explicaciones cada vez mejores".
Datos Cuantitativos
Datos que pueden ser contados (llamados
"datos discretos") o medidos (llamados "datos continuos").
Datos Cualitativos: cuando
los datos son cuantitativos, la diferencia entre ellos es de clase y no de
cantidad.
Ejemplo:
Si deseamos clasificar los
estudiantes que cursan la materia de estadística I por su estado civil,
observamos que pueden existir solteros, casados, divorciados, viudos.
TABULACIONES CRUZADAS Y DIAGRAMAS DE DISPERSIÓN
INTRODUCCIÓN
Este
documento describe el proceso completo a seguir para analizar la
Existencia
de una relación lógica entre dos variables.
Describe
la construcción de los Diagramas de Dispersión a partir de la recogida
de
datos acerca de dichas variables y el análisis posterior necesario para
Confirmar
la correlación que puede mostrar dicho diagrama, ya que ésta no
Implica
la existencia de una relación lógica.
DIAGRAMA DE DISPERSIÓN
La
representación gráfica más útil para describir el comportamiento conjunto de
dos variables es el diagrama de dispersión o nube de puntos, donde cada caso
aparece representado como un punto en el plano definido por las variables x1y x2 Para obtener un diagrama de dispersión la secuencia es:
Gráficos
Dispersión
El
cuadro de diálogo siguiente:
recoge diferentes tipos de diagramas de
dispersión. Éstos pueden ser:
1. Simple: si el
diagrama sólo recoge el comportamiento simultáneo de dos variables, una
definida en el eje X (abscisas) y la otra en el eje Y (ordenadas). Con el
botón Definir se abre el siguiente cuadro:
- En Eje X se selecciona la
variable que se considera independiente y en Eje Y la
dependiente.
- En Establecer marcas por puede
indicarse alguna variable de control cuyas categorías o valores se
representan con un símbolo o color distintivo. Esto permite identificar
los puntos pertenecientes a cada categoría y poner de manifiesto si
existen comportamientos diferenciados.
- En Etiquetar los casos mediante se
puede indicar alguna variable cuyos valores se tomarán como etiquetas de
los casos. Para visualizar las etiquetas es preciso activar la
opción Mostrar el gráfico con las etiquetas de caso del
cuadro de diálogo Opciones.
- El botón Títulos ofrece la
posibilidad de definir dos líneas de título y un subtítulo, y dos líneas
de nota al pie del gráfico.
La tabulación cruzada: Es el proceso de creación de una tabla de contingencia desde la distribución de
frecuencias multivariada de las
variables estadísticas. Muy utilizada en la investigación de encuestas, la
tabulación cruzada (o tabla cruzada, de forma abreviada) se suelen producir por
una sería de paquetes estadísticos, entre ellos algunos que se especializan en
la tarea. Frecuentemente se suelen incorporar ponderaciones de encuesta. Las
tablas sin ponderar se pueden producir fácilmente por algunas hojas de cálculo y otras herramientas
de inteligencia empresarial, conocidas comúnmente como tablas pivote (también conocidas como tablas dinámicas).
Definición:
Son intervalos que indican la dispersión de
los datos en la
escala
de medición.
Responden la pregunta: ¿Dónde están
diseminadas las
puntuaciones
o los valores obtenidos?
Las medidas de variabilidad más utilizadas
son: amplitud
(rango),
desviación estándar y varianza.
AMPLITUD
Exclusiva (RANGO)
Definición:
Es
la medida de variabilidad más simple.
También llamado rango, es la diferencia entre la puntuación
menor,
e indica el número de unidades en la escala de
medición
que se necesitan para incluir los valores máximo y
mínimo.
Ejemplo:
17,
18, 20, 20, 24, 28, 28, 30, 33
Rango:
33-17= 16
VARIANZA
Definición:
Esta relacionada con el tamaño de la diferencia entre cada
puntuación
y la media aritmética de la distribución a que
pertenece.
Es la desviación estándar elevada al cuadrado y se simboliza s
y
un 2 como potencia.
Es un concepto estadístico muy importante, ya que muchas
de
las pruebas cuantitativas se fundamentan en él.
Sin embargo, con fines descriptivos se utiliza
preferentemente
la desviación estándar.
DESVIACIÓN
ESTÁNDAR O TÍPICA
Definición:
Es el promedio de desviación de las puntuaciones con
respecto
a la media.
Esta medida se expresa en las unidades originales de
medición
de la distribución.
Cuanto mayor sea la dispersión de los datos alrededor de la
media,
mayor será la desviación estándar.
Se simboliza con s o mediante la abreviatura
DE.
ANALISIS
EXPLORATORIO DE DATOS
Presentación:
La
finalidad del Análisis Exploratorio de
Datos (AED) es examinar los datos
previamente
a la aplicación de cualquier técnica estadística. De esta forma el analista
consigue
un entendimiento básico de sus datos y de las relaciones existentes entre las
variables
analizadas.
El
AED proporciona métodos sencillos para organizar y preparar los datos, detectar
fallos
en el diseño y recogida de datos, tratamiento y
evaluación de datos ausentes,
identificación
de casos atípicos y comprobación de los supuestos subyacentes en la mayor
parte
de las técnicas multivariantes.
ANÁLISIS
EXPLORATORIO DE DATOS
El
análisis exploratorio tiene como objetivo identificar el modelo eórico más
adecuado para representar la población de la cual proceden los datos
muestrales. Dicho análisis se basa en gráficos y estadísticos que permiten
explorar la distribución identificando características tales como: valores
atípicos o outliers, saltos o discontinuidades, concentraciones de valores, forma
de la distribución, etc. Por otra parte, este análisis se puede realizar sobre
todos los casos conjuntamente o de forma separada por grupos. En este último
caso los gráficos y estadísticos permiten identificar si los datos proceden de
una o varias poblaciones, considerando la variable que determina los grupos
como factor diferenciador de las poblaciones. También permite comprobar,
mediante técnicas gráficas y contrastes no paramétricos, si los datos han sido
extraídos de una población con distribución aproximadamente normal.
Para realizar un análisis exploratorio,
la secuencia de instrucciones es:
Analizar
|
||
Estadísticos Descriptivos
|
||
Explorar
|
• Si el análisis de
la variable se realiza conjuntamente para todos los casos es suficiente indicar
la o las variables en la ventana Dependientes.
• Si el análisis de
la variable se realiza por grupos es necesario indicar también la variable que
define los grupos en la
ventana Factores.
ventana Factores.
Opcionalmente
se puede indicar en la ventana Etiquetar los casos mediante una
variable cuyos valores se tomarán para etiquetar los outliers.
El análisis exploratorio calcula, por defecto, los estadísticos más
importantes así como el intervalo de confianza para la media al 95%, el gráfico
de tallo y hojas y el diagrama de caja. Para ampliar éste análisis se puede
acceder a los siguientes cuadros de diálogo intervalo media
•
Estadísticos: Permite modificar el grado de
confianza del intervalo para la media, calcular Estimadores robustos
centrales (estimador M de Huber, estimador en onda de Andrews,
estimador M redescendente de Hampel, estimador biponderado de Tukey), y hallar
los Valores atípicos (se obtienen los 5 mayores y los 5
menores valores de la distribución) y algunos Percentiles (los
cuartiles y el 5º, 10º, 90º y 95º centil).
Gráficos:
Las opciones del Diagrama
de caja se utilizan sólo cuando se han seleccionado varias variables
dependientes. Por defecto, se presentan en gráficos distintos las variables
dependientes seleccionadas, y para cada una de ellas, en el mimo gráfico, las
cajas de los distintos grupos definidos por el factor. Si se seleccionaDependientes
juntas se representan en un único gráfico las cajas correspondientes
a todas las variables dependientes. Con la opción Ninguno se
omite la presentación de los diagramas de caja.
|
|
Las alternativas de Descriptivos son
el gráfico de tallo y hojas, activado por defecto, y el histograma. Estos
gráficos se elaboran por separado para todos los grupos definidos para cada
una de las variables dependientes.
|
|
-Si se activa la opción Gráficos
con pruebas de normalidad se obtienen para cada una de las variables
dependientes y para cada uno de los grupos el correspondiente gráfico Q-Q
Normal y el gráfico Q-Q Normal sin tendencia. Estos gráficos permiten
comprobar si las poblaciones de las que se han extraído las muestras
presentan distribución normal. El Q-Q Normal presenta simultáneamente para
cada elemento el valor observado y el valor esperado bajo el supuesto de
normalidad. Si los datos proceden de una distribución normal los puntos
aparecen agrupados en torno a la línea recta esperada. El Q-Q Normal sin
tendencia se basa en las diferencias entre los valores observados y los
valores esperados bajo la hipótesis de normalidad. Si estas diferencias se
distribuyen aleatoriamente alrededor del eje de abscisas puede suponerse que
la hipótesis de normalidad es sostenible. Además, esta opción permite
contrastar la hipótesis de normalidad con las prueba de Kolgomorov-Smirnov* y
de Shapiro-Wilks*.
|
|
La opción Dispersión por
nivel con prueba de Levene, activando No transformados,
permite contrastar la hipótesis de igualdad de varianza para los grupos
definidos por un factor.
• Opciones controla el tratamiento de los valores missing en el análisis exploratorio.
|
UNIDAD
III
ESTADISTICA DESCRIPTIVA: METODOS
NUMERICOS
Las medidas de localización dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra. Así en psicología los resultados de los test o pruebas que realizan a un determinado individuo, sirve para clasificar a dicho sujeto en una determinada categoría en función de la 53-1-u-puntuacióMn obtenida.
Medida de localización que divide la población o muestra en cuatro partes iguales.
- Q1= Valor de la variable que deja a la
izquierda el 25% de la distribución.
- Q2= Valor de la variable que deja a la
izquierda el 50% de la distribución = mediana.
- Q3= Valor de la variable que deja a la
izquierda el 75% de la distribución.
Caso
I: Variable cuantitativa discreta:
En este caso tendremos que observar el tamaño de
la muestra: N y para calcular Q1 o
Q3 procederemos como
si tuviésemos que calcular la mediana de la correspondiente mitad de la
muestra.
Caso
II: Variable cuantitativa continua:
En este caso el cálculo es más simple:, sea la
distribución que sigue:
| [Li-2 -- Li-1) |
ni-1 |
Ni-1 |
| [Li-1 -- Li) |
ni |
Ni |
Medida de localización que divide la población o muestra en 10 partes iguales
No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver sólo para las variables continuas.
dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el k·10 % de la distribución.
| [Li-2 -- Li-1) |
ni-1 |
Ni-1 |
| [Li-1 -- Li) |
ni |
Ni |
Intervalo donde se encuentra el Decil correspondiente:
EJEMPLO:
Como se puede observar la forma de calcular estas medidas es muy similar a la del cálculo de la mediana.
Veamos el cálculo de algunas de estas medidas en el ejemplo que estamos estudiando.
Vamos a calcular Q1,Q3, d3, y p45
Li-1
|
Li
|
ni
|
Ni
|
45
|
55
|
6
|
6
|
55
|
65
|
10
|
16
|
65
|
75
|
19
|
35
|
75
|
85
|
11
|
46
|
85
|
95
|
4
|
50
|
Cálculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25% de N=50, corresponde al 2º intervalo.(50/4=12.5)
Análogamente calculemos Q3, Buscamos ahora en la misma columna el correspondiente al 75 %de N que en este caso es el 4º intervalo (3.50/4=37.5)
Veamos ahora el decil 3º. (corresponde al 30 % 3 · 50 / 10 = 15) sería el 2º intervalo.
Por último veamos el percentil 45 (45·50/100 = 22.5) Corresponde al intervalo 3º.
Algunas medidas de Dispersión asociadas
Una vez estudiadas las medidas de localización surgen dos nuevas medidas de dispersión, que son:
Recorrido intercuartílico
Semi recorrido intercuartílico:
Recorrido interdecílico:
Recorrido intercentilico:
MEDIDAS DE VARIABILIDAD
Definición:
Son intervalos que indican la dispersión de
los datos en la
escala
de medición.
Responden la pregunta: ¿Dónde están
diseminadas las
puntuaciones
o los valores obtenidos?
Las medidas de variabilidad más utilizadas
son: amplitud
(rango),
desviación estándar y varianza.
AMPLITUD
Exclusiva (RANGO)
Definición:
Es
la medida de variabilidad más simple.
También llamado rango, es la diferencia entre la puntuación
menor,
e indica el número de unidades en la escala de
medición
que se necesitan para incluir los valores máximo y
mínimo.
Ejemplo:
17,
18, 20, 20, 24, 28, 28, 30, 33
Rango:
33-17= 16
VARIANZA
Definición:
Esta
relacionada con el tamaño de la diferencia entre cada
puntuación
y la media aritmética de la distribución a que
pertenece.
Es
la desviación estándar elevada al cuadrado y se simboliza s
y
un 2 como potencia.
Es
un concepto estadístico muy importante, ya que muchas
de
las pruebas cuantitativas se fundamentan en él.
Sin
embargo, con fines descriptivos se utiliza
preferentemente
la desviación estándar
DESVIACIÓN
ESTÁNDAR O TÍPICA
Definición:
Es el promedio de desviación de las puntuaciones
con
respecto
a la media.
Esta medida se expresa en las unidades
originales de
medición
de la distribución.
Cuanto mayor sea la dispersión de los datos
alrededor de la
media,
mayor será la desviación estándar.
Se simboliza con s o mediante la abreviatura
DE.
Manejo de valores
atípicos
¿Cómo determina si un valor es realmente un
valor atípico y cómo decide si debe continuar o no con el análisis de datos?
A. Uno
de los problemas arduos en el análisis de datos es manejar los valores atípicos
en un grupo de datos. Un valor atípico es una observación con un valor que no
parece corresponderse con el resto de los valores en el grupo de datos. Los
valores atípicos también suelen llamarse valores aberrantes o inconsistentes.
Por lo general surgen dos preguntas: 1) ¿Es este valor realmente un valor
atípico? 2) ¿Puedo eliminar este valor y continuar con el análisis de datos?
La
pregunta 1 se refiere a la identificación de un valor atípico, y dos
herramientas básicas relacionadas son la representación gráfica y la prueba
estadística. Un excelente gráfico para observar la distribución de
pequeños grupos de datos es el gráfico de puntos. Por ejemplo, tomemos
los datos 5.3, 3.1, 4.9, 3.9, 7.8, 4.7 y 4.3 para los que se muestra el gráfico
de puntos en la Figura 1.
Figura 1 — Trazado de puntos para los datos, 5.3, 3.1, 4.9, 3.9,
7.8, 4.7 y 4.3.
Aquí, el
valor 7.8 parecer ser un valor atípico porque está bien a la derecha del resto
en el gráfico de puntos. En el gráfico, en realidad estamos mirando los
espacios entre los valores de datos.
Dos de
las pruebas estadísticas utilizadas con mayor frecuencia en un grupo de datos
único son la prueba de Dixon y la prueba de Grubbs. La prueba de Dixon utiliza
relaciones de los espacios entre datos de diferentes modos según la cantidad de
valores en el grupo de datos. En el ejemplo anterior, el tamaño de la muestra
es 7, y la relación utilizada es el espacio entre el valor atípico (7.8) y su
vecino más próximo (5.3) dividido por el espacio entre los valores más grandes
y más pequeños en el grupo. Por lo tanto, el índice de Dixon es:
(7.8 – 5.3)/(7.8 – 3.1) = 2.5/4.7 = 0.532
Este
valor se compara con un valor crítico de una tabla, y el valor se declara valor
atípico si supera ese valor crítico. El valor crítico depende del tamaño de la
muestra, n, y de un nivel de representatividad elegido, que es el riesgo de
rechazar una observación válida. La tabla por lo general utiliza niveles de
baja representatividad tal como 1% o 5%. Para Para un n = 7 y un riesgo del 5%,
el valor crítico es 0.507. El índice de Dixon 0.532 excede este valor crítico,
indicando que el valor 7.8 es un valor atípico.
La
prueba de Grubbs utiliza una estadística de prueba, T, que es la diferencia
absoluta entre el valor atípico, XO, y el promedio de la muestra X dividida por la desviación estándar
de la muestra, s. Para el ejemplo anterior, el promedio de la muestra es X= 4.86 y la desviación estándar de
la muestra es = 1.48. La estadística calculada de la prueba es:
Para un
n = 7 y un riesgo del 5%, el valor crítico es 1.938 y el T = 1.99 excede este
valor crítico, indicando que el valor 7.8 es un valor atípico.
Con
respecto a la pregunta 2, debe saberse que las pruebas estadísticas se utilizan
para identificar valores atípicos, no para retirarlos del grupo de datos.
Técnicamente, una observación no debe retirarse a menos que una investigación
halle una causa probable para justificar esta acción. Algunas compañías han
definido procedimientos para estas investigaciones, incluyendo la repetición de
la prueba del material asociado a la observación de valores atípicos, en caso
de ser posible.
En
algunos casos, la situación física puede definir el problema. Para las tres
observaciones, 98.7, 90.0 y 99.7, el índice de Dixon es
8.7/9.7 = 0.897
El valor
crítico para un n = 3 y un riesgo de 5% es 0.941, ¡por lo que el valor 90.0 no
puede identificarse como valor atípico! Parte del motivo puede ser la
proximidad cercana de los otros dos valores. Sin embargo, si los valores
registrados son temperaturas del cuerpo humano en grados Fahrenheit, no hace
falta una prueba de valor atípico para llegar a la conclusión de que algo está
mal. Este ejemplo también ilustra que es difícil identificar valores atípicos
en pequeños grupos de datos, tal como n < 5. La norma ASTM, método para
llevar a cabo un estudio entre laboratorios para determinar la precisión de un
método de prueba, desalienta estas pruebas de valores atípicos para pequeños
grupos de resultados de pruebas repetidos en un mismo laboratorio y sugiere
otras metodologías para identificar grupos de datos aberrantes.
Si en la
investigación no se encuentra una causa probable, ¿qué debe hacerse? Un enfoque
sería realizar un análisis de datos con el valor atípico y sin él. Si las
conclusiones son diferentes, entonces se considera que el valor atípico tiene
influencia y esto debería indicarse en el informe. Otra opción es utilizar
estimadores rigurosos para caracterizar los grupos de datos, tal como la
mediana de la muestra en lugar de la media.
La ASTM, Práctica para manejar observaciones de
valores atípicos, contiene muchos procedimientos estadísticos para realizar
pruebas de valores atípicos. E178 de ASTM se indican otras referencias.
Cuando
hay múltiples valores atípicos en un grupo de datos, la investigación resulta más
complicada, pero existen procedimientos de prueba para estos casos. Un problema
es que un valor atípico puede enmascarar otro valor atípico en una prueba de un
valor atípico único. La prueba de Dixon supera esto redefiniendo los espacios a
utilizar a medida que aumenta el tamaño de la muestra. Este tema está bien
tratado en la norma E178 y en otras fuentes.
Resulta importante
destacar que lo primero es considerar los datos gráficamente para identificar
la posible existencia de más de un valor atípico, ya sea en la misma dirección
o en la dirección opuesta, antes de utilizar la técnica de Dixon o la técnica
de Grubbs. Estas técnicas están diseñadas para detectar un único valor atípico
en un grupo de datos, y por lo tanto no son adecuadas para la detección de
múltiples valores atípicos. Una técnica rigurosa y amplia para identificar
eficazmente múltiples valores atípicos es el procedimiento para muchos valores
atípicos con generalización extrema de la desviación de Student, descrito en la
Referencia Básica de ASQ, Volumen 16. Si bien los valores atípicos múltiples
están fuera del alcance deseado de este artículo, los lectores interesados
pueden consultar la bibliografía mencionada para obtener ayuda o también pueden
consultar a un especialista en estadísticas
MODALIDAD DE LOCALIZACIÓN RELATIVA Y DETECCIÓN DE VALORES ATIPICOS
En epidemiología, las medidas de asociación tratan de estimar la magnitud con la
que dos fenómenos se relacionan. Dicha asociación no implica necesariamente causalidad. Ejemplos de medidas de
asociación son:
- El riesgo relativo,
utilizado en los estudios de cohortes. Compara la ocurrencia o incidencia acumulada de un suceso entre quienes están expuestos a un factor de riesgo y quienes no.
- La razón de tasas, compara tasas de incidencia, es decir, la velocidad a la que ocurre un determinado fenómeno
entre personas expuestas y no expuestas a un factor de riesgo.
- El radio, que se usa en los estudios de casos y
controles, y que nos permite
relacionar cuánto más probable es que se produzca una exposición
determinada entre las personas enfermas (casos) que entre las sanas
(controles).
En estadística hay datos cualitativos y cuantitativos para las pruebas de 1, 2 y 3 o
más variables. Típicos estadísticos de asociación son la regresión y la correlación, que a su vez se divide en datos cardinales y ordinales.
MEDIDAS DE ASOCIACIÓN PARA DATOS ORDINALES
En el cuadro de diálogo Tablas de contingencia: Estadísticos pueden
activarse diversas opciones que proporcionan medidas de asociación cuando las
variables se miden por lo menos en una escala ordinal; las más utilizadas son:
1. Correlaciones: con esta opción se
obtienen los estadísticos:
- Coeficiente
de correlación de Pearson: es una medida de asociación lineal
adecuada para variables medidas en escala de intervalo *.
- calcular con datos ordinales, y se define: , siendo di la diferencia entre los rangos correspondientes a la observación i-ésima. El coeficiente toma valores entre -1 y +1. Un valor cercano a 0 indica que las variables apenas están relacionadas.
- La Mediana (X0.5):
-
Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemas puede ser mejor descrito usando una medida de tendencia central llamada mediana., y denotada por X0.5La mediana es una medida de posición y se define como la posición central en el arreglo ordenado de la siguiente manera:Dado un conjunto de números agrupados en orden creciente de magnitud, la mediana es el número colocado en el centro del arreglo, de tal forma que una mitad de las observaciones está por encima y la otra por debajo de dicho valor. Si el número de observaciones es par, la mediana es la media de los dos valores que se hallan en el medio del arreglo, de donde se concluye en la siguiente definición:Mediana. Es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos· La Mediana para datos no agrupados.Sea X1, X2; X3; … ; Xn; una sucesión de datos, la mediana denotada por X0.5 se calcula de la siguiente manera:X0.5 = X (n+1)/2 si n es parXn/2 + X(n/2)+1X0.5= ---------------------- si n es impar2Nota: El resultado obtenido en la formula corresponde al número de la observación en el arreglo, por tanto debe reemplazarse por el valor de dicha variable en el arreglo.Ejemplo: (n es impar)Se tienen las edades de cinco estudiantes universitarios de I año, a saber: 18,23,25.27 y 35. Obsérvese que los datos deben estar ordenadPor cuanto que el número de datos es cinco (n=5) y es impar, entoncesX0.5 = Xn+1/2 = X(5+1)/2 = X6/2 = X3 = 25 añosNota: obsérvese que se obtuvo el número de la variable mediana (X3) que en el arreglo de edades ordenado en forma ascendente corresponde a 25 años (X3=25)Continuación del ejemplo…(n es par)Si el número de estudiantes hubiere sido par, suponga que se adiciona un estudiante con 31 años, entonces el arreglo ascendente consecuente sería 18, 23, 25, 27, 31 y 35, entonces la mediana se calcula asi:· La mediana para datos agrupadosSi se tiene una distribución de frecuencias, la mediana es igualmente ese valor que tiene 50% de las observaciones por debajo y 50 % por encima. Geométricamente, la mediana es el valor de X sobre el eje de las abscisas correspondiente a la ordenada que divide un histograma en dos partes de igual área.Para hallar el valor de la mediana, en el caso de datos agrupados debe encontrarse primero la clase mediana, la que se define como la clase más baja para la cual la frecuencia acumulada excede N/2 (siendo N=Σfi ). Encontrada esta clase, la siguiente formula servirá para hallar el valor de la medianaN/2 – faX0.5 = Li + ------------- ( C )fidonde:L = límite inferior de la clase mediana.N = frecuencia total o Σfi.fa = frecuencia absoluta acumulada hasta la clase premedianafi = frecuencia absoluta de la clase medianaC = amplitud de la clase mediana.Ejemplo:Si se toman los datos obtenidos del ejemplo resuelto al construir la tabla de distribución de frecuencias de las cuentas por cobrar de la tienda Cabrera’s y Asociados que fueron las siguientesSi se desea calcular la mediana, es necesario primero encontrar la clase mediana, que será aquella que en teoría contenga el dato N/2 = 30/2 = 15, que corresponde con la tercera clase por cuanto que la frecuencia acumulada (fa) hasta esa clase es 19, luego entonces:
Respuesta: La mediana de cuentas por cobrar es B/.39.133
· Propiedades de la mediana· Hay solo una mediana en una serie de datos.· No es afectada por los valores extremos ( altos o bajos )· Puede ser calculada en distribuciones de frecuencia con intervalos abiertos, si no se encuentra en el intervalo abierto.Puede ser calculada en distribuciones con escala relativa, de intervalos, y ordinal
La Moda (Mo.):A veces es importante conocer cuál es el valor que más prevalece en el conjunto de datos. El valor que ocurre con más frecuencia se le conoce como moda. La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal, de intervalos y nominal.En un conjunto de números la moda se define como el valor ó número que ocurre con más frecuenciaEjemplo:En el siguiente conjunto de números 1, 5, 5, 9, 12, 12, 12, 14. La moda es igual a 12, por cuanto que es el número que más se repite (tres veces)· La Moda para datos agrupados (Mo.):La Moda puede deducirse de una distribución de frecuencia o de un histograma a partir de la fórmula.Mo. = Li + [ ( ∆1 / ∆1+∆2 ) ] CDonde;Li = límite inferior de la clase modal (clase de mayor frecuencia absoluta (fa)∆1 = diferencia de las frecuencias absolutas de la clase modal y premodal.∆2 = diferencia de las frecuencias absolutas de la clase modal y postmodalC = amplitud de la clase modal.Ejemplo:Para encontrar la moda es necesario, en primer lugar, identificar la clase modal; que será aquella que posea la mayor frecuencia absoluta. En el ejemplo de cuentas por cobrar de Cabrera`s y Asociados la clase modal será la primera, por cuanto que tiene la mayor frecuencia absoluta.A partir de esto se puede reemplazar en la formula anterior los datos, a saber:Li =7.42 C=14.415 f1 = 10 (frecuencia absoluta de la clase modal)f0 = 0 (frecuencia absoluta de la clase premodal)f2 = 4 (frecuencia absoluta de la clase postmodal)∆1 = 10–0 = 10 ∆2 = 10-4 = 6Mo. = 7.42 + [ (10/10+6) 14.415 ] = 7.42 + [ (10/16) 14.415] == 7.42 + [ 0.625 (14.415) ] = 7.42 + 9.01 = 16.53· Propiedades de la modao La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de intervalos, y relativa).o La moda tiene la ventaja de no ser afectada por valores extremos.o Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.· Desventajas de la moda· En muchas series de datos no hay moda porque ningún valor aparece más de una vez.· En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cual es el valor representativo de la serie de datos?Relación empírica entre la media, la mediana y la modaEn distribuciones totalmente simétricas, la media, la mediana y la moda coinciden, localizándose en un mismo valor. En cambio, en distribuciones moderadamente asimétricas, la siguiente relación se mantiene aproximadamente:Media – Moda = 3(Media – MedianaPosiciones relativas de la media, la mediana y la moda para curvas de frecuencias asimétricas a derecha e izquierda respectivamente, para curvas simétricas los tres valores coinciden
unidad 4: Introducción ala probabilidad
EXPERIMENTOS, REGLAS DE CONTEO Y ASIGNACIÓN DE PROBABILIDADES
En el estudio de la probabilidad, definimos un EXPERIMENTO como un proceso que genera resultados bien definidos. En cualquier repetición siempre de un experimento, ocurrirá uno y solo uno de los posibles resultados experimentales. A continuación vemos algunos ejemplos de experimentos y sus resultados.EXPERIMENTO RESULTADOS DEL EXPERIMENTOLanzar una moneda Cara, escudoSeleccionar una parte para inspeccionarla Defectuoso, no defectuosoVenta de Teléfonos Compro, no comproTirar un dado 1, 2, 3, 4, 5,6Jugar un partido de fútbol Ganar, perder, empatarCuando hayamos especificado todos los resultados posibles, habremos identificado el ESPACIO MUESTRAL del experimento.ESPACIO MUESTRALPara un experimento el espacio muestral es el conjunto de todos los resultados experimentales.Un resultado experimental también se conoce como PUNTO MUESTRAL para identificarlo como elemento del espacio muestral.Considere el primer experimento de la tabla anterior- lanzamiento de una moneda. Los resultados experimentales (puntos muéstrales) están determinados por la cara superior de la moneda- cara o escudo. Si S representa el espacio muestral podremos usar la siguiente notación para describirlo.S={cara, escudo}El espacio muestral para el segundo experimento de la tabla- seleccionar una parte para inspección- tiene el siguiente, espacio muestral y puntos muestrales.S={defectuoso,no defectuoso}Los experimentos, antes descritos tienen dos resultados experimentales(punto muestral). Sin embargo, suponga que consideramos el cuarto experimento listado- lanzar un dado. Los posibles resultados experimentales definidos como el numero de puntos que aparecen en la cara superior del dado son los seis puntos del espacio muestral para este experimento.S={1,2,3,4,5,6}REGLAS DE CONTEO, COMBINACIONES, PERMUTACIONESUn paso necesario en la asignación de probabilidades es poder identificar y contar los resultados experimentales. A continuación se analizan tres reglas de conteo que resultan útiles.EXPERIMENTO DE VARIAS ETAPASLa primer regla de conteo es para experimentos de varias etapas. Considere el experimento que consite en lanzar dos monedas. Los resultados experimentales se definen en términos de la sucesión de caras o escudos que aparecen en las caras superiores de las dos monedas. ¿Cuantos resultados experimentales son posibles para este experimento? Lanzar las dos monedas se pueden considerar como un experimento de dos pasos en que el primero es el lanzamiento de la primera moneda y el segundo es el lanzamiento de la segunda. Si para denotar escudo usamos la H y para denotar cara empleamos una T.(H,H) indica el resultado experimental con escudo en la primera moneda y un escudo en la segunda. Con esta notación podemos describir el espacio muestral S para el lanzamiento de monedas de la manera siguiente:S={(H,H),(H,T),(T,H),(T,T)}Así vemos que son posibles cuatro resultados experimentales.En este caso, no es difícil listarlos todos.La regla de conteo para experimentos de varias etapas permite determinar el numero de resultados experimentales sin listarlos.REGLA DE CONTEO PARA EXPERIMENTOS DE ETAPAS MÚLTIPLESSi un experimento se puede describir como una sucesión de K etapas, en las que hay n1 resultados posibles de la primera etapa, n2 en la segunda, etc.., la cantidad total de resultados experimentales es igual a (n1),(n2)......(nK).Si el experimento de lanzar dos monedas se considera como una sucesión de primero lanzar una moneda (n1=2) y luego lanzar la otra (n2=2), podemos inferir de la regla de conteo que hay (2)(2)=4 resultados experimentales distintos. Como se observa, hay S={(H,H),(H,T),(T,H),(T,T)}. El numero de resultados experimentales en un experimento que consiste en el lanzamiento d seis monedas es (2)(2)(2)(2)(2)(2)=64COMBINACIONESUna segunda regla de conteo que con frecuencia es de utilidad, permite contar la cantidad de resultados experimentales cuando en un experimento se deben seleccionar r objetos entre un conjunto de n objetos(por lo común mas grande). Se llama regla de conteo para combinaciones. El orden de los objetos seleccionados no es importante en el orden.Regla de conteo para combinacionesLa cantidad de combinaciones de n objetos tomados r a la vez esLa notación! significa factorial; por ejemplo, 5 factorial es 5!=(5)(4)(3)(2)(1)=120. Por definición, 0! es igual a 1.Un ejemplo de la regla de conteo para combinaciones es un procedimiento de control de calidad en que un inspector selecciona al azar dos de cinco partes, para examinar y ver si tiene defectos. En un grupo de cinco partes, ¿cuantas combinaciones de dos partes se puede seleccionar?. La regla de conteo de la ecuación que para n=5 y r=2 el resultado esAsí, hay 10 resultados en el experimento de seleccionar al azar dos partes de un grupo de cinco. Si identificamos a cinco partes como A,B,C,AD,AE,BC,BD,BE,CD,CE y DE.Otros ejemplo es el siguiente: la lotería de ohio emplea selección aleatoria de seis números de un grupo de 47 para determinar al ganador semanal. Se puede aplicar la regla de conteo. para combinaciones, para calcular la cantidad de maneras en que se pueden seleccionar seis números distintos de entre un grupo de 47 números.
La regla de conteo para combinaciones indica que hay mas de 10
millones de resultados experimentales para determinar al ganador de la lotería.
Una persona se compra un boleto de lotería tiene una posibilidad de ganar
10737573 .
PERMUTACIONES
Una tercer regla de conteo que a veces resulta útil es la regla de
conteo para permutuaciones. Esta permite que uno pueda calcular el numero de
resultados experimentales al seleccionar r objetos de un
conjunto n objetos, donde es importante el orden de selección. Si
los mismos r objetos se seleccionan en otro orden se considera que
se trata de un resultado experimental distinto . En las permutaciones si
importa el orden
Regla de conteo para permutaciones
El numero de permutaciones de n objetos tomando r
a la vez esta dado por
La regla de conteo para permutuaciones tiene estrecha relación con la de
las combinaciones. No obstante, un experimento tendrá mas permutaciones que
combinaciones para el mismo numero de objetos porque cada selección de r
objetos tiene n! formas distintas para ordenarlos.
Como ejemplo, considere de nuevo el proceso de control de calidad
en que un inspector selecciona dos de cinco parte para hallar los
defectos. ¿Cuantas permutuaciones es posible seleccionar? La regla de
conteo de ecuación muestra que con n=5 y r=2 se tiene
Evento
estadístico
En estadística, un evento o suceso es
un subconjunto de un espacio
muestral, es
decir, un conjunto de posibles resultados que se pueden dar en un experimento aleatorio.
Formalmente,
sea Ω un espacio muestral, entonces un evento es
un subconjunto
donde
donde son una serie de posibles
resultados.
Evento simple o suceso elemental
Un suceso o evento
simple es un subconjunto del espacio muestral que contiene
un único elemento.
Ejemplos de
espacios muestrales y sucesos elementales:
§ Si se trata de contar objetos y el espacio muestral S = {0, 1, 2, 3, ...} (los números naturales), entonces los sucesos elementales son cada uno de los
conjuntos {k}, donde k ∈ N.
§ Si se lanza una moneda dos veces, S = {cc, cs, sc, ss}, donde (c
representa "sale cara" y s, "sale cruz"), los sucesos
elementales son {cc}, {cs}, {sc} y {ss}.
§ Si X es una variable aleatoria normalmente distribuida, S = (-∞, +∞), los números reales, los sucesos elementales son todos los conjuntos {x},
donde x ∈ R.
Los sucesos
elementales pueden tener probabilidades que son estrictamente mayores que cero,
cero, no definidas o cualquier combinación de estas. Por ejemplo, la
probabilidad de cualquier variable aleatoria
discreta está
determinada por las probabilidades asignadas a los sucesos elementales del
experimento que determina la variable. Por otra parte, cualquier suceso
elemental tiene probabilidad cero en cualquier variable aleatoria
continua. Existen distribuciones mixtas que no son
completamente continuas, ni completamente discretas, entre las que pueden darse
ambas situaciones.
ALGUNAS
RELACIONES BÁSICAS DE PROBABILIDADTEORÍA DE PROBABILIDAD
SIGNIFICADO
Es la “posibilidad” u “oportunidad” de que ocurra
un hecho o fenómeno.
·
Precipitaciones el fin de semana.
·
Que gane el equipo XX el próximo partido.
·
Que salga un número par al arrojar un dado.
La Estadística, como un método para efectuar
generalizaciones o tomar decisiones ante la Incertidumbre, se
basa en la Teoría de Probabilidad, porque la Probabilidad es
a la vez el Lenguaje y la Medida de
la Incertidumbre y los riesgos asociados con
ella.
CONCEPTOS
BÁSICOS
·
Experimento Aleatorio
Un experimento se considera aleatorio o estocástico
si sus resultados son inciertos.
·
Espacio Muestral
Conjunto de todos los resultados posibles de un
experimento aleatorio. Es un conjunto universal y se simboliza con S.
Ejemplo: el experimento consiste en
arrojar un dado
S = {1,
2, 3, 4, 5, 6}
·
Punto Muestral
Cada uno de los resultados posibles de un
experimento aleatorio.
·
Suceso, hecho o evento
Es un subconjunto del espacio muestral S.
Un suceso E definido en un espacio muestral se
dice que es simple o elemental si
contiene un solo punto muestral en S; se dice que es compuesto si
contiene más de un punto muestral.
Ejemplo: Experimento que consiste en arrojar un
dado
Espacio Muestral S = { 1, 2, 3, 4, 5, 6}
Eventos Simples E1 ={1 } E2 ={2} E3= {3} E4 ={4} E5
={5} E6 ={6}
Eventos compuestos E1 ={1, 3, 5 } E2 ={2, 4, 6 }
TEORIAS
DE PROBABILIDAD
OBJETIVAS SUBJETIVAS
Clásica a Priori Clásica Empírica
o Frecuencial
·
Teoría Clásica a priori
Teoría de la razón insuficiente
Cuando no hay razones para preferir uno de los
posibles resultados o suceso a cualquier otro, todos deben considerarse con la
misma probabilidad de ocurrencia. Entonces la probabilidad de ocurrencia de un
suceso E, es:
Resultados favorables
Resultados posibles
La Teoría Clásica a
priori se basa en el conocimiento anterior o previo del proceso o
fenómeno.
·
Teoría Clásica frecuencial
Cuando el experimento aleatorio se
repite un gran número de veces (n) y el suceso ocurre (m) veces, la frecuencia
relativa m/n será prácticamente (casi igual, aproximadamente) igual a P.
1er Enfoque frecuencia relativa n:
grande
2do Enfoque P (E): Lim n
"
La teoría
frecuencial se basa en datos observados como resultado de repetir el
experimento un número grande de veces.
LAS FRECUENCIAS RELATIVAS ESTABILIZAN LAS PROBABILIDADES
Ejemplo:
La moneda se arroja 200 veces; el
número de caras en cada 20 ocasiones que se arroja se muestra en el cuadro que
sigue. ¿Cuál es la probabilidad de que caiga cara cuando se arroja la moneda?
·
Con la base de este experimento, la mejor respuesta que puede enunciarse
es que la probabilidad de que con esta moneda particular caiga cara al
arrojarla es 98/200= 0,49.
La gráfica siguiente
muestra el número de tiros y la frecuencia relativa acumulativa. Adviértase que
la gráfica varía alrededor de la frecuencia relativa de 0.5 calculada si la
moneda es ordinaria, normal o legal.
·
Las fluctuaciones de las frecuencias relativas varían considerablemente,
cuando n es pequeño.
·
Cuando n es grande, las fluctuaciones disminuyen y
la frecuencia relativa presenta regularidad estadística.
AXIOMAS DE PROBABILIDAD
La probabilidad de un evento E en un
experimento aleatorio, es el valor numérico P(E) que satisface los siguientes
axiomas:
·
Si E es un evento definitivo del espacio muestral S, entonces:
0 "P (E) " 1
·
Si S representa el conjunto de todos los resultados posibles de un
experimento aleatorio, entonces:
P (S)= 1
·
Si A y B son dos eventos cualesquiera definidos en el mismo espacio
muestral y, si A" B = , entonces A y B se dice que son mutuamente
excluyentes y, la probabilidad de que ocurra A ó B es la suma de
probabilidad de sus probabilidades:
P (A " B) = P (A) + P (B)
·
Si A y B son dos eventos cualesquiera definidos en el mismo espacio
muestral y, si A " B " , entonces A y B se dice que son no
mutuamente excluyentes y, la probabilidad de que ocurra A ó B es
la suma de probabilidad de sus probabilidades menos la probabilidad de
ocurrencia de ambos eventos:
P (A " B) = P (A) + P (B) - P (A" B)
·
Evento imposible, es aquel que no tiene ningún resultado
favorable dentro de un conjunto de resultados posibles de un experimento
aleatorio:
P () = 0
·
Evento complementario , de un evento A es el evento que
consiste en todos los resultados que no contiene el evento A:
P ( ) = 1 - P (A)
REGLAS PARA CÁLCULO DE PROBABILIDADES
·
Probabilidad Conjunta.
·
Probabilidad Marginal.
·
Probabilidad Condicional.
Independencia
PROBABILIDAD CONDICIONAL
En esta
sección examinaremos como la probabilidad de ciertos eventos depende o se ve
influida por la ocurrencia de otros. Para ello veremos algunos ejemplos.
Ejemplo 27: Se seleccionan dos semillas aleatoriamente, una por una, de una bolsa
que contiene 10 semillas de flores rojas y 5 de flores blancas. ¿Cuál es la
probabilidad de que:
- La primera semilla sea roja?
- La segunda semilla sea
blanca dado que la primera fue roja?
Solución:
- La probabilidad de que la primera semilla sea roja es 10 /15 , puesto que hay 10 semillas de flores rojas de un total de 15. Escrito con notación de probabilidad tenemos
b.La probabilidad de que la
segunda semilla sea blanca se ve influida por lo que salió primero, es
decir esta probabilidad está sujeta a una condición, la de que la primera
semilla sea roja. Este tipo de probabilidad se le llama probabilidad
condicional y se denota por
, y se
lee: la probabilidad de B2 dado R1.
Veamos la
situación en un diagrama de árbol:
Definición de Probabilidad Condicional:Para dos eventos cualesquiera A
y B en un espacio muestra S, tales que P(A) > 0 con P(A) ¹ 0, la probabilidad del evento B
dado el evento A, se define por
|
TEOREMAS DE VALLES
En la teoría
de la probabilidad el teorema de valles es un resultado enunciado por Thomas
valles en 17631 que expresa la probabilidad condicional de un evento
aleatorio A dado B en términos de la distribución de
probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de sólo A.
En términos más generales y menos
matemáticos, el teorema de valles es de enorme relevancia puesto que vincula la
probabilidad de A dado B con la probabilidad de B dado A. Es decir que sabiendo
la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podría
saber -si se tiene algún dato más-, la probabilidad de tener gripe si se tiene
un dolor de cabeza, muestra este sencillo ejemplo la alta relevancia del
teorema en cuestión para la ciencia en todas sus ramas, puesto que tiene
vinculación íntima con la comprensión de la probabilidad de aspectos causales dados
los efectos observados.
Además, unido a la definición de Probabilidad
condicionada,
obtenemos la Fórmula de valles, también conocida como la Regla de Valles:
El teorema de valles es válido en todas las aplicaciones de la teoría de
la probabilidad. Sin embargo, hay una controversia sobre el tipo de
probabilidades que emplea. En esencia, los seguidores de la estadística tradicional sólo admiten probabilidades basadas en experimentos repetibles
y que tengan una confirmación empírica mientras que los llamados estadísticos
bayesianos permiten probabilidades subjetivas. El teorema puede servir entonces
para indicar cómo debemos modificar nuestras probabilidades subjetivas cuando
recibimos información adicional de un experimento. La estadística bayesiana
está demostrando su utilidad en ciertas estimaciones basadas en el conocimiento
subjetivo a priori y el hecho de permitir revisar esas estimaciones en función
de la evidencia empírica es lo que está abriendo nuevas formas de hacer
conocimiento. Una aplicación de esto son los clasificadores bayesianos que son frecuentemente usados en implementaciones de filtros de correo
basura o spam, que se adaptan
DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
Variables aleratorias
Una Variable aleatoria X es una regla que asigna un
valor numérico a cada resultado en el espacio mestrual de un experimento.
Una vareable aleatoria discreta puede tomar en
específico, aislado valor numérico, como resultado de lanzar un dado, o el
número de dolares en una cuenta bancaria escogido de forma aleatoria.
Una variable aleatoria continua puede tomar cualquier
valor dentro de un continuo intervalo de tiempo, como la temperatura en el
Parque Central, o la altura de un atleta en centrimetros.
Variable aleatoria discreta que sólo puede asumir finitamente muchos
valores (como el resultado de lanzar un dado) se llama variables
aleatorias finitas.
Se llama variable aleatoria a toda función que
asocia a cada elemento del espacio muestral E un número real.
Se utilizan letras mayúsculas X, Y, ... para designar
variables aleatorias, y las respectivas minúsculas (x, y, ...) para designar
valores concretos de las mismas.
Variable aleatoria discreta
Una variable
aleatoria discreta es aquella que sólo puede tomar valores enteros.
Ejemplos
El
número de hijos de una familia, la puntuación obtenida al lanzar un dado.
Variable aleatoria continua
Una variable
aleatoria continua es aquella que puede tomar todos los
valores posibles dentro de un cierto intervalo de la recta real.
Ejemplos
La
altura de los alumnos de una clase, las horas de duración de una pila.
DISTRIBUCIONES
DISCRETAS DE PROBABILIDAD
Cuando se habla de los tipos de probabilidad, decimos
que esta se clasifica en tres:
1. Probabilidad clásica.
2. Probabilidad distribución de frecuencias.
3. Probabilidad subjetiva.
La distribución de probabilidades esta muy relacionado
con el tipo de variables. Nosotros conocemos dos tipos de variables:
a. Variable discreta, y
b. Variable continúa.
En este trabajo, estudiaremos las principales distribuciones de
variables discretas. Una distribución de probabilidades para una variable
aleatoria discreta es un listado mutuamente excluyente de todos
los resultados numéricos posibles para esa variable aleatoria tal que
una probabilidad específica de ocurrencia se asocia con cada resultado.
El valor esperado de una variable aleatoria discreta
es un promedio ponderado de todos los posibles resultados, donde las
ponderaciones son las probabilidades asociadas con cada uno de los resultados.
Donde: Xi = i-ésimo resultado de X, la variable
discreta de interés.
P(Xi) = probabilidad de ocurrencia del i-ésimo
resultado de X
La varianza de una variable aleatoria discreta (s
2) se define como el promedio ponderado de los cuadros de las
diferencias entre cada resultado posible y su media (los pesos son las
probabilidades de los resultados posibles).
Donde: Xi = i-ésimo resultado de X, la variable
discreta de interés.
P(Xi) = probabilidad de ocurrencia del i-ésimo
resultado de X
Las distribuciones de probabilidades discretas más importantes
son:
1. Distribución Binomial, y
2. Distribución de Poisson
Hablaremos de cada tipo de distribución y como lo
resolveremos aplicando el Excel.
VALOR ESPERADO Y VARIANZA
En teoría de probabilidad, la varianza (que suele representarse como
de una variable aleatoria es una dispersión definida como la esperanza del cuadrado de la
desviación de dicha variable respecto a su media.
de una variable aleatoria es una dispersión definida como la esperanza del cuadrado de la
desviación de dicha variable respecto a su media.
Está medida en unidades distintas de las de
la variable. Por ejemplo, si la variable mide una distancia en metros, la
varianza se expresa en metros al cuadrado. La desviación estándar, es la raíz cuadrada
de la varianza, es una medida de dispersión alternativa expresada en las mismas
unidades de los datos de la variable objeto de estudio. La varianza tiene como
valor mínimo 0.
Hay que tener en cuenta que la varianza puede
verse muy influida por los valores atípicos y no se aconseja su
uso cuando las distribuciones de las variables aleatorias tienen colas pesadas.
En tales casos se recomienda el uso de otras medidas de dispersión más robustas.
Dada
una variable aleatoria X con media μ
= E(X), se define su varianza, Var(X) (también
representada como
o,
simplemente σ2), como.
o,
simplemente σ2), como.
Desarrollando la
definición anterior, se obtiene la siguiente definición alternativa (y
equivalente):
DISTRIBUCIÓN BINOMIAL
La distribución binomial es una distribución de probabilidades que surge
al cumplirse cinco condiciones:
1. Existe una serie de N ensayos,
2. En cada ensayo hay sólo dos posibles resultados,
3. En cada ensayo, los dos resultados posibles son mutuamente excluyentes,
4. Los resultados de cada ensayo son independientes entre si, y
La probabilidad de cada resultado
posible en cualquier ensayo es la misma de un ensayo a otro.
Cuando se cumple estas condiciones, la distribución binomial proporciona
cada resultado posible de los N ensayos y la probabilidad de obtener
cada uno de estos resultados.
Para este tipo de distribución de probabilidad, la función matemática es la siguiente:
Donde: P(X) = probabilidad de X éxitos dados los
parámetros n y p
n = tamaño de la muestra
p = probabilidad de éxito
1 – p = probabilidad de fracaso
X = numero de éxitos en la muestra ( X = 0, 1, 2, …….. n)
DISTRIBUCIÓN DE POISSON.
Características:
En este tipo de experimentos los éxitos buscados son expresados por
unidad de área, tiempo, pieza, etc, etc,:
- # de defectos de una tela por m2
- # de aviones que aterrizan en un aeropuerto por día, hora, minuto,
etc, etc.
- # de bacterias por cm2 de
cultivo
- # de llamadas telefónicas a un conmutador por hora, minuto, etc,
etc.
- # de llegadas de embarcaciones a un puerto por día, mes, etc, etc.
Para determinar la probabilidad de que ocurran x éxitos por unidad de
tiempo, área, o producto, la fórmula a utilizar sería:
donde:
p(x, l) = probabilidad de que ocurran x éxitos, cuando el número promedio de
ocurrencia de ellos es l
l = media o promedio de éxitos por unidad de tiempo, área o producto
e = 2.718
x= variable que nos
denota el número de éxitos que se desea que ocurra
Hay que hacer notar que en esta distribución el número de éxitos que
ocurren por unidad de tiempo, área o producto es totalmente al azar y que cada
intervalo de tiempo es independiente de otro intervalo dado, así como cada área
es independiente de otra área dada y cada producto es independiente de otro
producto dado.
Distribución hipergeométrica
La función de probabilidad de una variable aleatoria con distribución hipergeométrica puede deducirse a través de razonamientos combinatorios y es igual a

donde( N)es el tamaño de población, (n)es el tamaño de la muestra extraída, (b)es el número de
elementos
en la población original que pertenecen a la categoría deseada y (x)es el número de
elementos en la muestra que pertenecen a dicha categoría. La notación
hace referencia al coeficiente binomial, es decir, el número de
combinaciones posibles al seleccionar (b)elementos de un total (a).
hace referencia al coeficiente binomial, es decir, el número de
combinaciones posibles al seleccionar (b)elementos de un total (a).
El valor esperado de una variable aleatoriaX que sigue la distribución hipergeométrica es
y su varianza,
La
distribución hipergeométrica es aplicable a muestreos sin reemplazo y la binomial a muestreos con reemplazo. En situaciones en
las que el número esperado de repeticiones en el muestreo es presumiblemente
bajo, puede aproximarse la primera por la segunda. Esto es así cuando N
es grande y el tamaño relativo de la muestra extraída, n/N, es pequeño
DISTRIBUCIONES CONTINUAS DE PROBABILIDAD
Distribución de probabilidad uniforme
La distribución de probabilidad uniforme es un ejemplo de una
distribución de probabilidad es continua. Una distribución de probabilidad es
continua cuando los resultados posibles del experimento son obtenidos de variables aleatorias continuas, es decir, de variables cuantitativas que pueden
tomar cualquier valor, y que resultan principalmente del proceso de medición.
Ejemplos de variables aleatorias continuas son:
La estatura de un grupo de personas
El tiempo dedicado a estudiar
La temperatura en una ciudad
Es una distribución en el intervalo [a,b] en la cual las
probabilidades son las mismas para todos los posibles resultados, desde el
mínimo de a hasta el máximo de b. El experimento de lanzar un
dado es un ejemplo que cumple la distribución uniforme, ya que todos los
6 resultados posibles tienen 1/6 de probabilidad de ocurrencia.
Donde:
a = mínimo valor de la distribución
b = máximo valor de la distribución
b – a = Rango de la distribución
La media, valor medio esperado o esperanza matemática de una distribución uniforme se calcula empleando la siguiente fórmula:
La varianza de una distribución uniforme se
calcula empleando la siguiente fórmula
La probabilidad de que una observación caiga entre dos valores se calcula de la siguiente manera:
Distribución de probabilidad exponencial
Si en el contexto de un proceso de Poisson ocurren eventos o éxitos en un espectro continuo de tiempo y
espacio. Entonces la longitud del espacio o tiempo entre eventos sucesivos
sigue una distribución de probabilidad exponencial. Puesto que el tiempo y el
espacio son un espectro continuo, esta es una distribución continua.
En caso de este tipo de distribución no vale la pena preguntarse ¿cuál
es la probabilidad de que el primer pedido de servicio se haga exactamente de aquí a un minuto?. Mas bien debemos asignar un
intervalo dentro del cual el evento puede ocurrir, preguntándonos, ¿cuál es la
probabilidad de que el primer pedido se produzca en el próximo minuto?.
Dado que el proceso de Poisson es estacionario, la distribución
exponencial se aplica ya sea cuando estamos interesados en el tiempo (o
espacio) hasta el primer evento, el tiempo entre dos eventos sucesivos, o el
tiempo hasta que ocurra el primer evento después de cualquier punto aleatoriamente
seleccionado.
Donde l es la cifra media de ocurrencias para el intervalo de interés, la probabilidad exponencial de que el primer evento ocurra dentro del
intervalo designado de tiempo o espacio es.
P(T < t) = 1
- e -l
De manera que a probabilidad exponencial de que
el primer evento no ocurra dentro del intervalo designado de tiempo o espacio
es:
P(T > t) = e
-l
Ejemplo:
Un departamento de mantenimiento recibe un promedio de 5 llamadas por hora.
Comenzando en un momento aleatoriamente seleccionado, la probabilidad de que
una llamada llegue dentro de media hora es:
Promedio 5 por hora, como el intervalo es media
hora tenemos que l = 2,5/media
hora.
P (T < 30
min.) = 1- e -5 = 1 - 0,08208 = 0,91792
Distribución de probabilidad
normal
Es una distribución de probabilidad continua que es tanto simétrica como mesocurtica. La
curva que representa la distribución de probabilidad normal se describe
generalmente como en forma de campana. Esta distribución es importante en
inferencia estadística por tres razones diferentes:
1.
Se
sabe que las medidas producidas en muchos procesos aleatorios siguen esta distribución.
2.
Las
probabilidades normales pueden utilizarse generalmente para aproximar otras
distribuciones de probabilidad, tales como las distribuciones binomial y de
Poisson.
3.
Las
distribuciones estadísticas tales como la media de la muestra y la proporción
de la muestra, siguen a menudo la distribución normal, sin tener en cuenta la
distribución de la población
Los valores de los parámetros de la distribución de probabilidad normal
son m = 0 y s = 1. Cualquier conjunto de valores X normalmente distribuido pueden
convertirse en valores normales estándar z por medio de la formula:
Haciendo posible el uso de la tabla de
proporciones de área y hace innecesario el uso de la ecuación de la función de densidad de cualquier distribución normal dada.
Para aproximar las distribuciones discretas
binomial y de Poisson se debe hacer:
|
Binomial
|
m = np
|
s = np(1-p)
|
Si n > 30
.np> 5 n(1-p)
> 5
|
|
Poisson
|
m = l
|
s = l
|
l> 10
|







.jpg)
.jpg)



.jpg)


























































