Probabilidad y Estadistica: septiembre 2008

martes, 16 de septiembre de 2008

1.5 Datos agrupados

En estadística se conoce como Datos Agrupados al conjunto de datos dados para un estudio en el que se hace un cuadro de distribución de frecuencias donde se agrupa, se contabiliza y se ordenan los datos con clases, rangos, grupos o intervalos etc, en las siguientes entradas veremos como formar estas tablas con sus respectivas formulas y al igual que cuando tenemos un conjunto de datos no agrupados también veremos la media, moda, mediana, varianza etc que tambien se calculan de una forma diferente.

lunes, 15 de septiembre de 2008

1.4.2 Medidas de dispersión

Acabamos de cumplir con la primera parte que es medidas de tendencia central en lo que seria para datos no agrupados ahora veremos la segunda parte que es: Medidas de dispersión.

¿Que son las medidas de dispersión? ¿para que se utilizan?

cito de nuevo a Wikinpedia:

"Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media . Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.

Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación Media ) y otra es tomando las desviaciones al cuadrado (Varianza)."

A continuación veremos cada uno de los elementos que comprenden o que entran en las medidas de dispersión.

La varianza $S^2$

La varianza se define como la Se define como "la esperanza de la transformación" segun los estadistas.

Su formula es:

$s^2=\sum^n _{i=1}(xi - \overline {x})^2$

La forma reducida de esta ecuación es:

un ejemplo:

En una granja se mide el totla de litros diarios de leche que producen las 100 vacas en el establo> Los resultados diarios de la primera semana de mayo del 2008 fueron: 400, 435, 450,420,410,420 y 440.

Paso uno sacamos el promedio (la media) de litros diarios de leche producidos por las 100 vacas y es:

Lo primero que se hace para calcular la desviacion estadar es:

$\sum^7 _{i=1}xi = 2975$

ahora se eleva al cuadrado:

$\left(\sum^7 _{i=1}xi \right)^2 = 2975^2 = 8850625$

y

$\sum^7_{i=1}xi^2=400^2+435^2+450^2+420^2+410^2+420^2+440^2 =1266225$

Ahora sustituyendo en la formula de la varianza se obtiene:

$s^2 =\frac{n\sum_{i=1}^2xi^2 -\left(\sum^n_{i=1}x1 \right)^2}{n(n-1}=\frac{7(1266225)-8850625}{7(6)}=308.33$

Difícil? para nada .. ahora veamos la Desviación Estándar que es una de las medidas de dispersión.

Comprendemos que la desviación estándar es "una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable." (cita de wikipedia)

y se expresa como : $s$

su formula es muy sencilla:

$s = sqrt{s^2 }$

ponemos como ejemplo el problema anterior de las vacas, quedamos en que la desviacion media era 308.33

$s^2 = 308.33$

entonces sustituimos en la ecuacion:

$s= sqrt {s^2} =sqrt{308.33}= 17.56$

y dedujimos entonces que

$s=17.56$

Esto se pone aun mas divertido cuando entramos a la desviación media que según wikipedia:

La desviación media es la media de las diferencias en valor absoluto de los valores a la media.

Confuso? ya lo creo, ya que entremos a desarrollarlo encontraremos la desviación media como un concepto muy sencillo.

Se expresa como: $DM$

Su formula reducida es:

$DM =\sum^n_{i=1}\mid{xi-\overline{x}}\mid$

o también :

$DM =\mid{x1-\overline{x}}\mid+\mid{x2-\overline {x}}\mid+\mid{x3-\overline {x}}\mid+...+\mid{xn-\overline {x}}\mid$

ejemplo:

si tenemos los siguientes datos: 10,20,30,40 calcular la desviación media

lo primero que hacemos es sacar la media

$\overline{x}=\frac{\sum^4_{i=1}xi}{4}=\frac{10+20+30+40}{4}=25$

Ahora sustituimos en la formula:

$DM=\frac{\sum^4_{i=1}\mid{xi-\overline{x}\mid}}{4}=\frac{\mid{10-25}\mid+\mid{20-25}\mid+\mid{30-25}\mid+\mid{40-25}\mid}{4}$

$DM=\frac{\sum^4_{i=1}\mid{xi-\overline{x}\mid}}{4}=\frac{\mid{10-25}\mid+\mid{20-25}\mid+\mid{30-25}\mid+\mid{40-25}\mid}{4}=\frac{40}{4}=10$

y sabemos que:

$DM=10$

Aquí terminamos por cubrir las medidas de dispersión para datos no agrupados, mas adelante conoceremos dichas medidas pero en datos agrupados abarcando también los Percentiles y Cuartiles.

domingo, 14 de septiembre de 2008

1.4.1 Medidas de tendencia central

Ya fue suficiente ver tanta teoría que hasta empieza a aburrirme llego la parte divertida, la practica, y comenzaremos con las Medidas de Tendencia central que según wikinpedia se refiere a:

"Describir grupos de observaciones, con frecuencia se desea describir el grupo con un solo número. Para tal fin, desde luego, no se usará el valor más elevado ni el valor más pequeño como único representante, ya que solo representan los extremos más bien que valores típicos. Entonces sería más adecuado buscar un valor central. Las medidas que describen un valor típico en un grupo de observaciones suelen llamarse medidas de tendencia central. Es importante tener en cuenta que estas medidas se aplican a grupos más bien que a individuos. Un promedio es una característica de grupo, no individual."

Las medidas de tendencia central son 3

La media $\overline{ X }$

La medida de tendencia central más obvia que se puede elegir, es el valor obtenido sumando las observaciones y dividiendo esta suma por el número de observaciones que hay en el grupo. La media resume en un valor las características de una variable teniendo en cuenta a todos los casos. Solamente puede utilizarse con variables cuantitativas.

La formula para la media es:

$\overline {x} =\frac { \sum_ {L= 1}^ n (xi)}{2}$

De un conjunto de datos de :

$x1 + x2 + x3 + ... + xn$

entre el numero de datos "n"

$\frac {x1 + x2 + x3 + ... + xn}{n}$

dedujimos que:

$media = \overline {x} = \frac {x1+x2+X3+...+xn}{n} =\frac {\sum _{L=1}^n (xi) }{n}$

ejemplo de un conjunto de datos muestrados obtener la media :
1500, 1750, 2300,1800,1675,1550

$\overline{X}= \frac { 1500 + 1750 + 2300 + 1800 + 1675 + 1550} {6}$

$\overline{x}= \frac { 10575} {6} = 1762.5$

Fácil no? , la media nos es familiar cuando sacamos el promedio de alguna calificación, aquí podemos encontrar una aplicación real de la media.

La moda: $\hat{X}$

La moda en datos no agrupados es el valor que se repite mas veces por ejemplo en el conjunto de datos anterior no tenemos moda por que ningún valor se repite, pero veamos otro ejemplo:

14, 12, 65, 6, 88, 54, 13, 88,59, 99, 88, 14, 74 , 86 , 88

el valor que mas se repite es el 88

entonces:

$\hat{x}= 88$

La mediana: $\tilde{x}$

Según el Libro de probabilidad y Estadística de la DGETI por Miguel Ángel Marqués Eliaz define la mediana como:

"El valor del dato a cuya izquierda se encuentra aproximadamente el 50% de los datos ordenados de menor a mayor o de mayor a menor. "

en otras palabras la mediana es el valor que se encuentra exactamente a la mitad de un conjunto de datos ordenados de menor a mayor.

ejemplo:

tenemos 15,17,22,27,30

el dato que se encuentra exactamente ala mitad del conjunto es el 22, existe una formula para obtener la mediana, pero cambia conforme el conjunto de datos sea par o impar.

Caso 1, cuando los datos son impares:

17,19,21,23,25,27,29

tenemos un total de 7 datos

entonces la formula es:

$\tilde{x}= X (\frac {n+1}{2})$

sustituyendo:

$\tilde{x}= X (\frac {7+1}{2})$

$\tilde{x}= X (\frac {8}{2})$

$\tilde{x}= X4$

y entendemos que el valor de la mediana es la x4

osea:

$X4= 23$

fácil verdad?

Caso2 : cuando el conjunto de datos es par:

34,39,44,49,54,59

tenemos un total de 6 datos.

se usa esta formula:

$\tilde{x}= \frac {(x \frac {n}{2}) +( x \frac {n}{2}+ 1) }{2}$

Sustituyendo:

$\tilde{x} = \frac {(x\frac {6}{2}) + ( x\frac {6}{2} + 1 ) }{2}$

Reduciendo:

$\tilde{x} = \frac {x3 + x4}{2}$

sustituyendo por los valores del conjunto:

$\tilde{x} = \frac {44 + 49}{2}= \frac {93}{2}= 46 .5$

y entendemos que el valor de la mediana es:

$\tilde{x} =46 .5$

Nota: estas formulas se aplican solo cuando tenemos los datos no agrupados, para datos agrupados se utiliza la tabla e distribucion de frecuencias que veremos mas adelante.

1.4 Datos no agrupados

En estadística podemos encontrar cuando necesitamos analizar un conjunto de datos puede que sean datos agrupados o datos no agrupados:

Aquí las diferencias entre ambos con un ejemplo:

Vas a investigar la edad a un grupo de 20 Niños en datos no agrupados (es decir, vienen los 20 niños y asi como te la dan.

2,2,1,3,3,3,4,4,5,6,1,2,2,3,3,3,4,4,3,... (Total 20 niños)
Estos son datos no agrupados por que no los has clasificado y contado

1,1,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,5,5,... (Total 20 niños)
Los datos no agrupados también los puedes ordenar, por ejemplo de la edad menor a la edad mayor, no están contabilizados ni clasificados solamente están ordenados pero siguen siendo datos no agrupados.

Para que sean datos agrupados tienes que contarlos y clasificarlos, por ejemplo cuantos niños habia de cada año. (y siguen siendo 20 niños)

Lo hacemos con una tabla:

O también los puedes agrupar (Serie agrupada) en clases, rangos, grupos o intervalos por ejemplo de 2 años para este caso (y siguen siendo 20)

Es decir, son datos agrupados cuando tienen Frecuencia (quiere decir que están contados y clasificados y datos no agrupados cuando no tienen frecuencia o que no están contabilizados o clasificados.

Las medidas de tendencia central (media, moda y mediana) y las Medidas de dispersión (desviación estándar, varianza, cuartiles, percentiles,entre otros se CALCULAN DIFERENTE cuando se trata de datos agrupados y de datos no agrupados.

Poco a poco nos vamos adentrando en la estadistica y comenzamos a comprender conceptos que eran desconocidos y ahora nuevos conceptos se nos aperasen como la moda, media, mediana, varianza, que en las siguientes entradas iremos viendo cada uno de estos nuevos conseptos que hasta ahora son desconosidos

1.3 Obtencion de datos estadisticos

De nuevo con la teoría en esta entrada veremos algunos Métodos de obtención de datos para un estudio.

La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal analisis.

algunos van desde la elaboración de encuestas, entrevistas, censos.

Ejemplo:
si queremos realizar un estudio estadístico sobre la cantidad de alumnos que reprueban el primer semestre en el Tec y las causas del porque repruevan. ¿que es lo que tenemos que hacer? ¿ por donde empezamos?

primero que nada tenemos que buscar en los registros las calificaciones de cada uno de los alumnos, y sin darnos cuenta lla tenemos nuestra poblacion, que seria todos los alumnos del primer semestre, ahora clasificamos a cada uno de los alumnos como aporvado o reprovado segun su calificacion.

Ya que dividimos los alumnos aprovados de los reprovados, ahora el paso siguiente es hacer una encuestra y entrevistar a los alumnos reprovados para que nos den los motivos del por que la reprovacion, pero como sabemos que la cantidad de alumnos en el tecnologico es muy grande pues oviamente no podemos ir a preguntarles a cada uno pues tardariamos demaciado tiempo, lo que se hace en estos casos es de que seleccionamos a unos cuantos ya sean dos o tres alumnos de cada especialidad que allan reprovado para encuestarlos o entrevistarlos y sin darnos cuenta de la poblacion de todos los alumnos reprovados ya estamos haciendo nuestra muestra aleatoria seleccionando a dos o tres alumnos al azar de cada carrera.

Despues de ralizar las encuentas se analizan y se grafican, una grafica correspondiente a las calificaciones y otra a los motivos de reprovacion lo cuales pueden ser
- por que el alumno trabaja
-por que llega tarde
-por que los profesores faltan
-por que los profesores piden hacer blogs en internet ( es broma )
entre otros motivos.

1.2 Poblacion y muestra aleatoria

Bien ahora veremos el segundo tema de esta primera unidad, como ya es costumbre comenzare por los conceptos básicos, ¿ que entendemos por población ?

Bueno según wikinpedia:

También llamada universo o colectivo es el conjunto de elementos de referencia sobre el que se realizan las observaciones.

Existen distintos tipos de poblaciones que son:

Población base: es el grupo de personas designadas por características personales, geográficas o temporales, que son elegibles para participar en el estudio.
Población muestreada: es la población base con criterios de viabilidad o posibilidad de realizarse el muestreo.
Muestra estudiada: es el grupo de sujetos en el que se recogen los datos y se realizan las observaciones, siendo realmente un subgrupo de la población muestreada y accesible. El número de muestras que se puede obtener de una población es una o mayor de una.
Población diana: es el grupo de personas a la que va proyectado dicho estudio, la clasificación característica de los mismos, lo cual lo hace modelo de estudio para el proyecto establecido.

Entendemos que la población son los elementos de un estudio, el conjunto de datos o colectivo, por ejemplo

si queremos analizar las calificaciones de un grupo de 30 alumnos pues la poblacion son las 30 calificaciones de los alumnos.

Lo que comunmente conocemos como muestra es una porcion tomada de la poblacion.

Es decir si queremos una muestra de la poblacion en esta caso como el ejemplo anterior 30 alumnos seria la poblacion, una muestra es una parte o una porcion del total de poblacion, si queremos una muestra tomamos para analizar una de las 30 calificaciones si queremos dos muestras, tomamos dos de las 30 calificaciones y asi susecivamente.
Por lo general al momento de elegir una muestra de una población dada se hace de tal forma en que todos los datos de la población tengan la misma posibilidad de ser seleccionados para analizarse, existen diferentes metodos el mas comun es al azar es decir sin tomar en cuenta ninguna preferencia por ninguna otra muestra, ha esto se le conoce en estadistica como Muestra Aleatoria.

Ejemplo:

Si tenemos una poblacion de 7 datos:

30 69 25 69 88 14 16

para obtener una muestra aleatoria solo seleccionamos un dato al azar , en este caso: el 14.

Aqui algo mas didactico:

Ya tenemos bien claros los conseptos de Poblacion y de muestra aleatoria cumpliendo con este tema. esta facil no?

1.1 Definicion, clasificacion y campo de aplicacion de la estadistica

¿ Que es la estadística?, ¿Para que sirve?, ¿ tiene una aplicación real o solo son gráficas y mas gráficas?.
Estas y mas preguntas serán respondidas en este tema, comenzare por definir a la estadística según wikinpedia:

La estadística es una rama de las matemáticas que se refiere a la recolección, análisis e interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, ciencias de la salud como la Psicología y la Medicina, y usada en la toma de decisiones en áreas de negocios e instituciones gubernamentales.

La Estadística se divide en dos ramas:

La Estadística Descriptiva que se dedica a los métodos de recolección, descripción, visualización y resumen de originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de descriptores numéricos son: la media y la desviación estándar. Resúmenes gráficos incluyen varios tipos de figuras y gráficos.
La Inferencia Estadística, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo aleatorios e incertidumbre en las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población de estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (Estimación), pronósticos de futuras observaciones entre otras.

Origen:

La palabra "estadística" procede del latín statisticum collegium ("consejo de Estado") y de su derivado italiano statista ("hombre de Estado" o "político"). El término alemán Statistik, que fue primeramente introducido por Gottfried Achenwall (1749), designaba originalmente el análisis de datos del estado, es decir, "la ciencia del Estado" (también llamada "aritmética política" de sus traducción directa del inglés). No fue hasta el siglo XIX cuando el término estadística adquirió el significado de recolectar y clasificar datos. Este concepto fue introducido por el inglés Jonh Sincalir.

En su origen, por tanto, la estadística estuvo asociada a datos, a ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La colección de datos acerca de estados y localidades continúa ampliamente a través de los servicios de estadística nacionales e internacionales. En particular, los censos suministran información regular acerca de la población.

Desde los comienzos de la civilización han existido formas sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 a. C. los babilónicos usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XI a. C. Los libros bíblicos de numeros y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judias. En China existían registros numéricos similares con anterioridad al año 2000 a. C. Los griegos clásicos realizaban censos cuya información se utilizaba hacia el 594 a. C. para cobrar impuestos.

Con esta extensa introduccion al origen y lo que enrrealidad es la estadistica podemos entender que tiene una aplicacion real, la estadistica es una de las ciencias fundamentales a lo largo de la historia. a qui un ejemplo:

Un ejemplo de un estudio experimental es el famoso experimento de Hawthorne el cual pretendía probar cambios en el ambiente de trabajo en la planta Hawthorne de la Western Electric Company. Los investigadores estaban interesados en si al incrementar la iluminación en un ambiente de trabajo, la producción de los trabajadores aumentaba. Los investigadores primero midieron la productividad de la planta y luego modificaron la iluminación en un área de la planta para ver si cambios en la iluminación afectarían la productividad. La productividad mejoró bajo todas las condiciones experimentales. Sin embargo, el estudio fue muy criticado por errores en los procedimientos experimentales, específicamente la falta de un grupo de control y seguimiento.

Pero aun asi en este ejemplo que demuestra que la estadistica tiene una aplicacion real por eso la importancia de que nosotros como ingenieros tengamos conocimiento de la estadistica como materia basica dentro de nuestra facultad.

sábado, 13 de septiembre de 2008

1 Estadistica Descriptiva

Comenzamos por definir lo que es la estadista descriptiva:

La estadística descriptiva es una parte de la estadística que se dedica a analizar y representar los datos. Este análisis es muy básico, pero fundamental en todo estudio. Aunque hay tendencia a generalizar a toda la población las primeras conclusiones obtenidas tras un análisis descriptivo, su poder inferencial es mínimo y debería evitarse tal proceder. Otras ramas de la estadística se centran en el contraste de hipótesis y su generalización a la población.

Como su misma palabra lo dice, descriptiva o sea que describe y representa los datos que queremos analizar.

y comprende todos los elementos siguientes que mas adelante explicare:

-Población
-Muestra Medidas de dispersión
-Medidas de tendencia central
-Muestras
-etc

Esta es una pequeña introducción ala estadística y a su vez ala estadística descriptiva.

Temario

Aqui tenemos el temario tomado de la pagina MI Tecnologico : http://www.mitecnologico.com/iem/Main/ProbabilidadYEstadistica

Convertire el Temario en un Indice poniendo el enlaze de la entrada del blog conforme vallamos cubriendo cada uno de los temas de cada unidad.

Estadística Descriptiva.

1 Estadística descriptiva
1.1 Definición, clasificación y campo de aplicación de la estadística.
1.2 Población y muestra aleatoria.
1.3 Obtención de datos estadísticos.
1.4 Datos no agrupados
1.4.1 Medidas de tendencia central
1.4.2 Medidas de dispersión
1.4.3 Aplicaciones propias del área
1.5 Datos agrupados
1.5.1 Tabla de distribución de frecuencias
1.5.2 Medidas de tendencia central
1.5.3 Medidas de dispersión y de posición
1.5.4 Cuantiles
1.5.5 Aplicaciones propias del área
1.6 Gráficos
1.6.1 Gráfica circular
1.6.2 Diagrama de puntos
1.6.3 Histograma y polígono de frecuencias
1.6.4 Cajas y alambres
1.6.5 Diagrama de Pareto
1.6.6 Aplicaciones propias del área
1.6.7 Uso de software

Probabilidad y Estadistica