Estadística Matemática - del Departamento de Economía Aplicada III

Loading...

Estadística Matemática Fernando Tusell1 19 de septiembre de 2007

1

Bastantes errores menos en esta versión son consecuencia de los comentarios recibidos de Araceli Garín, Vicente Núñez y de Mario S. de Juan y Pedro A. Gómez (curso 1.9992.000). Todavía faltan muchos temas del programa por desarrollar, y otros están a medio escribir, tienen errores u obscuridades. Correcciones y comentarios son bienvenidos.

II

Índice general

1. Elementos de Teoría de la Decisión. 1.1. Qué es un procedimiento estadístico. . . . . . . . . . . . . . 1.2. Riesgo y riesgo de Bayes. . . . . . . . . . . . . . . . . . . . 1.3. Cómputo de procedimientos de Bayes. . . . . . . . . . . . . 1.4. Procedimientos de Bayes con función de pérdida cuadrática. 1.5. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . 1.6. Procedimientos aleatorizados. . . . . . . . . . . . . . . . . 1.7. Clases completas. . . . . . . . . . . . . . . . . . . . . . . . 1.8. Representación gráfica de procedimientos estadísticos. . . . 1.9. Límites de sucesiones de procedimientos de Bayes . . . . . 1.10. Interés de los procedimientos de Bayes. . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

1 1 3 7 11 11 14 15 16 18 19

2. Procedimientos admisibles y minimax. 2.1. Minimax y criterios globales. . . . . . . . . . . . . 2.2. Caracterización de procedimientos minimax. . . . . 2.3. Caracterización de procedimientos admisibles. . . . 2.4. Búsqueda de procedimientos admisibles y minimax.

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

21 21 22 23 25

3. La familia exponencial. Suficiencia 3.1. Familia exponencial. . . . . . . . . . . . . . 3.2. Suficiencia. . . . . . . . . . . . . . . . . . . 3.3. Caracterización de estadísticos suficientes. . . 3.4. Completitud, ancilaridad, y suficiencia. . . . 3.5. Suficiencia y familia exponencial. . . . . . . 3.6. Estadísticos suficientes y soluciones de Bayes. 3.7. Caracterización de la suficiencia minimal. . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

29 29 32 37 39 40 41 42

4. Procedimientos insesgados. 4.1. La condición de insesgadez. . . . . . . . . . . . . . . . . . . . . 4.2. Funciones convexas. . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Estimación insesgada puntual. . . . . . . . . . . . . . . . . . . .

47 47 49 50

III

. . . . . . .

. . . . . . .

. . . . . . .

ÍNDICE GENERAL

IV

4.4. El jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Eficiencia. La cota de Cramér-Rao. 5.1. Introducción . . . . . . . . . . . . . . . . . 5.2. Algunos resultados instrumentales . . . . . 5.3. Información de Fisher. Cota de Cramér-Rao 5.4. Eficiencia . . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

56 59 59 60 62 67

6. Máxima verosimilitud 6.1. La lógica máximo verosímil . . . . . . . . . . . . . . . . . . . . 6.2. Verosimilitud y estimación máximo verosímil. . . . . . . . . . . . 6.3. Consistencia fuerte del estimador máximo verosímil. . . . . . . . 6.4. Información de Kullback-Leibler y estimación máximo verosímil . 6.5. Eficiencia y eficiencia asintótica . . . . . . . . . . . . . . . . . . 6.6. Normalidad y eficiencia asintótica del estimador máximo verosímil. 6.7. Estimación máximo verosímil: inconvenientes . . . . . . . . . . .

73 73 74 77 78 79 81 84

7. Estimación máximo verosímil en la práctica. 7.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . 7.2. Estimación máximo verosímil en la familia exponencial. 7.3. Método de Newton-Raphson. . . . . . . . . . . . . . . . 7.3.1. Descripción . . . . . . . . . . . . . . . . . . . . 7.3.2. Propiedades . . . . . . . . . . . . . . . . . . . . 7.4. Método scoring de Fisher. . . . . . . . . . . . . . . . . 7.5. El algoritmo EM. . . . . . . . . . . . . . . . . . . . . . 7.5.1. Notación . . . . . . . . . . . . . . . . . . . . . 7.5.2. La iteración EM . . . . . . . . . . . . . . . . . 7.5.3. Distribuciones de la familia exponencial. . . . .

. . . . . . . . . .

89 89 90 91 91 92 94 94 94 95 98

. . . . . . . . . .

101 101 103 106 107 109 112 112 113 116 119

8. Contraste de Hipótesis. 8.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . 8.2. El Teorema de Neyman–Pearson. . . . . . . . . . . . . . 8.3. Teorema de Neyman-Pearson y procedimientos de Bayes. 8.4. Contrastes uniformemente más potentes (UMP). . . . . . 8.5. Contrastes razón de verosimilitudes generalizada. . . . . 8.6. Contrastes de significación puros . . . . . . . . . . . . . 8.6.1. Caso de hipótesis simples . . . . . . . . . . . . 8.6.2. Caso de hipótesis compuestas . . . . . . . . . . 8.6.3. Hay que tener en cuenta que. . . . . . . . . . . . 8.7. Contrastes localmente más potentes . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

ÍNDICE GENERAL

V

9. Máxima verosimilitud, complejidad y selección de modelos 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. La lógica máximo-verosímil y la elección de modelos . . . . . . . 9.2.1. Criterio máximo verosímil y modelos con diferente número de parámetros . . . . . . . . . . . . . . . . . . . . . . 9.2.2. El criterio AIC . . . . . . . . . . . . . . . . . . . . . . . 9.3. Teoría de la información . . . . . . . . . . . . . . . . . . . . . . 9.4. Complejidad en el sentido de Kolmogorov . . . . . . . . . . . . . 9.4.1. Información y complejidad . . . . . . . . . . . . . . . . . 9.4.2. Complejidad de Kolmogorov∗ . . . . . . . . . . . . . . . 9.4.3. Cu (x) no es computable∗ . . . . . . . . . . . . . . . . . . 9.5. De la complejidad de Kolmogorov a la Longitud de Descripción Mínima (MDL) . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.5.1. Modelos como generadores de códigos . . . . . . . . . . 9.5.2. Descripción de longitud mínima (MDL) . . . . . . . . . . 9.5.3. De la MDL a la complejidad estocástica∗ . . . . . . . . . 9.5.4. Ideas relacionadas y conexas . . . . . . . . . . . . . . . . 9.6. ¿Tiene sentido esto? . . . . . . . . . . . . . . . . . . . . . . . . .

121 121 123

A. Convergencias estocásticas A.1. Sucesiones de variables aleatorias . . . . . . . . . . . . . . . A.2. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . A.3. Convergencias en probabilidad, media cuadrática y casi segura A.4. Ordenes de convergencia en probabilidad . . . . . . . . . . . A.5. Leyes de grandes números . . . . . . . . . . . . . . . . . . . A.5.1. Leyes débiles de grandes números. . . . . . . . . . . . A.5.2. Leyes fuertes de grandes números . . . . . . . . . . .

143 143 144 145 146 148 148 149

B. Soluciones a problemas seleccionados

. . . . . . .

. . . . . . .

123 124 129 133 133 134 135 136 136 136 138 139 140

153

VI

ÍNDICE GENERAL

Índice de figuras

1.1. Procedimientos no comparables (δ1 y δ2 ) e inadmisible (δ3 ) . . . . 1.2. δ4 = 21 δ1 + 12 δ2 (⊙) es mejor que δ3 (⋄) . . . . . . . . . . . . . . 1.3. El contorno rayado en grueso incluye los procedimientos en la clase completa minimal. δ4 es inadmisible (resulta mejorado, por ejemplo, por el procedimiento aleatorizado δ5 , cuyo riesgo es el mismo cuando θ = θ1 e inferior cuando θ = θ2 ) . . . . . . . . . 1.4. El procedimiento de Bayes relativo a ξ(θ) es δ2 , y el riesgo de Bayes c0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. El procedimiento de Bayes relativo a ξ(θ) es δ1 , y el riesgo de Bayes c0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1. δ∗ es minimax. δ2 no lo es; su riesgo cuando θ = θ2 es mayor que el de δ∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. δ∗∗ es minimax, pero no admisible. Es mejorado por δ∗ . . . . . . 2.3. Comparación de las funciones de riesgo de δ∗ (X) y Y , en el caso en que n = 10. R es la región en que el estimador minimax δ∗ es mejor que Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. Clases de equivalencia en la partición mínima suficiente. Distribución U (0, 2θ) con n = 2. a0,3 y a0,6 denotan las clases correspondientes a s = 0,3 y s = 0,6 del estadístico suficiente S = m´ax{X1 , X2 } . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1. Verosimilitud asociada a P una muestra (x1 , . . . , x17 ), cuando X es binaria de parámetro θ y 17 i=1 xi = 12. . . . . . . . . . . . . . .

4 15

16 17 18 22 24

25

35 75

9.1. Arbol binario completo de profundidad tres . . . . . . . . . . . . 131 9.2. Arbol binario truncado . . . . . . . . . . . . . . . . . . . . . . . 132

VII

VIII

ÍNDICE DE FIGURAS

Índice de cuadros

1.1. 1.2. 1.3. 1.4. 1.5.

Función de cuantía fX|θ (x |θ) . . . . . . . Función de pérdida L(θi , dj ) . . . . . . . . Procedimientos δi (X) considerados . . . . Funciones de riesgo rθi (δj ) . . . . . . . . . Algunas distribuciones a priori conjugadas

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

8 8 9 10 14

9.1. Ejemplo de construcción de código de Fano-Shannon. . . . . . . . 130 9.2. Longitud de descripción para diferentes valores de δ. . . . . . . . 138

IX

X

ÍNDICE DE CUADROS

Capítulo 1

Elementos de Teoría de la Decisión.

1.1. Qué es un procedimiento estadístico. Nos enfrentamos a una colección Θ = {θi , i ∈ I} de posibles estados de la naturaleza, o simplemente estados1 . No podemos observar directamente cuál es el θi que prevalece. Nos enfrentamos también a un conjunto de decisiones que podemos tomar, o espacio de decisión D = {dj , j ∈ J}. Existe, por fin, una función de pérdida L : Θ × D −→ R completamente especificada, proporcionando las pérdidas asociadas a cada par (θi , dj ); L(θi , dj ) es la pérdida derivada de tomar la decisión dj cuando el estado de la naturaleza es θi . Obviamente, si θi fuera observable, no tendríamos ningún problema en seleccionar en cada caso la decisión dj óptima, que minimiza L. Asociada a cada estado θi suponemos una distribución FX|θ (x |θ) generando una cierta variable aleatoria observable, X. Esta variable aleatoria toma valores en un conjunto S. Podemos muestrear la población FX|θ (x |θ) y obtener valores de X mediante la realización de un experimento. Los valores que observemos son toda la evidencia de que disponemos para conjeturar cuál es el estado de la naturaleza vigente, y en consecuencia la decisión óptima. De un modo informal, un procedimiento estadístico es una regla para escoger una decisión dj a la vista del valor x que toma X (o quizá del conjunto de valores x que toman n observaciones de X, en el caso de que nos sea posible disponer 1 El conjunto de índices I es finito o infinito; ni siquiera ha de ser numerable, como pondrán de manifiesto los ejemplos a continuación.

1

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN.

2

de más de una). Más precisamente, un procedimiento estadístico es una aplicación δ : S −→ D, que al resultado de cada experimento hace corresponder una decisión2 . Aunque aparentemente muy abstracto, el marco anterior engloba de forma general lo que habitualmente estamos acostumbrados a llamar procedimientos estadísticos, como ponen de manifiesto los siguientes ejemplos. Ejemplo 1.1 Consideremos el caso en que nos enfrentamos a una población de sujetos caracterizados por sufrir o no una enfermedad. Deseamos estimar por punto la proporción de los afectados, θ, con ayuda de una muestra de sujetos de tamaño n. El conjunto de posibles estados de la naturaleza sería Θ = {θ : θ ∈ R, 0 ≤ θ ≤ 1}, y el espacio de decisión sería D = {d : d ∈ R, 0 ≤ d ≤ 1}. Diferentes criterios de estimación podrían además contemplarse como reflejo de la utilización de diferentes funciones de pérdida. Por ejemplo, la estimación mínimo cuadrática se originaría como ˆ otras consecuencia de emplear una función de pérdida cuadrática, L(θ, θ); ˆ = |θ − θ|, ˆ o “ceroposibilidades serían una pérdida “valor absoluto”, L(θ, θ) uno”,  ˆ < b, 0 si |θ − θ| ˆ L(θ, θ) = c en otro caso. Ejemplo 1.2 Si en el Ejemplo 1.1 deseáramos realizar estimación por intervalo en lugar de por punto, podríamos considerar como espacio de decisión el formado por todos los intervalos (θ1 , θ2 ). La decisión consistiría en escoger uno de tales intervalos. En este caso, sin embargo, no es nada obvio cuál haya de ser la pérdida a emplear. Podríamos pensar, a imagen del ejemplo anterior, en emplear una pérdida que fuera nula si el intervalo realmente contiene al parámetro, y mayor que cero, quizá constante, en caso contrario. Es decir,  0 si θ ∈ (θˆ1 , θˆ2 ), L(θ, d = (θˆ1 , θˆ2 )) = c en otro caso. Pero ello no tiene mucho sentido: haría óptimos intervalos como (−∞, ∞). La pérdida parece que debiera tomar en cuenta la amplitud del intervalo construido. Véase Meeden y Varderman (1985).

Ejemplo 1.3 Supongamos que debemos aceptar o rechazar un lote de piezas, dependiendo de la fracción de defectuosas que contenga. En este caso, Θ sería el intervalo [0, 1] (cada estado correspondería a una fracción defectiva). El espacio de decisión será: D = {d1 = Aceptar, d2 = Rechazar}. El experimento consistiría en tomar una o varias piezas, cada una de las cuales proporcionaría un valor de X: X = 1 (pieza defectuosa) o X = 0 (pieza correcta). El procedimiento estadístico sería entonces la regla que genera una 2

En el caso de que el experimento consista en tomar n observaciones de X, tendríamos δ : S n −→ D, en que S n = S × . . . × S . Cada resultado muestral es un punto de S n . Llama| {z }

mos a S n (ó S) espacio muestral.

n veces

1.2. RIESGO Y RIESGO DE BAYES.

3

decisión a partir del o los valores de X observados. La función de pérdida podría, al menos en principio, especificarse con facilidad. L(θ, d1 ) sería el coste de aceptar una remesa con proporción defectiva θ (coincidiría quizá con el precio de las piezas en malas condiciones que hay que desechar). L(θ, d2 ) sería el coste de rechazar una remesa con proporción defectiva θ (quizá el coste de los portes, o una indemnización al proveedor, si el verdadero θ estaba dentro de lo estipulado en las condiciones del pedido).

Ejemplo 1.4 El diagnóstico médico proporciona otro ejemplo de problema de decisión con función de pérdida, en general, fuertemente asimétrica. En un problema de esta naturaleza, el espacio de estados de la naturaleza es: Θ = {θ1 = Paciente enfermo, θ2 = Paciente sano} .

El espacio de decisiones incluye también dos: declarar al paciente sano (d1 ), o enfermo (d2 ). El experimento, típicamente, consiste en hacer algún tipo de análisis clínico. La función de pérdida —difícil o imposible de especificar en unidades monetarias— probablemente daría mucha mayor importancia a diagnosticar como sano a un paciente enfermo (con riesgo de agravamiento) que a diagnosticar como enfermo a uno sano (sin más trascendencia quizá que el susto o la inconveniencia de un tratamiento inadecuado).

En general, como se desprende de los ejemplos anteriores, los problemas de contraste de hipótesis o estimación de parámetros pueden ser descritos como problemas de decisión. La Teoría de la Decisión suministra un marco adecuado para plantearlos y resolverlos.

1.2. Riesgo y riesgo de Bayes. Queremos escoger nuestros procedimientos estadísticos de modo que proporcionen pérdidas reducidas. Observemos que si empleamos el procedimiento δ tomaremos la decisión δ(X), que es aleatoria: la aleatoriedad de la información muestral que utilizamos se transmite a la decisión que adoptamos y en consecuencia a la pérdida L(θi , δ(X)) en que incurrimos. Tiene por ello sentido hablar del valor medio de dicha pérdida. Definición 1.1 Denominamos riesgo rθ (δ) al valor medio de la pérdida: rθ (δ) = Eθ L(θ, δ(X))

(1.1)

El subíndice del operador de valor medio indica la distribución con respecto a la cuál se toma dicho valor medio (recuérdese que cada estado de la naturaleza θ genera X con una distribución FX|θ (x |θ) en general diferente). Obsérvese que se trata de una función de θ; el riesgo puede variar dependiendo del estado de la naturaleza ante el que estemos. Parece sensato considerar rθ (δ) para juzgar un procedimiento estadístico, pues proporciona, para cada θ, una medida promedio de la pérdida derivada de su empleo.

4

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN. Figura 1.1: Procedimientos no comparables (δ1 y δ2 ) e inadmisible (δ3 )

δ3 δ2

rθ (δ) δ1

θ Definición 1.2 Sean dos procedimientos estadísticos δ1 y δ2 . Se dice que δ1 es mejor que δ2 si rθ (δ1 ) ≤ rθ (δ2 ) ∀θ ∈ Θ, con rθ (δ1 ) < rθ (δ2 ) para algún θ. Análogamente, se dice que δ1 es equivalente a δ2 si rθ (δ1 ) = rθ (δ2 ), ∀θ. Se dice que ambos procedimientos no son comparables si no son equivalentes, y ninguno de ellos mejora al otro. Definición 1.3 Si un procedimiento δ1 es mejor que otro δ2 decimos de éste último que es inadmisible. Si, por el contrario, δ no puede ser mejorado por ningún otro, decimos que es admisible. La Figura 1.1 muestra las funciones de riesgo de tres procedimientos estadísticos. En ella, δ1 y δ2 no son comparables. δ3 es inadmisible: resulta mejorado por δ1 y por δ2 . El Ejemplo 1.5 presenta dos procedimientos, uno de ellos inadmisible al ser mejorado por el otro. Nótese que la admisibilidad o inadmisibilidad de un procedimiento depende de la función de pérdida considerada. Un procedimiento inadmisible con respecto a una función de pérdida, puede no serlo respecto de otra. Ejemplo 1.5 Supongamos una situación como la descrita en el Ejemplo 1.3, y admitamos que la función de pérdida es cuadrática: L(θ, δ) = (δ − θ)2 Podemos tomar una muestra aleatoria simple formada por tres observaciones Xi , i = 1, 2, 3, en que Xi = 1 si la i-ésima pieza es defectuosa y Xi = 0

1.2. RIESGO Y RIESGO DE BAYES.

5

en caso contrario. Entonces, Xi ∼ Binaria(θ). Consideremos los siguientes dos procedimientos estadísticos: δ1 (X) = δ2 (X) =

X1 + X2 + X3 3 X1 + X3 2

(1.2) (1.3)

Entonces: rθ (δ1 ) = Eθ [L(θ, δ1 (X))]

=

rθ (δ2 ) = Eθ [L(θ, δ2 (X))]

=

θ(1 − θ) 3 θ(1 − θ) 2

(1.4) (1.5)

y es claro que, para cualquier valor de θ, rθ (δ1 ) < rθ (δ2 ). Por tanto, el primer procedimiento siempre sería preferible al segundo.

Podría pensarse que el objetivo debe ser la búsqueda de un procedimiento mejor que cualquier otro. Tal búsqueda sería infructuosa, como el siguiente ejemplo pone de manifiesto. Ejemplo 1.6 En la situación descrita en el Ejemplo 1.3 (continuado en el Ejemplo 1.5) consideremos los dos siguientes procedimientos para estimar θ: δ1 (X) = δ2 (X) =

X1 + X2 + X3 3 0,60

(1.6) (1.7)

cuyos riesgos respectivos son: rθ (δ1 ) rθ (δ2 )

θ(1 − θ) 3 = Eθ (0,60 − θ)2 = (0,60 − θ)2

=

(1.8) (1.9)

Es claro que δ2 es un procedimiento poco sensato: para nada hace uso de la información muestral. Sin embargo, cuando θ ≃ 0,6 da excelente resultado. Siendo δ2 un procedimiento con el que difícilmente podemos sentirnos satisfechos, es el óptimo para un cierto estado θ.

El Ejemplo 1.6 pone de manifiesto que en general no existe un procedimiento siempre mejor que cualquier otro3 . 3

Naturalmente, frente al Ejemplo 1.6 nuestra reacción sería: “Si prescindimos de considerar procedimientos que sólo excepcionalmente son muy buenos, y nos limitamos a procedimientos de buen funcionamiento para cualquier θ, quizá sí haya uno mejor que todos los demás”. En alguna medida, esta conjetura es cierta: si limitamos nuestra atención a clases de procedimientos y de funciones de pérdida restringidas (por ejemplo, a los procedimientos insesgados y a las funciones de pérdida convexas), puede en ocasiones encontrarse un procedimiento superior a los restantes. Estudiaremos por el momento el criterio de Bayes, para retomar esta cuestión más adelante.

6

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN.

Siendo cierto en general que para dos procedimientos δ1 y δ2 se verifica rθ (δ1 ) < rθ (δ2 ) para algunos valores de θ y rθ (δ1 ) > rθ (δ2 ) para otros, podríamos intentar compararlos mediante un promedio ponderado de los riesgos para diferentes valores de θ. Supongamos que los estados de la naturaleza θ se generan de acuerdo con una cierta distribución4 , cuya función de cuantía5 es ξ(θ). Sería razonable comparar los dos procedimientos mediante sus “riesgos promedio” respectivos: Rξ (δ1 ) = Eξ [rθ (δ1 )] =

X

ξ(θ)rθ (δ1 )

(1.10)

ξ(θ)rθ (δ2 )

(1.11)

θ∈Θ

Rξ (δ2 ) = Eξ [rθ (δ2 )] =

X

θ∈Θ

Definición 1.4 Llamamos riesgo de Bayes del procedimiento δ relativo a la distribución definida por ξ(θ) a X Rξ (δ) = Eξ [rθ (δ)] = ξ(θ)rθ (δ) (1.12) θ∈Θ

El criterio de Bayes para la selección de procedimientos consiste en, dada una cierta ξ(θ), tomar aquél (o aquéllos) con mínimo riesgo de Bayes. Tal (o tales) procedimientos se denominan Bayes relativos a ξ(θ). El criterio de Bayes resulta intuitivamente atractivo y no es objeto de controversia si hay un modo objetivo e inambiguo de especificar ξ(θ). Es objeto de controversia, en cambio, si ξ(θ) solo refleja creencias a priori. Una posibilidad atractiva cuando no se tiene información a priori consistiría en adoptar como ξ(θ) una función de densidad que reflejara “ignorancia absoluta”. Pero no está claro qué forma debería tener, como muestra el Ejemplo 1.7 a continuación. Ejemplo 1.7 Supongamos que deseamos estimar, como en el Ejemplo 1.3, la proporción θ de piezas defectuosas en un lote. Una propuesta frecuente para describir “completa ignorancia” a priori acerca del valor de θ consiste en tomar una densidad ξ(θ) uniforme en el intervalo Θ = [0, 1]. Pero esta propuesta no puede ser tomada muy en serio. Piénsese que la parametrización del problema es algo completamente arbitrario: igual que estimamos 4 Hay diferentes formas de entender esto. Puede imaginarse que, efectivamente, hay un mecanismo que aleatoriza los estados de la naturaleza: “Dios jugando a los dados”, parafraseando la célebre afirmación de Einstein. Puede pensarse tambien en esta distribución como recogiendo las creencias a priori del analista, que pueden reflejar experiencia acumulada o ser puramente subjetivas (tal como sucede en ocasiones en Estadística Bayesiana). 5 En lo que resta de esta Sección y en las dos que la siguen daremos por supuesto, por comodidad notacional, que la distribución de θ es discreta con función de cuantía (o probabilidad) ξ(θ). El caso en que la distribución de θ es continua, requiere solo cambiar los sumatorios de las expresiones como (1.10)-(1.11) por integrales, y la función de cuantía por una función de densidad. (El formalismo de la integral de Stieltjes permitiría recoger en una sola expresión todos los casos.)

1.3. CÓMPUTO DE PROCEDIMIENTOS DE BAYES.

7

θ, proporción de piezas defectuosas sobre el total, podríamos desear estimar θ γ = 1−θ (razón de piezas defectuosas a piezas correctas). Si la completa ignorancia sobre un parámetro se describe mediante una densidad a priori uniforme, debiéramos ahora utilizar una densidad ξ(γ) uniforme. Pero los resultados a que llegamos son diferentes: puede comprobarse con facilidad (véase el problema 1.1, p. 20) que ξ(θ) uniforme en Θ = [0, 1] implica una densidad ξ(γ)

=

1 (1 + γ)2

(1.13)

para (0 ≤ γ < ∞). Análogamente, una densidad uniforme6 para γ implica una densidad no uniforme para θ. ¡Si la propuesta fuera adecuada, el no saber nada acerca de θ supondría saber algo acerca de γ, y viceversa! Hay otras opciones de distribución a priori no informativa. Examinaremos una en la Observación 5.3, pág, 63.

1.3. Cómputo de procedimientos de Bayes. De la definición de Rξ (δ) en la Sección 1.2 se deduce que: X Rξ (δ) = ξ(θ)rθ (δ) θ∈Θ

=

X

ξ(θ)

x

θ∈Θ

=

X

" X X x

θ∈Θ

L(θ, δ(x))fX |θ (x |θ) #

L(θ, δ(x))ξ(θ)fX |θ (x |θ)

|

def

{z

= hξ (x, δ(x))

(1.14)

}

Para minimizar el riesgo, tenemos que minimizar hξ (x, δ(x)) en (1.14) para cada x. Pueden ocurrir dos cosas: Que para cada x haya una única decisión d = δ(x) en D minimizando hξ (x, d)). En este caso, hay un único procedimiento de Bayes relativo a ξ(θ). Que haya más de una decisión minimizando hξ (x, d) para algún x. En este caso, hay más de un procedimiento de Bayes relativo a ξ(θ). En todos los casos, si definimos Hξ (x) = m´ın hξ (x, d), d∈D

6

(1.15)

Obsérvese que no procede hablar de una densidad uniforme sobre un intervalo de longitud infinita, como es el dominio de variación de γ. El problema se soluciona escribiendo ξ(γ) ∝ k y sustituyendo los signos = por signos ∝. Se dice que se está ante una distribución a priori difusa. Se suele también denominar a ξ(γ) densidad a priori impropia.

8

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN.

P el riesgo de Bayes es Rξ (δ) = x Hξ (x). El Ejemplo 1.8, aunque artificialmente simple, ilustra algunos de los conceptos introducidos. Ejemplo 1.8 Supongamos que, dependiendo quizá de la climatología, un paraje puede adoptar uno de dos estados, θ1 y θ2 . En el estado θ1 , el paraje produce sólo setas comestibles, mientras que en el estado θ2 produce sólo setas tóxicas, indistinguibles a los ojos de un profano de las primeras. Las probabilidades respectivas de ambos estados son ξ(θ1 ) = 0,90 y ξ(θ2 ) = 0,10. Para adquirir mayor información sobre el carácter de una seta recogida, podemos preguntar a un experto, que sin embargo no es infalible. En cada uno de los dos estados proporciona una respuesta X cuyos posibles valores son X = C (declara la seta comestible) ó X = T (declara la seta tóxica). La distribución de X para cada uno de los dos posibles estados aparece en la Tabla 1.1. Cuadro 1.1: Función de cuantía fX|θ (x |θ) Respuesta X experto

θ1 (seta comestible)

θ2 (seta tóxica)

X=C

0.950

0.005

X=T

0.050

0.995

Hay dos posibles decisiones: d1 = “Tirar la seta”, y d2 = “Comer la seta”. Suponemos que las pérdidas asociadas a cada decisión en cada uno de los estados posibles son las recogidas en la Tabla 1.2.

Cuadro 1.2: Función de pérdida L(θi , dj ) Decisión adoptada

θ1 (seta comestible)

θ2 (seta tóxica)

d1 (tirar)

100

0

d2 (comer)

-10

1000

Consideramos tres posibles procedimientos estadísticos, que consisten en preguntar al experto y, obtenido un valor de X, actuar del modo que se indica en la Tabla 1.3.

1.3. CÓMPUTO DE PROCEDIMIENTOS DE BAYES.

9

Con la información anterior, es fácil calcular los riesgos respectivos de los tres procedimientos considerados: rθ1 (δ1 ) = = rθ2 (δ1 ) = = rθ1 (δ2 ) = = rθ2 (δ2 ) = = rθ1 (δ3 ) = = rθ2 (δ3 ) = =

L(θ1 , d1 )Prob {δ1 (X) = d1 |θ1 } + L(θ1 , d2 )Prob {δ1 (X) = d2 |θ1 }

100 × 0 + (−10) × 1 = −10 L(θ2 , d1 )Prob {δ1 (X) = d1 |θ2 } + L(θ2 , d2 )Prob {δ1 (X) = d2 |θ2 }

0 × 0 + 1000 × 1 = 1000 L(θ1 , d1 )Prob {δ2 (X) = d1 |θ1 } + L(θ1 , d2 )Prob {δ2 (X) = d2 |θ1 }

100 × 0,05 + (−10) × 0,95 = −4,5 L(θ2 , d1 )Prob {δ2 (X) = d1 |θ2 } + L(θ2 , d2 )Prob {δ2 (X) = d2 |θ2 }

0 × 0,995 + 1000 × 0,005 = 5 L(θ1 , d1 )Prob {δ3 (X) = d1 |θ1 } + L(θ1 , d2 )Prob {δ3 (X) = d2 |θ1 }

100 × 1 + (−10) × 0 = 100 L(θ2 , d1 )Prob {δ3 (X) = d1 |θ2 } + L(θ2 , d2 )Prob {δ3 (X) = d2 |θ2 } 0 × 1 + 1000 × 0 = 0

Cuadro 1.3: Procedimientos δi (X) considerados Procedimiento δ1 (X) δ2 (X) δ3 (X)

Descripción Sea cual fuere X, comer la seta (d2 ). Si X = C, comer la seta (d2 ). En caso contrario, tirar la seta. Sea cual fuere X, tirar la seta (d1 ).

La Tabla 1.4 recoge los riesgos calculados. Puede observarse que ningún procedimiento es mejor a ninguno de los restantes. Los respectivos riesgos de Bayes relativos a la distribución a priori especificada por ξ(θ) se calculan también fácilmente: Rξ (δ1 ) = Rξ (δ2 ) = Rξ (δ3 ) =

rθ1 (δ1 )ξ(θ1 ) + rθ2 (δ1 )ξ(θ2 ) = 0,90 × (−10) + 0,10 × 1000 = 91 rθ1 (δ2 )ξ(θ1 ) + rθ2 (δ2 )ξ(θ2 ) = 0,90 × (−4,5) + 0,10 × 5 = −3,55 rθ1 (δ3 )ξ(θ1 ) + rθ2 (δ3 )ξ(θ2 ) = 0,90 × 100 + 0,10 × 0 = 90

El criterio de Bayes llevaría en este caso a seleccionar δ2 (X). El procedimiento seleccionado depende de la distribución a priori considerada. Si en lugar de la indicada hubiéramos tenido: ξ(θ1 ) = 0,001, ξ(θ2 ) = 0,999 (es decir, casi seguridad de que la seta procede de un paraje que sólo produce tóxicas), es fácil comprobar que el procedimiento escogido por el criterio de

10

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN. Cuadro 1.4: Funciones de riesgo rθi (δj ) Procedimiento δj (X)

θ1 (seta comestible)

θ2 (seta tóxica)

δ1 (X)

-10

1000

δ2 (X)

-4.5

5

δ3 (X)

100

0

Bayes sería δ3 (X) (tirar la seta, incluso aunque el dictamen del experto sea que es comestible). Sucede que nuestras creeencias a priori son tan fuertes, que no basta la evidencia aportada por el experimento para hacernos cambiar de opinión.

De la expresión (1.14) dedujimos que el procedimiento óptimo de acuerdo con el criterio de Bayes minimiza X hξ (x, δ(x)) = L(θ, δ(x))ξ(θ)fX |θ (x |θ) (1.16) θ∈Θ

para cada valor de x. Como ξ(θ)fX |θ (x |θ) = fX (x, θ) = fθ|X (θ |x)fX (x),

(1.17)

tenemos que el procedimiento (o los procedimientos) Bayes relativos a la distribución a priori ξ(θ) minimizan X hξ (x, δ(x)) = fX (x) L(θ, δ(x))fθ|X (θ |x) θ∈Θ

para cada x y, por tanto, también para cada x, minimizan X L(θ, δ(x))fθ|X (θ |x).

(1.18)

θ∈Θ

En ausencia de experimento, escogeríamos un procedimiento δ que minimizara el riesgo de Bayes a priori , es decir: X L(θ, δ)ξ(θ). (1.19) θ∈Θ

La comparación de las expresiones (1.18) y (1.19) muestra que el método de elección de un procedimiento es siempre el mismo, con la sola variación de que en un

1.4. PROCEDIMIENTOS DE BAYES CON FUNCIÓN DE PÉRDIDA CUADRÁTICA.11 caso se emplea la distribución a priori sobre los estados de la naturaleza y en otro la distribución a posteriori conocido el resultado del experimento. Este resultado sólo influye alterando la distribución con respecto a la cual se calcula la pérdida media, que de ser ξ(θ) pasa a ser fθ|X (θ |x). En el enfoque de la inferencia aportado por la Teoría de la Decisión, la información muestral interviene modificando la distribución a priori del analista y transformándola en una distribución a posteriori; la forma de operar con cada una de ambas distribuciones para seleccionar un procedimiento estadístico es sin embargo siempre la misma.

1.4. Procedimientos de Bayes con función de pérdida cuadrática. Cuando la función de pérdida es cuadrática o, de modo un poco más general, de la forma L(θ, d) = w(θ) [d − θ]2

siendo w(θ) una función no negativa cualquiera, entonces el procedimiento de Bayes relativo a una cierta distribución a priori ξ(θ) es particularmente fácil de obtener, como muestra el siguiente teorema. Teorema 1.1 Sea L(θ, d) = w(θ) [d − θ]2 y w(θ) una función no negativa. El procedimiento de Bayes relativo a ξ(θ) es: P Eθ|x [w(θ)θ] w(θ)θfθ|X (θ |x) = . (1.20) δξ (x) = Pθ Eθ|x [w(θ)] θ w(θ)fθ|X (θ |x) D EMOSTRACION :

Para cada x, δ(x) ha de ser, de acuerdo con (1.18), tal que minimice: X w(θ) [δ(x) − θ]2 fθ|X (θ |x).

(1.21)

θ

Minimizando la expresión anterior respecto a δ(x) se llega inmediatamente a (1.20).

1.5. Familias conjugadas El cómputo de procedimientos de Bayes se simplifica si fθ|X (θ |x) puede obtenerse con facilidad. De (1.17) se deduce que: fθ|X (θ |x) ∝ ξ(θ)fX |θ (x |θ)

(1.22)

En ocasiones, ξ(θ) y fX |θ (x |θ) son tales que fθ|X (θ |x) pertenece a la misma familia que ξ(θ); se dice entonces que ξ(θ) y fX |θ (x |θ) pertenecen a familias conjugadas. El siguiente ejemplo muestra las ventajas que se derivan de ello.

12

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN. Ejemplo 1.9 Tenemos una única observación X procedente de una binomial b(θ, n), cuyo parámetro θ se trata de estimar con pérdida cuadrática L(θ, δ(X)) = (δ(X) − θ)2 . Si la distribución a priori de θ fuera una beta de parámetros r y s, es decir, si: Γ(r + s) r−1 θ (1 − θ)s−1 ξ(θ) = Γ(r)Γ(s) con 0 < θ < 1, tendríamos, de acuerdo con (1.22), que:   Γ(r + s) r−1 n x fθ|X (θ |x) ∝ θ (1 − θ)n−x (1.23) θ (1 − θ)s−1 Γ(r)Γ(s) x ∝ θr+x−1 (1 − θ)n+s−x−1

(1.24)

Se reconoce con facilidad en (1.24) una densidad beta de parámetros (r + x) y (n + s − x), falta sólo de la correspondiente constante de normalización: fθ|X (θ |x) por tanto pertenece a la misma familia que la ξ(θ) escogida. De acuerdo con (1.20), δ(X) será el valor medio condicionado de la distribución a posteriori de θ. Tratándose de una beta, se tiene (ver por ej. Trocóniz (1987), p. 299): δ(X) = m =

r+X r+X = n+s−X +r+X n+r+s

que puede reescribirse así:   n X r δ(X) = · + n+r+s n n+r+s

(1.25)

Cuando n → ∞, δ(X) → X/n (número de “aciertos” entre n), como cabría esperar. Sin embargo, para n moderado la distribución a priori ξ(θ) es de gran importancia. El emplear una distribución beta como ξ(θ) tiene la ventaja de producir una distribución a posteriori inmediatamente reconocible, y de la que podemos obtener el valor medio con facilidad. Si ξ(θ) hubiera sido otra, hubiera sido en general precisa una operación de integración, y el resultado no hubiera podido obtenerse de forma tan simple.

Ejemplo 1.10 (continuación) Para uso posterior nos interesará disponer de la función de riesgo del estimador obtenido en el ejemplo anterior.   rθ (δ) = E (δ(X) − θ)2 |θ =

=

Varθ (δ(X)) + [Sesgoθ (δ(X))]2 2  2  θ(1 − θ) r + nθ n + −θ n+r+s n n+r+s

Ejemplo 1.11 Supongamos que la distribución de X es N (θ, σ2 ), y la distribución a priori sobre θ es N (µ, b2 ). Tenemos entonces que: ( n 2 )  n  1 X xi − θ 1 √ exp − fX |θ (x |θ) = 2 i=1 σ σ 2π

(1.26)

1.5. FAMILIAS CONJUGADAS

13

mientras que por otra parte, la densidad ξ(θ) es: (  2 ) 1 1 θ−µ ξ(θ) = √ exp − 2 b b 2π

(1.27)

Por consiguiente: ( " n   n 2  2 #) 1 1 1 X xi − θ θ−µ √ √ fθ|X (θ|x)fX (x) = exp − + 2 i=1 σ b b 2π σ 2π P  2 2   2 2 2 2 2 1 θ (σ + nb ) − 2θ(σ µ + nb x) + (σ µ + b2 x2i ) ∝ exp − 2 σ 2 b2     2    1 θ − µσ22 +nb22 x  σ +nb   q ∝ exp − , (1.28)   b2 σ2  2  2 2 σ +nb

esta última expresión obtenida al completar el cuadrado de la precedente. Es fácil reconocer en ella una densidad normal para θ:   2 b2 σ 2 µσ + nb2 x , (θ|X = x) ∼ N σ 2 + nb2 σ 2 + nb2

Observación 1.1 Con una muestra de n observaciones Xi ∼ N (θ, σ2 ),

el estimador ridge de parámetro k de θ vendría dado por: θˆ =

nx ; n+k

podemos ver que dicha expresión es idéntica a µσ 2 + nb2 x σ 2 + nb2

(1.29)

cuando hacemos µ = 0 y b2 = σ 2 /k. Por tanto, el uso del estimador ridge de parámetro k en este caso equivale a la utilización implícita de una distribución a priori N (0, σ 2 /k). Valores de k muy pequeños en relación a σ 2 implican gran incertidumbre acerca de θ (y una estimación muy próxima a la obtenida por máxima verosimilitud o mínimos cuadrados ordinarios). Valores relativamente grandes de k (siempre en relación a σ 2 ) suponen gran convicción de que θ está en las cercanías de µ = 0.

Hay otros muchos casos en que el empleo de una distribución a priori conveniente simplifica la obtención de la distribución a posteriori. La siguiente tabla muestra algunos de los más frecuentes. La comodidad de manejo de las familias conjugadas no debe hacernos perder de vista, sin embargo, algo fundamental: que el fundamento de la utilización de una distribución a priori se pierde si ésta no describe bien el mecanismo que genera los estados de la naturaleza —o nuestras creencias acerca del particular, si adoptamos una visión bayesiana—.

14

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN. Cuadro 1.5: Algunas distribuciones a priori conjugadas Distribución de X

Parámetro de interés

A priori conjugada

Binomial, b(θ, n)

θ

Beta(r, s)

Poisson, P (θ)

θ

γ(a, b)

Exponencial, fX (x) = θe−θx

θ

γ(a, b)

Normal, N (θ, σ02 )

θ

Normal, N (µ, τ 2 )

1.6. Procedimientos aleatorizados. Se ha definido (Sección 1.1) procedimiento estadístico como una aplicación δ : S −→ D. Ampliaremos ahora esta definición denominando procedimiento estadístico aleatorizado a una aplicación δ : S −→ Π(D), en que Π(D) es el conjunto de distribuciones sobre D. En otras palabras, un procedimiento estadístico aleatorizado hace corresponder a cada resultado muestral una “lotería” en la que se puede obtener una de varias decisiones. De este modo, el mismo resultado X llevaría en ocasiones diferentes a tomar decisiones posiblemente diferentes. Esto es algo difícilmente asumible: ¿por qué habríamos de hacer depender nuestra decisión de una lotería? Dada la distribución a priori , y realizado el experimento, parece que no debiéramos recurrir a aleatorizar nuestra decisión. Hay dos formas de responder a esto. Una, que, como hace notar Kiefer (1983), tal forma de actuar no debiera ser motivo de escándalo. Al fin y al cabo, cuando se hace casi cualquier tipo de experimento se aleatoriza el diseño: la evidencia muestral depende así de una especie de “lotería” previa —la que nos ha llevado a escoger un diseño experimental en particular y no otro—. La segunda, y más importante para lo que sigue, es que la consideración de procedimientos aleatorizados permite obtener resultados interesantes, en particular completando la clase de los procedimientos de Bayes de modo que incluya algunos de interés. La Sección 1.8 aclarará esta cuestión. Ejemplo 1.12 Tomemos el caso simple en que hay dos posibles estados de la naturaleza, θ1 y θ2 . Consideraremos también tres procedimientos δ1 , δ2 y δ3 , cuyas funciones de riesgo se representan gráficamente en la Figura 1.2 Puede comprobarse que ni δ1 ni δ2 (cuyos riesgos están representados en la figura por • y ◦ respectivamente) son mejores que δ3 ; cada uno de ellos tiene menor riesgo en uno de los estados y mayor en el otro. Sin embargo, si

1.7. CLASES COMPLETAS.

15

Figura 1.2: δ4 = 21 δ1 + 12 δ2 (⊙) es mejor que δ3 (⋄)

rθ (δ)

















θ1

θ2

adoptamos la regla de aleatorizar entre δ1 y δ2 arrojando una moneda regular al aire, obtenemos un nuevo procedimiento (aleatorizado) δ4 , representado en la figura mediante ⊙, que sí es mejor que δ3 . Su función de riesgo es rθ (δ4 ) = 21 rθ (δ1 ) + 21 rθ (δ2 ).

1.7. Clases completas. La siguiente definición introduce un concepto que necesitamos en lo que sigue. Definición 1.5 La clase C de procedimientos es completa si para cada procedimiento que no esté en C hay uno en C que es mejor. Si C es la clase más restringida de procedimientos que es completa, se dice que es mínima completa. Esta definición podría parafrasearse diciendo que una clase completa contiene la totalidad de procedimientos admisibles. Tenemos por otra parte la noción de clase esencialmente completa: Definición 1.6 La clase C de procedimientos es esencialmente completa si para cada procedimiento que no esté en C hay uno en C que es mejor o igual. Si C es la clase más restringida de procedimientos que es esencialmente completa, se dice que es esencialmente mínima completa. Bajo condiciones muy generales, de habitual cumplimiento en la práctica, la única clase mínima completa coincide con la clase de todos los procedimientos

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN.

16

admisibles. Una clase esencialmente mínima completa contiene un representante de cada grupo de procedimientos admisibles equivalentes (ver Kiefer (1983), p. 54).

1.8. Representación gráfica de procedimientos estadísticos. Hemos representado gráficamente funciones de riesgo. Construiremos ahora gráficos en que cada punto representa un procedimiento, y cada eje un estado de la naturaleza. Por simplicidad, consideraremos sólo el caso en que Θ = {θ1 , θ2 }. En la Figura 1.3, el procedimiento δ1 tiene riesgos rθ1 (δ1 ) = 1, y rθ2 (δ1 ) = 6. Análogamente, δ2 tiene riesgos rθ1 (δ2 ) = 2, y rθ2 (δ2 ) = 3. Obsérvese que un procedimiento δ4 que consistiera en aleatorizar entre δ1 y δ3 con probabilidades respectivas π1 y π2 tendría función de riesgo rθ (δ4 ) = π1 rθ (δ1 ) + π2 rθ (δ3 ), combinación lineal convexa de las de δ1 y δ3 , y podríamos representarlo como un punto del segmento que une los puntos correspondientes a δ1 y δ3 . Figura 1.3: El contorno rayado en grueso incluye los procedimientos en la clase completa minimal. δ4 es inadmisible (resulta mejorado, por ejemplo, por el procedimiento aleatorizado δ5 , cuyo riesgo es el mismo cuando θ = θ1 e inferior cuando θ = θ2 )

• δ1

∆ rθ2 (δ)

• δ2

• δ4 • δ5 • δ3 rθ1 (δ)

Si consideramos procedimientos aleatorizados, toda combinación lineal convexa de procedimientos puede verse como otro posible procedimiento. Ello hace ver que el conjunto de posibles procedimientos es, cuando lo representamos como en la Figura 1.3, un conjunto convexo.

1.8. REPRESENTACIÓN GRÁFICA DE PROCEDIMIENTOS ESTADÍSTICOS.17 Por otra parte, el riesgo de Bayes de un procedimiento δi cuando hay dos únicos estados viene dado por: Rξ (δi ) = ξ(θ1 )rθ1 (δi ) + ξ(θ2 )rθ2 (δi ) y por lo tanto el lugar geométrico de los procedimientos con igual riesgo de Bayes c es la recta ξ(θ1 )rθ1 (δi ) + ξ(θ2 )rθ2 (δi ) = c

(1.30)

La Figura 1.4 muestra un conjunto de procedimientos ∆ cuyo borde inferior es la clase minimal completa. Para diferentes valores de c, la ecuación (1.30) proporciona diferentes rectas paralelas, cuya pendiente depende de ξ, y tanto más cercanas al origen cuanto menor sea c. El procedimiento de Bayes relativo a ξ(θ) en el caso representado en dicha figura sería δ2 . Para cualquier c menor que c0 , la recta correspondiente no intersectaría ∆. Figura 1.4: El procedimiento de Bayes relativo a ξ(θ) es δ2 , y el riesgo de Bayes c0

• δ1

∆ rθ2 (δ)

• δ2 • • δ3 c0 /ξ(θ1 )

rθ1 (δ)

Es fácil ver de modo intuitivo que para una diferente distribución a priori el procedimiento de Bayes sería diferente (como ilustra la Figura 1.5, en que el procedimiento de Bayes es δ1 ).También es fácil ver que puede no haber un único procedimiento de Bayes; si la distribución a priori fuera tal que las rectas de riesgo Bayes constante tuvieran exactamente la misma pendiente que uno de los segmentos (δ1 , δ2 ) ó (δ2 , δ3 ), el contacto entre la recta de mínimo riesgo y el conjunto de procedimientos ∆ se produciría en más de un punto.

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN.

18

Figura 1.5: El procedimiento de Bayes relativo a ξ(θ) es δ1 , y el riesgo de Bayes c0

• δ1

∆ rθ2 (δ)

• δ2 • • δ3 c0 /ξ(θ1 )

rθ1 (δ)

Finalmente, es de interés señalar que, mientras que el contorno dibujado en grueso representa la clase mínima completa, la formada por los procedimientos {δ1 , δ2 , δ3 } es esencialmente mínima completa.

1.9. Límites de sucesiones de procedimientos de Bayes En ocasiones, un procedimiento no es de Bayes, pero es límite de una sucesión de procedimientos de Bayes. El siguiente ejemplo muestra esto con claridad. Ejemplo 1.13 Consideremos el caso en que hemos de estimar con función de pérdida cuadrática el parámetro media de una población N (θ, σ 2 ), y la distribución a priori sobre θ es θ ∼ N (µ, b2 ). En tal caso, hemos visto (Ejemplo 1.11) que la distribución a posteriori de θ es:   2 b2 σ 2 µσ + nb2 X , 2 (θ|X) ∼ N σ 2 + nb2 σ + nb2 y por consiguiente, de acuerdo con el Teorema 1.1: Z δ(X) = E[θ|X = x] = θfθ|X (θ|x)dθ = =

Xb2 + µσ 2 /n b2 + σ 2 /n b2 σ 2 /n X µ+ 2 2 2 b + σ /n b + σ 2 /n

1.10. INTERÉS DE LOS PROCEDIMIENTOS DE BAYES.

19

Cuando n → ∞, δ(X) → X; la distribución a priori es reducida a la irrelevancia por el peso abrumador de la evidencia muestral. Se dice que X es límite de procedimientos de Bayes.

1.10. Interés de los procedimientos de Bayes. Hay buen número de razones para interesarse por los procedimientos de Bayes. Idealmente, desearíamos restringir nuestra atención a los procedimientos admisibles —aquellos que no pueden ser mejorados por ningún otro—, o, aún mejor, a una subclase esencialmente completa y mínima de procedimientos admisibles. La clase de los procedimientos de Bayes y de sus límites es, en general, algo más amplia. Si D y Θ son finitos, la clase de procedimientos de Bayes es completa. Si Θ no es finito, se puede en general obtener una clase completa incluyendo también los procedimientos que son límite de procedimientos de Bayes. La clase de procedimientos de Bayes, quizás completada, es por ello un buen punto de partida. Por otra parte, los procedimientos de Bayes pueden justificarse desde varios puntos de vista, desde el totalmente bayesiano hasta aquél que utiliza como distribución a priori una distribución derivada de la experiencia anterior. Por último, podemos relajar de diversas maneras el requerimiento de que ξ(θ) (y L(θ, d)) sean conocidas, y tratar de encontrar procedimientos que sean ventajosos en condiciones muy generales, o que sean de mínimo riesgo en las circunstancias más desfavorables. Esta última alternativa da lugar a los procedimientos minimax y se explora junto con la caracterización de procedimientos admisibles en el Capítulo 2.

CAPÍTULO 1. ELEMENTOS DE TEORÍA DE LA DECISIÓN.

20

CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER 1.1 Compruébese que, como se dice en el Ejemplo 1.7, si ξ(θ) es uniforme en Θ = [0, 1] la densidad de γ = θ/(1 − θ) es ξ(γ) = (1 + γ)−2 . 1.2 Haciendo uso del hecho de que, ∂ ∂y

Z

b(y)

a(y)

g(x, y)dx

=

∂a ∂b g(b, y) − g(a, y) + ∂y ∂y

Z

b(y)

a(y)

∂g(x, y) dx ∂y

ˆ θ) = demuéstrese que el estimador θˆ que minimiza la función de pérdida L(θ, ˆ |θ − θ| es la mediana de la distribución fθ|X (θ|x) (supuesta ésta última continua, y por tanto la mediana únicamente definida). (Garthwaite et al. (1995), pág. 118)

Capítulo 2

Procedimientos admisibles y minimax.

2.1. Minimax y criterios globales. El criterio de Bayes se justificaba en el Capítulo anterior como un promedio ponderado del riesgo, con ponderación dada por ξ(θ). Ello presta cierto atractivo a dicho criterio: si un agente se enfrenta al mismo proceso de decisión muchas veces, el minimizar el riesgo medio es una estrategia sensata. Puede suceder que, o bien desconozcamos ξ(θ), o bien enfrentemos un proceso de decisión una única vez. En estas circunstancias y algunas otras, puede interesarnos minimizar el mayor de los riesgos que hayamos de afrontar. En otras palabras, podemos diseñar una estrategia consistente en hacer mínimo el riesgo en la situación (es decir, para el θ) más desfavorable. Se trata de una estrategia conservadora, que procura la máxima cobertura frente a la peor catástrofe. La comparación entre procedimientos se hace así sobre la base de un sólo valor (el máximo) de las correspondientes funciones de riesgo, en lugar de considerar (promediándolos mediante ξ(θ)) la totalidad de los riesgos. El empleo de gráficos como los introducidos en la Sección 1.8 es ilustrativo. La Figura 2.1 muestra un procedimiento δ2 que no es minimax y uno que sí lo es, δ∗ . Es muy intuitivo el procedimiento gráfico que debemos seguir para encontrar procedimientos minimax; construiremos cuadrados cuyo vértice inferior izquierdo se apoye sobre el origen, y cuyo vértice superior derecho se apoye sobre la bisectriz del primer cuadrante. En la Figura 2.1 puede verse uno de dichos cuadrados, de lado 2, que no alcanza a intersectar ∆ y otro —de lado 2.6— que sí lo hace. El punto de contacto, (2,6, 2,6), corresponde al procedimiento δ∗ minimax. No hay 21

CAPÍTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX.

22

Figura 2.1: δ∗ es minimax. δ2 no lo es; su riesgo cuando θ = θ2 es mayor que el de δ∗ .

• δ1

∆ rθ2 (δ)

• δ2 •

δ∗

• δ3 rθ1 (δ) ningún procedimiento factible con riesgos menores tanto para θ1 como para θ2 (un tal procedimiento estaría en el interior del cuadrado de lados (2,6, 2,6) dibujado). Más precisamente, tenemos la siguiente Definición 2.1 Se dice que δ∗ es un procedimiento minimax en una cierta clase de procedimientos ∆ si ∀δ ∈ ∆: sup rθ (δ∗ ) ≤ sup rθ (δ) θ

(2.1)

θ

2.2. Caracterización de procedimientos minimax. Los procedimientos minimax no tienen porqué ser únicos. Tampoco tienen necesariamente que ser admisibles (como la Figura 2.2 pone de manifiesto). El siguiente teorema proporciona una caracterización útil de procedimientos minimax y una condición suficiente para que sean admisibles. Teorema 2.1 Si δξ es un procedimiento de Bayes respecto a ξ(θ), distribución tal que: X rθ (δξ )ξ(θ) = sup rθ (δξ ) (2.2) θ

θ

entonces: (i) δξ es minimax. (ii) Si δξ es la única solución de Bayes con respecto a ξ(θ), es el único procedimiento minimax.

2.3. CARACTERIZACIÓN DE PROCEDIMIENTOS ADMISIBLES.

23

D EMOSTRACION : Tomemos cualquier otro procedimiento δ. Entonces, sup rθ (δ) ≥ θ∈Θ

X

θ∈Θ

rθ (δ)ξ(θ) ≥

X

rθ (δξ )ξ(θ) = sup rθ (δξ )

(2.3)

θ∈Θ

θ∈Θ

El apartado (ii) se deduce inmediatamente, si tenemos en cuenta que la unicidad de δξ implica que la segunda desigualdad en (2.3) es estricta. La distribución definida por ξ(θ) se denomina distribución a priori más desfavorable. Da lugar al máximo riesgo de Bayes. En efecto, supongamos cualquier otra distribución a priori τ (θ), y un procedimiento δτ que sea de Bayes respecto a la misma. Entonces: X X Rτ (δτ ) = rθ (δτ )τ (θ) ≤ rθ (δξ )τ (θ) ≤ sup rθ (δξ ) = Rξ (δξ ) (2.4) θ∈Θ

θ∈Θ

θ∈Θ

Dos consecuencias son inmediatas: Corolario 2.1 Un procedimiento de Bayes de riesgo constante es minimax. En efecto, basta comprobar que en este caso (2.2) se verifica. Corolario 2.2 Sea Θξ = {θ ′ : rθ′ (δξ ) = supθ rθ (δξ )}, es decir, el conjunto de estados para los que el riesgo de δξ toma su valor máximo. Entonces, δξ es minimax si Θξ tiene, de acuerdo con la distribución definida por ξ(θ), probabilidad uno. Esto se deduce, como el corolario anterior, de (2.2). Si, excepto para sumandos con probabilidad cero, rθ (δξ ) = supθ rθ (δξ ), necesariamente (2.2) se cumple. El teorema anterior y ambos corolarios proporcionan medios para caracterizar procedimientos como minimax, caracterización que en general no es fácil.

2.3. Caracterización de procedimientos admisibles. La noción de admisibilidad se introdujo en la Definición 1.3, (pág. 4). Al igual que la condición de minimax, no es fácil en general demostrar que un procedimiento es admisible. En algunos casos particulares, sin embargo, es sencillo. El siguiente teorema es un instrumento útil para probar admisibilidad. Teorema 2.2 Un procedimiento de Bayes relativo a una cierta distribución a priori , si es único, es admisible.

CAPÍTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX.

24

Figura 2.2: δ∗∗ es minimax, pero no admisible. Es mejorado por δ∗



rθ2 (δ) •

δ∗∗



δ∗

rθ1 (δ) En efecto, supongamos un procedimiento de Bayes δξ inadmisible. Existiría otro, δ0 , tal que rθ (δ0 ) ≤ rθ (δξ ). Pero entonces: X X Rξ (δ0 ) = rθ (δ0 )ξ(θ) ≤ rθ (δξ )ξ(θ) = Rξ (δξ ) θ∈Θ

θ∈Θ

contra la hipótesis de que δξ es único de Bayes. Por tanto, ¿es admisible todo procedimiento Bayes? Si es único, es claro que sí: acabamos de ver que no puede estar dominado por ningún otro. Pero puede ocurrir que para una cierta distribución a priori haya más de un procedimiento de Bayes, y sólo uno de ellos sea admisible. El ejemplo que sigue lo aclara. Ejemplo 2.1 Consideremos el caso ilustrado en la Figura 2.2 Ambos procedimientos δ∗∗ y δ∗ son Bayes respecto a una distribución a priori que diera probabilidad uno a θ1 (las líneas de igual riesgo de Bayes sería entonces verticales. Sólo la abscisa de un punto importaría: el riesgo bajo θ2 sería irrelevante, porque θ2 se presenta con probabilidad cero). Sin embargo, δ∗ domina a δ∗∗ —aunque en términos de riesgo ambos sean equivalentes—. Situaciones como la que ilustra el ejemplo anterior pueden excluírse imponiendo alguna condición adicional, como sucede en el siguiente teorema. Teorema 2.3 Supongamos que Rξ (δ) < ∞, ∀δ. Si: (i) Θ es discreto y ξ(θ) > 0 para cada θ ∈ Θ, o bien: (ii) Θ es un intervalo con ξ(θ) > 0 para todo θ en Θ, y, para cada posible δ, rθ (δ) es una función continua en θ, entonces cada procedimiento de Bayes relativo a ξ(θ) es admisible.

2.4. BÚSQUEDA DE PROCEDIMIENTOS ADMISIBLES Y MINIMAX.

25

Figura 2.3: Comparación de las funciones de riesgo de δ∗ (X) y Y , en el caso en que n = 10. R es la región en que el estimador minimax δ∗ es mejor que Y .

rθ (δ)

R

θ La demostración es inmediata. Ambas condiciones alternativas eliminan la posibilidad de múltiples procedimientos de Bayes que difieren sólo con probabilidad cero.

2.4. Búsqueda de procedimientos admisibles y minimax. Las Secciones anteriores proporcionan algunos instrumentos, pero como se ha indicado la obtención de procedimientos tanto admisibles como minimax es una labor relativamente ad-hoc. Las siguientes consideraciones pueden ayudar. Para probar que un procedimiento es admisible, basta probar que es Bayes y único para alguna distribución a priori (Teorema 2.2). Pero puede no ser fácil encontrar una tal distribución. Una condición suficiente para ser minimax es ser Bayes respecto a la distribución a priori más desfavorable (Teorema 2.1), si tal distribución existe1 . De nuevo puede no ser obvio cuál es esta distribución más desfavorable; pero una ayuda intuitiva es considerar aquellas distribuciones que más incertidumbre crean acerca del estado de la naturaleza prevalente (o que más “esparcen” el parámetro θ, si estamos ante un problema de estimación). Los siguientes dos ejemplos (que pueden encontrarse más desarrollados en Lehmann (1983)) ilustran las dificultades que se encuentran de ordinario. 1

Nótese que tal existencia es un supuesto del Teorema 2.1.

26

CAPÍTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX. Ejemplo 2.2 (un procedimiento de Bayes con riesgo constante, y por tanto minimax) Consideremos el caso en que tenemos una moneda no regular, cuya probabilidad θ de proporcionar “cara” (ó Y = 1) queremos estimar. Contamos con una muestra formada por n observaciones independientes, Pn Y1 , . . . , Yn , y nos preguntamos si el estimador δ(Y ) = Y = n−1 i=1 Yi es minimax. Nuestra función de pérdida es cuadrática: L(θ, d) = (d − θ)2 . Dado que E[Y ] = θ, el riesgo (para un θ fijo) es: rθ (δ) =

θ(1 − θ) n

1 1 cuyo máximo es 4n , dado que 0 ≤ θ ≤ 1. Si rθ (δ) fuera 4n para cualquier θ, estaríamos ante un estimador minimax, pero éste no es el caso. La siguiente cosa que se nos ocurriría es buscar una distribución a priori 1 . Es claro que tal que hiciera el riesgo de Bayes igual a su valor máximo, 4n 1 distribución habría de ser la que diera al valor θ = 2 probabilidad igual a 1, ¡pero con tal distribución a priori el estimador de Bayes ya no sería Y , sino 1 2! Ante el fracaso de estos dos intentos, podríamos ir a la búsqueda de una familia de distribuciones a priori y encontrar la familia de estimadores de Bayes asociados. Si tuviéramos la suerte de que alguno de ellos fuera único y de riesgo constante, entonces sería minimax (Teorema 2.1). Si tomamos una distribución a priori β(r, s), el correspondiente procedimiento de Bayes es el que se obtuvo en el Ejemplo 1.9 (la función de riesgo se computó en el Ejemplo 1.10). ¿Hay alguna distribución β(r, s) tal que el riesgo asociado al procedimiento de Bayes correspondiente sea constante? Tratemos de encontrar r y s verificando para una constante cualquiera y todo θ que:



n n+r+s

2

θ(1 − θ) + n



r + nθ −θ n+r+s

2

=k

lo que implica, tras reducir a denominador común, que el numerador del lado izquierdo ha de ser constante:   nθ − nθ2 + r2 + (r + s)2 θ2 − 2r(r + s)θ = c Para ello es preciso que los coeficientes de θ y θ2 sean cero: n − 2r(r + s) = (r + s)2 − n = de donde:

0 0

1√ n 2 Llevando estos dos valores a la fórmula (1.25) obtenemos el procedimiento minimax que buscamos: P  1√ n Yi n √ + 2 √ (2.5) δ(Y ) = n n+ n n+ n P √ Yi n 1 1 √ · √ (2.6) + = 1+ n n 21+ n r=s=

2.4. BÚSQUEDA DE PROCEDIMIENTOS ADMISIBLES Y MINIMAX. Su riesgo (constante) es: rθ (δ) = r2

1 1 √ = 2 (n + r + s) 4(1 + n)2

(2.7)

Es interesante P comparar este riesgo con el del estimador insesgado habitual, X = n−1 i Xi , que es θ(1 − θ)/n. En el caso más desfavorable para 1 este último (cuando θ = 12 y rθ (δ) = 4n , el estimador minimax es mejor. Sin embargo, esta reducción de riesgo en la situación más desfavorable tiene un precio; para otros valores de θ, el estimador minimax puede ser considerablemente peor que el estimador insesgado habitual. La Figura 2.3 (pág. 25) muestra la función de riesgo del estimador minimax (horizontal al nivel 0.01443) y la del estimador X, ambas correspondientes a un tamaño muestral n = 10. Puede verse que para 0,18 ≤ θ ≤ 0,82 el estimador minimax es de menor riesgo, mientras lo contrario ocurre fuera de dicho intervalo. Es fácil comprobar también que a medida que n → ∞ el intervalo en que el estimador minimax mejora a X se va estrechando en torno a θ = 12 .

Ejemplo 2.3 Supongamos que hemos de estimar la media θ desconocida de una distribución normal N (θ, σ 2 ), cuya varianza supondremos por simplicidad conocida. Supondremos también que la distribución a priori de θ es N (µ, b2 ), y la función de pérdida L(θ, d) = (d − θ)2 . Contamos con una m.a.s. X = (X1 , . . . , Xn ). ¿Cuál es el estimador minimax de θ? Comencemos por encontrar el estimador de Bayes, y, si fuera de riesgo constante, podríamos entonces afirmar que es minimax. Según comprobamos en el Ejemplo 1.11, la distribución a posteriori de θ es:  2  µσ + nb2 X b2 σ 2 θ|X ∼ N , 2 σ 2 + nb2 σ + nb2 De acuerdo con el Teorema 1.1, el procedimiento de Bayes será entonces: δ(X) =

µσ 2 + nb2 X σ 2 + nb2

y su riesgo: nb4 σ 2 rθ (δ) = Eθ [δ(X) − θ] = 2 + (σ + nb2 )2 2



µσ 2 + nb2 θ −θ σ 2 + nb2

2

De esta última expresión deducimos que el riesgo no es constante y por tanto δ(X) no es minimax. Observemos, sin embargo, que X, límite de procedimientos de Bayes cuando n → ∞, si tiene riesgo constante (=σ 2 /n), y por tanto es minimax. La distribución más desfavorable es la distribución a priori difusa.

Ejemplo 2.4 (un procedimiento de Bayes en que los estados más desfavorables totalizan probabilidad 1; y, por tanto, un procedimiento minimax virtud del Corolario 2.2) Consideremos el espacio paramétrico Θ =  en θ : 31 ≤ θ ≤ 32 , la función de pérdida ˆ θ) L(θ,

= (θˆ − θ)2 .

27

28

CAPÍTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX. Podemos observar una variable aleatoria binaria tal que P (X = 1) = 1 − P (X = 0) = θ. Consideramos el procedimiento estadístico  a si X = 0, ˆ θ = δ(X) = (2.8) b si X = 1. El riesgo de dicho procedimiento es ˆ = (1 − θ)(a − θ)2 + θ(b − θ)2 . rθ (θ) Parece que una distribución máximamente desfavorable podría ser  1 si θ = 13 , 2 ξ(θ) = 1 si θ = 23 . 2

(2.9)

(2.10)

El riesgo de Bayes entonces sería ˆ Rξ (θ)

=

5 − 8a + 9a2 − 10b + 9b2 18

Maximizando la expresión anterior respecto a a y b obtenemos a = b = 59 . Sustituyendo estos valores en (2.9) obtenemos ˆ rθ (θ)

=

1 7 + 18 9

4 9

y

 2 1 θ− , 2

que toma idéntico valor en θ = 31 y en θ = 32 . Por tanto, estamos ante un procedimiento con valor constante para un conjunto de estados cuya probabilidad conjunta es 1. En virtud del Corolario 2.2, dicho procedimiento es minimax.

Capítulo 3

La familia exponencial. Suficiencia

3.1. Familia exponencial. Definición 3.1 Sea FX (x; θ) una función de distribución dependiendo de un único parámetro. Se dice que pertenece a la familia exponencial si su función de densidad (o cuantía, en su caso) puede expresarse así: fX (x; θ) = exp {a(θ)b(x) + c(θ) + d(x)}

(3.1)

Esto debe ocurrir sobre el soporte de X, y tal soporte no depender de θ. Puede encontrarse una definición más precisa en Lehmann (1983), p. 26. Un ejemplo de distribución en la que el soporte depende del parámetro es la uniforme U (0, θ). En el caso de distribuciones dependiendo de k parámetros, θ, la definición anterior se generaliza de la manera obvia, requiriendo que:

fX (x; θ) = exp

( k X

)

ai (θ)bi (x) + c(θ) + d(x)

i=1

29

(3.2)

CAPÍTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

30

Ejemplo 3.1 Si X ∼ N (µ, σ2 ), su función de densidad puede escri-

birse en la forma:

fX (x; θ) = = =

1 x−µ 2 1 √ e− 2 ( σ ) σ 2π    1 x2 1 µ2 xµ 1 √ exp − 2 − + + log 2σ 2 σ2 σ2 σ 2π ) ( 2 X ai (θ)bi (x) + c(θ) + d(x) exp

i=1

con:

b1 (x)

=

(µ, σ 2 )′ 1 − 2 2σ µ σ2 x2

b2 (x)

=

x

c(θ) =



d(x)

0

θ

=

a1 (θ) = a2 (θ) =

=

1 µ2 + log 2 σ2



1 √ σ 2π



Ejemplo 3.2 Si X ∼ b(p, n) tenemos que para x ∈ {0, 1, . . . , n} y

p ∈ (0, 1):

      n x n n−x PX (x; p) = p (1 − p) = exp log + x log(p) + (n − x) log(1 − p) (3.3) x x que responde a la forma general en (3.1) con: θ

= p

a(θ)

= log(p) − log(1 − p) = log

b(x)

= x

c(θ)

= n log(1 − p)   n = log x

d(x)



p 1−p



Ejemplo 3.3 La distribución de Weibull tiene por función de densidad, fX (x; α, β)

=

    x β β β−1 x exp − β α α

(3.4)

para x > 0, α > 0 y β > 0. Es fácil ver que no puede expresarse en la forma (3.1), y por tanto no pertenece a la familia exponencial.

3.1. FAMILIA EXPONENCIAL.

31

Se llama parámetro natural de la distribución (3.5) a η = a(θ). En términos del parámetro natural, si a(.) es una función 1-1, la expresión (3.1) queda en forma canónica o simplificada: fX (x, η) = exp {ηb(x) + A(η) + d(x)} .

(3.5)

En el caso de distribuciones k-paramétricas, (3.5) se generaliza a fX (x; η) = exp

(

k X

)

ηi bi (x) + A(η) + d(x) .

i=1

(3.6)

En una distribución binomial, el parámetro natural es el logaritmo de la razón de probabilidades (log odds) (Ejemplo 3.2, más arriba). Véase también el ejemplo que sigue. Ejemplo 3.4 En una distribución de Poisson, cuya función de probabilidad es fX (x; θ)

=

e−θ θx x!

con x = 1, 2, 3, . . . y θ > 0, el parámetro natural es loge θ, como se comprueba sin más que reescribir la función de probabilidad en forma canónica: fX (x; θ)

= exp {−θ + x loge θ − loge x!} .

De (3.5), dado que Z

fX (x, η) =

Z

exp {ηb(x) + A(η) + d(x)} = 1,

se deduce: eA(η)

Z

exp {ηb(x) + d(x)} = 1

y por tanto A(η) = − log

Z

exp {ηb(x) + d(x)} .

El conjunto de valores para los cuales la integral anterior es finita se denomina espacio del parámetro natural; es el conjunto de valores de η que hacen que (3.5) defina una distribución. Se llama a b(x) estadístico canónico de la distribución. En el Ejemplo 3.4 el parámetro natural es log θ y el espacio del parámetro natural es (−∞, +∞).

CAPÍTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

32

3.2. Suficiencia. Definición 3.2 Sea X = (X1 , . . . , Xn )′ una muestra generada por una distribución FX (x; θ). Se dice que S = S(X) es un estadístico suficiente respecto de θ (o “suficiente para θ”) en la familia {FX (x, θ), θ ∈ Θ} si: fX|S (x|s) =

fX (x; θ) fS (s; θ)

(3.7)

no depende de θ.

La denominación de suficiente para el estadístico S se justifica porque, en cierto sentido, el conocimiento de S proporciona cuanta información existe en la muestra acerca de θ. Podemos imaginar el espacio muestral de X dividido en regiones, cada una de ellas proporcionando el mismo valor de S. Una vez que sabemos el valor de S, la distribución de X condicionada por S = s es independiente de θ, y por tanto el conocer qué muestra concreta x ha dado lugar a S = s es no informativo acerca de θ. El siguiente ejemplo aporta plausibilidad intuitiva a la afirmación anterior.

Ejemplo 3.5 Supongamos dos urnas, con los siguientes contenidos. La urna A contiene 50 bolas blancas, 20 negras, y 30 azules. La urna B contiene 50 bolas blancas, 40 negras y 10 azules. Si nos presentan una de ambas urnas, sin indicarnos cuál, y al extraer una bola resulta ser blanca, este hecho es no informativo acerca de la identidad de la urna. Ambas pueden generar bola blanca en una extracción al azar con la misma probabilidad. El observar algo que dos o más estados de la naturaleza pueden generar con la misma probabilidad es no informativo acerca de cuál sea el estado de la naturaleza prevalente.

Un segundo ejemplo que exhibe suficiencia en un caso extremadamente simple es el siguiente.

Ejemplo 3.6 Sea una población binaria de parámetro θ de la que nos es posible obtener dos observaciones, X1 y X2 . A efectos de inferencia sobre el parámetro θ (probabilidad de obtener Xi = 1) parece que sólo el número total de “unos” obtenidos en las dos observaciones importa, y que es irrelevante, en el caso de obtener un único valor “uno”, saber si se ha producido en la primera observación o en la segunda. Ello sugeriría que S(X) = X1 + X2 es suficiente para θ en la familia de distribuciones binarias. Veamos que éste es efectivamente el caso, comprobando que al condicionar sobre S(X) la

3.2. SUFICIENCIA.

33

distribución resultante no depende de θ: Prob {X = (0, 0)|X1 + X2 = 0} = Prob {X = (0, 0)|X1 + X2 6= 0} = Prob {X = (0, 1)|X1 + X2 = 1} = Prob {X = (1, 0)|X1 + X2 = 1} = Prob {X = (1, 1)|X1 + X2 = 2} =

1 0 1 2 1 2 1

probabilidades que, en todos los casos, son independientes de θ. Las probabilidades no recogidas en la relación anterior son todas cero, de manera también independiente de θ.

El siguiente teorema, de inmediata demostración, muestra que la noción realmente relevante es la de partición suficiente, y que un estadístico suficiente no hace sino “etiquetar” las clases de una tal partición. Teorema 3.1 Todo estadístico T = γ(S) función 1-1 de un estadístico suficiente S es suficiente. D EMOSTRACION : En efecto,  Prob {X = x|γ(S(X)) = b; θ} = Prob X = x|S(X) = γ −1 (b); θ  = Prob X = x|S(X) = γ −1 (b) en que la omisión en el último término de la igualdad de θ como argumento se justifica por la suficiencia de S(X). Si definimos AS = {as }, partición asociada al estadístico suficiente S, como el conjunto de clases de equivalencia formadas por puntos x con igual valor de S(x), vemos que lo que realmente interesa saber a efectos de inferencia sobre el parámetro θ no es cuál es el valor tomado por S, un determinado estadístico suficiente, sino la clase de equivalencia en la que está x. Es también claro que cualquier partición “mas fina” que AS (es decir, cualquier partición formada por clases de equivalencia bs′ con la propiedad de que para cualquier bs′ hay un as tal que bs′ ⊆ as ) es también suficiente. Intuitivamente, si el saber en que clase as esta x es cuanto necesitamos a efectos de hacer inferencia sobre θ, el saber que x ∈ bs′ ⊆ as es a fortiori suficiente. Un argumento formal sería el proporcionado por el teorema a continuación. Teorema 3.2 Si AS es una partición suficiente y Bs′ es una partición más fina, entonces Bs′ es también una partición suficiente.

34

CAPÍTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA D EMOSTRACION : Existe as verificando bs′ ⊆ as . Se tiene entonces que:

Prob {(X = x) ∩ (X ∈ bs′ )} Prob {X ∈ bs′ } Prob {(X = x) ∩ (X ∈ (bs′ ∩ as ))} /Prob {as } = Prob {X ∈ (bs′ ∩ as )} /Prob {as } Prob {(X = x) ∩ (X ∈ bs′ )|X ∈ as } = Prob {X ∈ bs′ |X ∈ as } y esta última expresión es independiente de θ por suficiencia de AS , lo que implica que Prob {X = x|bs′ } también lo es. El teorema anterior tiene una consecuencia inmediata: si un estadístico S suficiente puede expresarse como función de otro estadístico T , entonces T es también suficiente. En efecto, si T (x) = T (y), entonces S(x) = S(y); dos muestras que den lugar al mismo valor de T dan lugar al mismo valor de S, y, en consecuencia, es indiferente obtener una u otra a efectos de inferencia sobre θ. Un estadístico suficiente que puede obtenerse como función de cualquier otro estadístico suficiente, se dice que es mínimo suficiente. La partición del espacio muestral en clases cada una de las cuales da lugar al mismo valor de un estadístico mínimo suficiente, es la partición menos fina que conserva la suficiencia. Los siguientes ejemplos de estadísticos y particiones suficientes ilustran los conceptos anteriores. Prob {X = x|bs′ } =

Ejemplo 3.7 Consideremos la estimación del parámetro media en una distribución uniforme U (0, 2θ) (cuya media, por tanto, es θ). Podemos tomar una muestra X = (X1 , . . . , Xn )′ , cuyos valores ordenados denominaremos por X(1) , X(2) , . . . , X(n) . Es fácil ver que un estadístico suficiente para 2θ lo es también para θ, y viceversa. Es también muy intuitivo que la media aritmética —estimador habitual de la media poblacional— no es suficiente en nuestro caso. Supongamos que n = 3 y que los tres valores muestrales en una experimentación concreta son: 1.2, 1.1, y 6.7. La media aritmética sería (1,2 + 1,1 + 6,7)/3 = 3,0. Sin embargo, es claro que hay información en la muestra que permite mejorar nuestra estimación de θ sobre la proporcionada por la media aritmética. El saber que una observación es 6.7 nos muestra que 2θ ≥ 6,7, y por tanto θ ≥ 3,35. El argumento anterior sugiere que X(n) —el mayor de los valores muestrales, o n-ésimo estadístico de orden— es particularmente informativo acerca de θ en la clase de distribuciones uniformes U (0, 2θ). Haciendo uso de la Definición 3.2 vamos a demostrar que tal estadístico es suficiente. Sea S = X(n) . Entonces,  FS (s; θ) = Prob X(n) ≤ s =

=

Prob {∩ni=1 (Xi ≤ s)} n Y Prob {Xi ≤ s} i=1

=

 s n 2θ

3.2. SUFICIENCIA.

35

Derivando esta última expresión tenemos: fS (s; θ) =

nsn−1 , (2θ)n

(0 < s < 2θ)

Por otra parte: fX (x; θ) =

n Y

fX (x; θ) =

i=1

1 (2θ)n

Por consiguiente: fX|S (x|s) =

fX (x; θ) 1 = n−1 fS (s; θ) ns

expresión independiente de θ lo que, de acuerdo con con la Definición 3.2, establece la suficiencia de S = X(n) . En este caso, las clases de equivalencia en que queda dividido el espacio muestral son las de expresión genérica siguiente: n o as = x : m´ax xi = s i

Cuando n = 2 dichas clases serían las que ilustra la Figura 3.1; bordes superior y derecho de cuadrados de lado s apoyados sobre los ejes de coordenadas.

Figura 3.1: Clases de equivalencia en la partición mínima suficiente. Distribución U (0, 2θ) con n = 2. a0,3 y a0,6 denotan las clases correspondientes a s = 0,3 y s = 0,6 del estadístico suficiente S = m´ax{X1 , X2 } 1,00

0,80

0,60 a0,6

0,40 a0,3

0,20

0 0

0,20

0,40

0,60

0,80

1,00

36

CAPÍTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA Ejemplo 3.8 Consideremos ahora el caso de una muestra aleatoria simple X = (X1 , . . . , Xn )′ procedente de unaP distribución de Poisson, P (λ). n Comprobemos que X o, alternativamente, i=1 Xi es un estadístico suficiente para la media, λ. Como la suma de n v.a. independientes Pn con distribución P (λ) se distribuye como P (nλ), tenemos que si S = i=1 Xi : PS (s; λ) =

e−nλ (nλ)s s!

Por otra parte: PX (x; λ) =

n Y e−λ λxi

i=1

En consecuencia: fX|S (x|s) =

xi !

e−nλ λs = Qn i=1 xi !

fX (x; λ) s! = s Qn fS (s; λ) n i=1 xi !

que es independiente del parámetro λ. Se trata de una distribución multinomial de parámetros n1 , . . . , n1 , s.

La comparación de este ejemplo con el anterior muestra que lo que en una familia de distribuciones es un estadístico suficiente para la media, puede no serlo en otra. Observación 3.1 Esto obliga a ser cauto en el trabajo estadístico aplicado, y a no apelar alegremente a la noción de suficiencia para prescindir de información. Un estadístico suficiente contiene cuanta información puede la muestra aportar sobre un parámetro si nuestros supuestos sobre la familia de distribuciones generadora de la muestra son correctos. No en otro caso. Y, en la práctica, esta certeza acerca del modelo teórico adecuado rara vez se tiene. Por el contrario, es frecuente el caso de distribuciones difícilmente distinguibles cuando sólo se cuenta con muestras pequeñas o moderadas, que tienen muy diferentes estadísticos suficientes. Un caso claro lo ofrecerían las distribuciones N (θ, σ 2 ) y de Cauchy con parámetro de localización θ, C(θ). Ejemplo 3.9 Sea (X1 , . . . , Xn ) una muestra aleatoria simple y denotemos sus correspondientes valores ordenados por (X(1) , . . . , X(n) ). Conocidos (X(1) , . . . , X(n) ), cualquiera de las permutaciones dando lugar a tales valores ordenados puede haberse presentado con la misma probabilidad. Por consiguiente:  1 Prob (X1 , . . . , Xn )|(X(1) , . . . , X(n) ) = n!

sea cual fuere la distribución generadora FX (x; θ). Por lo tanto, (X(1) , . . . , X(n) ) es un estadístico suficiente.

Ejemplo 3.10 Consideremos el caso en que Θ = {θ0 , θ1 } y las dos posibles distribuciones FX (x; θ) tienen soporte común. Entonces, la razón de verosimilitudes: fX (x; θ0 ) R(x) = fX (x; θ1 )

3.3. CARACTERIZACIÓN DE ESTADÍSTICOS SUFICIENTES.

37

es un estadístico mínimo suficiente. En efecto, fX (x|R(x) = r; θ0 ) =

Z

fX (x; θ0 ) fX (x; θ0 )dx

R(X)=r

=

Z

rfX (x; θ1 ) rfX (x; θ1 )dx

R(X)=r

=

Z

fX (x; θ1 ) fX (x; θ1 )dx

R(X)=r

=

fX (x|R(x) = r; θ1 )

lo que muestra que la densidad condicionada no depende del valor de θ.

3.3. Caracterización de estadísticos suficientes. La aplicación directa de la Definición 3.2 es con frecuencia tediosa, y por otra parte requiere una conjetura previa acerca de qué estadístico S puede ser suficiente. El siguiente teorema es de aplicación frecuentemente mucho más rápida y directa. Teorema 3.3 (Teorema de factorización) Una condición necesaria y suficiente para que S = S(X) sea suficiente para θ en la familia de distribuciones {FX (x; θ), θ ∈ Θ} es que la verosimilitud de la muestra pueda factorizarse así: fX (x; θ) = gS (s; θ)h(x)

(3.8)

siendo gS (s; θ) la función de densidad de S y h(x) una función dependiente sólo de x, pero no de θ. D EMOSTRACION : i) (Necesidad). Supongamos que S es suficiente. Ello quiere decir, de acuerdo con la Definición 3.2, que: fX|S (x|s) =

fX (x; θ) fS (s; θ)

(3.9)

y por tanto: fX (x; θ) = fX|S (x|s) fS (s; θ) | {z } | {z } h(x)

(3.10)

gS (s;θ)

ii) (Suficiencia). Denominemos ∆(s) el conjunto formado por todos los posibles valores muestrales x dando lugar al valor S = s, y supongamos que (3.8) se

38

CAPÍTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

verifica. Entonces: fX|S (x|s) = =

fX (x; θ) fX (x; θ) =P fS (s; θ) x∈∆(s) fX (x; θ)

gS (s; θ)h(x) h(x) P =P gS (s; θ) x∈∆(s) h(x) x∈∆(s) h(x)

y el último término de la derecha es independiente de θ, lo que establece la suficiencia de S en virtud de la Definición 3.2. El anterior argumento supone que X es una variable discreta y ∆(s) un conjunto de probabilidad no nula; en el caso de una distribución continua, los sumatorios en la expresión anterior deben reemplazarse por integrales. Ejemplo 3.11 Sea una distribución N (θ, 1), y una muestra formada por n observaciones de la misma, X1 , . . . , Xn . La verosimilitud puede escribirse así: ( ) 1 1X (xi − θ)2 + n log √ fX (x; θ) = exp − 2 i 2π ) (  1 1X 2 2 xi − 2xi θ + θ + n log √ = exp − 2 i 2π ) ( ) ( X 1X 2 1 1 2 x + n log √ xi θ − nθ exp − = exp 2 2 i i 2π i P Podemos en la anterior expresión identificar sin dificultad i xi como estadístico suficiente para θ, de acuerdo con el teorema de factorización. Ejemplo 3.12 En el Ejemplo 3.9, pág. 36, se comprobó que la (X(1) , . . . , X(n) ), la muestra ordenada, era suficiente. Ciertamente, es un estadístico suficiente bastante trivial, que no efectúa una gran reducción de la muestra. En ocasiones, sin embargo, es todo lo lejos que se puede ir. La distribución de Cauchy con parámetro de localización θ, C(θ), proporciona una ilustración simple de ello. La densidad de una muestra (x1 , . . . , xn ) es de la forma  n  Y 1 1 , fX (x; θ) = π 1 + (xi − θ)2 i=1 para −∞ < xi < ∞, e i = 1, . . . , n. Puede verse fácilmente que cualquier intento de factorizar la expresión anterior obliga a englobar en gS (s; θ) una función s de la muestra que depende de todos los valores muestrales. No es posible ninguna reducción: S = (X(1) , . . . , X(n) ) es mínimo suficiente.

Ejemplo 3.13 En el Ejemplo 3.7, pág. 34, se comprobó que en el caso de una distribución uniforme U (0, 2θ) el mayor estadístico de orden X(n) es suficiente para θ. Podemos llegar al mismo resultado haciendo uso del teorema de factorización. En efecto, fX (x; θ) =

(2θ)−n H(2θ − x(n) )

con H(z) = 1 cuando z > 0 y H(z) = 0 en caso contrario. Por tanto, −2θn H(2θ − x(n) ) juega el papel de gS (s; θ) en (3.8), y x(n) es suficiente.

3.4. COMPLETITUD, ANCILARIDAD, Y SUFICIENCIA.

39

Ejemplo 3.14 La minimalidad en el Ejemplo 3.10 también es simple de establecer haciendo uso del teorema de factorización. Bastará para ello comprobar que, sea cual fuere el estadístico suficiente U que consideremos, R(X) = H(U ) para alguna función H(). Esto sucede: R(X) =

gU (U ; θ0 )h(X) fX (X; θ0 ) = = H(U ) fX (X; θ1 ) gU (U ; θ1 )h(X)

3.4. Completitud, ancilaridad, y suficiencia. Asociadas a la noción de suficiencia están las de ancilaridad y completitud. Definición 3.3 Dada una familia de distribuciones {FX (x; θ), θ ∈ Θ} se dice que V (X) es un estadístico ancilar si su distribución es independiente de θ. Es ancilar de primer orden si su valor medio no depende de θ. De acuerdo con el argumento esbozado inmediatamente después de la Definición 3.2, podemos considerar que un estadístico ancilar carece, por si mismo, de contenido informativo acerca de θ. Obsérvese, sin embargo, que un estadístico ancilar puede, en compañía de otro, ser muy informativo —quizá incluso suficiente— . Ejemplo 3.15 Sea X(1) , . . . , X(n) una muestra aleatoria simple procedente de una población U (0, θ). Entonces, de modo enteramente análogo a como sucede en el Ejemplo 3.7 (pág. 34), X(n) es suficiente para θ, y es claro además que X(1) no es suficiente. Se puede demostrar, sin embargo, que X(n) /X(1) sigue una distribución que para nada depende de θ, y es por tanto ancilar. ¡Y sin embargo, X(1) , X(n) /X(1) es suficiente! Vemos aquí como un estadístico ancilar, en compañía de otro que por sí sólo es bastante poco informativo acerca de θ, proporciona un estadístico suficiente. El ejemplo 8.11 en Garín y Tusell (1991) muestra con más detalle un caso similar. Definición 3.4 Un estadístico T es completo en la familia {FX (x; θ), θ ∈ Θ} si no existe ninguna función de él (salvo la función constante, ℓ(T ) = c) que sea ancilar de primer orden. Es decir, si de Eθ [ℓ(T )] = c, ∀θ ∈ Θ, se deduce necesariamente que ℓ(T ) = c. Un estadístico es acotado completo si lo anterior se verifica para cualquier función ℓ() acotada. De nuevo la definición anterior tiene un contenido intuitivo notable. Un estadístico es completo si ninguna función de él —salvo la función constante— está desprovista de información acerca de θ. El significado de esto es más claro si consideramos un estadístico que no sea completo. Ejemplo 3.16 Sea una distribución N (θ, 1), y una muestra formada por dos observaciones de la misma, (X1 , X2 ). Claramente, (X2 − X1 ) sigue una distribución que no depende de θ: N (0, σ 2 = 2). Por tanto, T = (X1 , X2 ) no será un estadístico completo, y ℓ(T ) = X2 − X1 es ancilar de primer orden.

40

CAPÍTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA Ejemplo 3.17 El estadístico X(1) , X(n) /X(1) en el Ejemplo 3.15 no es completo; una parte de él, X(n) /X(1) es ancilar.

3.5. Suficiencia y familia exponencial. La inspección de la forma general de la densidad (o cuantía) de una distribución en la familia exponencial, fX (x; θ) = exp {a(θ)b(x) + c(θ) + d(x)} muestra que, si se cumplen las condiciones que permiten aplicar el teorema de factorización (Teorema 3.3), se tendrá: ) ( n n X X d(xi ) b(xi ) + nc(θ) + fX (x; θ) = exp a(θ) (

= exp a(θ)

i=1 n X

)

b(xi ) + nc(θ) exp

i=1

= gS (s; θ)h(x) con:

s=

i=1

n X

( n X i=1

)

d(xi )

b(xi )

i=1

La generalización al caso multiparamétrico es obvia, teniéndose entonces que: ! n n X X bk (xi ) b1 (xi ), . . . , i=1

i=1

son estadísticos conjuntamente suficientes para (a1 (θ), . . . , ak (θ)). En general, pues, salvo en casos patológicos en que está vedado el empleo del Teorema 3.3, las distribuciones en la familia exponencial poseen estadísticos suficientes. La relación entre la pertenencia a dicha familia y la existencia de estadísticos suficientes va más allá sin embargo, como se desprende del siguiente, Teorema 3.4 (Teorema de Darmois) Sea X una variable aleatoria con densidad fX (x; θ), θ ∈ Θ. Supongamos que el dominio de variación de X es independiente de θ, y que (X1 , . . . , Xn ) es una m.a.s. de tamaño n de dicha variable. Entonces: i) Si existe n > 1 tal que (X1 , . . . , Xn ) admite un estadístico suficiente, fX (x; θ) = exp {a(θ)b(x) + c(θ) + d(x)} . P ii) Si fX (x; θ) = exp {a(θ)b(x) + c(θ) + d(x)} y la aplicación x1 → ni=1 b(xi ) es biunívoca para todo x1 , .P . . , xn , entonces para n ≥ 1 admite un estadístico suficiente. En particular, r = ni=1 b(xi ) es uno.

3.6. ESTADÍSTICOS SUFICIENTES Y SOLUCIONES DE BAYES.

41

La demostración puede hallarse en Fourgeaud y Fuchs (1967), p. 192. Observación 3.2 El enunciado del teorema anterior puede sugerir que, en la familia exponencial, cuando hay un único parámetro, hay un estadístico suficiente escalar; o, más generalmente, que la dimensión del vector de parámetros y del estadístico suficiente son iguales. Ello es frecuentemente el caso, pero no siempre. Por ejemplo, consideremos el caso en que la probabilidad de que un sujeto sobreviva más de t unidades de tiempo es: Prob {T > t} = e−βt y por tanto, la función de distribución de T , “tiempo de vida”, es: FT (t) = 1 − e−βt Si en una muestra de N sujetos se producen d muertes en los momentos ti , (i = 1, . . . , d), y los restantes s = N − d sujetos permanecen todavía vivos en los momentos uj , (j = d + 1, . . . , N ), la densidad conjunta puede escribirse así:    N d   X X (3.11) ti + uj  fT ,U (t, u) = β d exp −β    i=1 j=d+1     d N   X X = exp −β  ti + uj  + d log β (3.12)   i=1

j=d+1

Hay un sólo parámetro, como  estadístico suficiente necePβ. Sin embargo, PN d sitamos tanto d como i=1 ti + j=d+1 uj ; ambos conjuntamente son un estadístico suficiente. Se dice que estamos ante una distribución curvada; hay un sólo parámetro, pero es como si existieran dos (β y log β). Este ejemplo concreto procede de Berkson (1980). Otro ejemplo puede verse en Lehmann (1983), pág. 45. En Cox y Hinkley (1974) pág. 28 y ss. se ofrecen ejemplos adicionales que muestran que el número de parámetros (q) y el de estadísticos suficientes (m) no tienen necesariamente que coincidir: tanto m > q como q > m son situaciones posibles.

3.6. Estadísticos suficientes y soluciones de Bayes. Hemos justificado en la Sección 3.2 el interés de emplear estadísticos suficientes apelando a la intuición. Pueden ahora darse argumentos adicionales. Recordemos (Sección 1.10) que estamos interesados en la clase de procedimientos de Bayes y sus límites, como punto de partida para localizar procedimientos admisibles. Pues bien: de acuerdo con (1.18), especificada una función de pérdida, el procedimiento de Bayes depende de X sólo a través de fθ|X (θ|x), que a

42

CAPÍTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

su vez depende de X sólo a través del estadístico suficiente S(X). En efecto: fX |θ (x |θ)ξ(θ) fX (x) gS (s; θ)h(x)ξ(θ) = R gS (s; θ ′ )h(x)ξ(θ ′ )dθ ′ gS (s; θ)ξ(θ) = R gS (s; θ ′ )ξ(θ ′ )dθ ′ = G(s; θ)

fθ|X (θ|x) =

Una vez constatado que el limitar nuestra atención a procedimientos que son función de estadísticos suficientes nos da acceso a todos los procedimientos de Bayes, es claro que desearemos la máxima simplificación, limitándonos a considerar estadísticos no sólo suficientes sino mínimos suficientes.

3.7. Caracterización de la suficiencia minimal. Hemos visto (comentario tras el Teorema 3.1, pág. 33) que la noción realmente importante es la de partición suficiente. La partición mínima suficiente será la partición suficiente menos fina posible. Tenemos entonces el siguiente resultado. Teorema 3.5 Sea X1 , . . . , Xn una muestra generada por una distribución en la familia {FX (x; θ), θ ∈ Θ}. Sea S la partición del espacio muestral que se obtiene al agrupar en clases de equivalencia los puntos cuya razón de verosimilitudes no depende de Θ; es decir, denotando por ∼ la pertenencia a la misma clase de equivalencia, aquella partición tal que x ∼ y ⇐⇒

fX (y; θ) = m(x, y). fX (x; θ)

(3.13)

Entonces, S es mínima suficiente, y cualquier estadístico T tomando valores diferentes en cada clase St ∈ S es mínimo suficiente. D EMOSTRACION : En lo que sigue, se hace la demostración para el caso de una distribución discreta; el caso continuo es sustancialmente idéntico en esencia, pero formalmente mas difícil de tratar. Comprobemos en primer lugar que la partición es suficiente. Sea, X fX (y; θ) (3.14) g(t, θ) = y∈St

y definamos h(x|t) =



fX (x; θ) = y∈St fX (y; θ)

P

X

y∈St

−1

m(x, y)

.

(3.15)

3.7. CARACTERIZACIÓN DE LA SUFICIENCIA MINIMAL.

43

Es claro entonces que, fX (x; θ) = g(t, θ)h(x|t)

(3.16)

Como g(t, θ) depende de la muestra sólo a través de t y h(x|t) no depende de θ, el Teorema 3.3 garantiza la suficiencia de T . Tenemos ahora que ver que T es mínimo suficiente. Bastaría para ello probar que, para cualquier otro estadístico suficiente U , U (x) = U (y) =⇒ T (x) = T (y). Pero esto se deduce sin dificultad: como U es suficiente, fX (x; θ) = g1 (u(x), θ)g2 (x) fX (y; θ) = g1 (u(y), θ)g2 (y),

y fX (x; θ) fX (y; θ)

=

g1 (u(x), θ)g2 (x) g2 (x) = . g1 (u(y), θ)g2 (y) g2 (y)

Como este último término es función exclusivamente de x y de y, es claro que x ∼ y y en consecuencia T (x) = T (y).

Ejemplo 3.18 Consideremos una distribución binaria de la que se obtiene una muestra de tamaño n. Estarán en la misma clase de la partición mínima suficiente aquellos puntos verificando Pn

Pn

θ i=1 xi (1 − θ)n− i=1 xi Pn Pn = m(x, y); θ i=1 yi (1 − θ)n− i=1 yi Pn Pn ello requiere i=1 xi = i=1 yi .

Hay algunos otros resultados que permiten en ocasiones caracterizar la suficiencia minimal. Los enunciamos a continuación. Teorema 3.6 Si un estadístico es suficiente y acotado completo, es minimal suficiente. Una demostración puede encontrarse en Fourgeaud y Fuchs (1967). Ejemplo 3.19 Comprobemos que S = X(n) es minimal suficiente en una distribución U (0, 2θ). En el Ejemplo 3.7 vimos que S es suficiente para θ en dicha distribución, y que su función de densidad es fS (s; θ) =

nsn−1 ; (2θ)n

44

CAPÍTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA podemos pues limitarnos ahora a comprobar que es acotado completo. De acuerdo con la Definición 3.4, pág. 39, basta que comprobemos que de E[ℓ(S)] = 0 para todo θ se deduce necesariamente ℓ(S) = 0. Y así es, pues derivando la igualdad Z 2θ nsn−1 ds = 0 (3.17) E[ℓ(S)] = ℓ(s) (2θ)n 0 respecto de su límite superior, obtenemos ℓ(2θ)

n(2θ)n−1 =0 (2θ)n

de donde se sigue que ℓ(2θ) = 0.

En la familia exponencial, es simple establecer suficiencia minimal. Es evidente en virtud del teorema de factorización yPde la expresión (3.1) (ó (3.2), si estamos anteP una familia multiparamétrica) que j b(Xj ) (o, en el caso multiparamétriP co, j b1 (Xj ), . . . , j bk (Xj )) son estadísticos suficientes. El siguiente teorema permite establecer suficiencia minimal. Teorema 3.7 Si X sigue una distribución en la familia exponencial y de rango completo1 , entonces   X X  (3.18) b1 (Xj ), . . . , bk (Xj ) j

j

es mínimo suficiente.

D EMOSTRACION :Puede demostrarse como corolario del Teorema 3.5. En efecto, la condición de suficiencia mínima (3.13) requiere en el caso de distribuciones en la familia exponencial nP o Pn Pn k exp (a (θ) b (y )) + nc(θ) + d(y ) j j i i j=1 i=1 i=1 fX (y; θ) nP o = P P k n n fX (x; θ) exp (a (θ) b (x )) + nc(θ) + d(x ) j j i i j=1 i=1 i=1   # " n n n n k  X X X X X d(yi ) . d(xi ) − bj (yi ) + bj (xi ) − aj (θ) = exp   j=1

i=1

i=1

i=1

i=1

En el caso de rango completo, para que la expresión anterior no dependa de θ sera preciso que n n X X bj (yi ) (i = 1, 2, . . . , k.) bj (xi ) = i=1

i=1

1 Se dice que la familia es de rango completo si (a1 (θ), . . . , ak (θ)) genera un conjunto conteniendo un rectángulo de dimensión k cuando θ toma valores en Θ.

3.7. CARACTERIZACIÓN DE LA SUFICIENCIA MINIMAL.

45

Por tanto, cada vector k-dimensional n X

b1 (xi ),

n X

b2 (xi ), . . . ,

!

bk (xi )

i=1

i=1

i=1

n X

determina una clase de la partición mínima suficiente.

Ejemplo 3.20 Sea X1 , . . . , Xn una m.a.s. generada por una distribución N (µ, σ 2 ). Entonces, (X, S 2 ) es un estadístico mínimo suficiente para (µ, σ 2 ). En efecto,  n Y   n (xi − µ)2 1 √ exp − fX (x, µ, σ 2 ) = 2σ 2 σ 2π i=1 P Pn    µ ni=1 xi 1 nµ2 1 i=1 x2i √ − + + n log = exp − e 2 σ2 2σ 2 σ2 σ 2π La expresión anterior puede escribirse en la forma canónica de las densidades de la familia exponencial (véase (3.2) y Ejemplo 3.1), ) ( k X ai (θ)bi (x) + nc(θ) + d(x) , (3.19) fX (x; θ) = exp i=1

con

θ

=

a1 (θ) = a2 (θ) = n X

i=1 n X

b1 (xi ) =

(µ, σ 2 ) 1 − 2 2σ µ σ2 n X x2i i=1

b2 (xi ) =

n X

xi

i=1

i=1

c(θ) =

nµ2 − 2 + n loge 2σ



1 √ σ 2π



.

P P Por consiguiente, en aplicación del Teorema 3.7, ( xi , x2i ) —o cualquier función biunívoca de él— es un estadístico suficiente para (µ, σ 2 ).

Ejemplo 3.21 Podríamos también llegar al mismo resultado del ejemplo anterior mediante aplicación del Teorema 3.5. La partición mínima suficiente sería aquélla que pusiera en la misma clase de equivalencia puntos x, y verificando fX (y; θ) = m(x, y). fX (x; θ)

CAPÍTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA

46

En nuestro caso, fX (y; θ) fX (x; θ)

= =

) n  1 X (xi − µ)2 − (yi − µ)2 exp − 2 2σ i=1 !#) ( " n n n n X X 1 X 2 X 2 . yi xi − y − 2µ exp − 2 x − 2σ i=1 i i=1 i i=1 i=1 (

Para que esta función no dependa de µ ni de σ 2 todo lo que se requiere es que n X

i=1 n X

x2i xi

= =

n X

i=1 n X

yi2

(3.20)

yi

(3.21)

i=1

i=1

P P Por consiguiente ( ni=1 xi , ni=1 x2i ), oP cualquier función biunívoca de din cho estadístico, como por ejemplo (x, i=1 (xi − x)2 ), es un estadístico mínimo suficiente.

CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER 3.1 Utilícese el procedimiento en el Ejemplo 3.21 para mostrar que al estimar el modelo lineal ordinario Y = Xβ + ǫ con las condiciones habituaˆ = (X ′ X)−1 X ′ Y y SSE = (Y − X β) ˆ ′ (Y − les más la de normalidad, β 2 ˆ X β) son conjuntamente suficientes para los parámetros (β, σ ) 3.2 En la familia de distribuciones uniformes, U (θ − 12 , θ + 21 ). en-

cuéntrese un estadístico suficiente para θ. ¿Es completo?

3.3 Sea X1 , . . . , Xn una m.a.s. procedente de una distribución con densidad fX (x; θ) =



e−(x−θ) 0

si x > θ, n otro caso.

Muéstrese que X(1) es suficiente para θ.

3.4 Sea X1 , . . . , Xn una m.a.s. procedente de una distribución beta con densidad fX (x; r, s)

=

1 xr−1 (1 − x)s−1 β(r, s)

en que 0 < x < 1, P r > 0, s > 0P y β(r, s) es la constante de normalización. Compruébese que ( i log(Xi ), i log(1 − Xi )) es suficiente para r y s.

3.5 Sean Y1 , . . . , Yn variables aleatorias independientes con densidades respectivas λj e−λj yj , λj > 0, j = 1, . . . , n. Supongamos que log(λj ) = θxj , j = 1, . . . , n, y que x1 , . . . , xn son constantes fijas y positivas. Muéstrese que no es de rango completo.

Capítulo 4

Procedimientos insesgados.

4.1. La condición de insesgadez. Vimos (Ejemplo 1.6, pág. 5) que la búsqueda de un procedimiento mejor que cualquier otro estaba condenada al fracaso. Pero se apuntó allí que quizá si nos restringimos a una clase de procedimientos “razonable”, que excluya comportamientos excelentes en casos aislados y muy malos en todos los demás estados de la naturaleza, sí podríamos encontrar un procedimiento óptimo. La restricción de insesgadez es una forma de imponer tal comportamiento “razonable” a los procedimientos que estamos dispuestos a considerar1 . En un problema de decisión, se dice que el procedimiento δ(X) es insesgado si: Eθ L(θ ′ , δ(X)) ≥ Eθ L(θ, δ(X))

∀θ, θ ′ ∈ Θ

(4.1)

Restringir nuestra atención a procedimientos que verifican (4.1) elimina de nuestra consideración procedimientos como δ2 (X) en el referido Ejemplo 1.6. En problemas de estimación puntual de una función γ(θ) se dice que δ(X) es un procedimiento insesgado si: Eθ (δ(X)) = γ(θ)

∀θ ∈ Θ

(4.2)

Ambas condiciones de insesgadez (la dada por (4.1) y la dada por (4.2)) pueden reconciliarse fácilmente, dado que, salvo en condiciones bastante anómalas, se implican mutuamente. El siguiente ejemplo lo ilustra. 1

En palabras de Lehmann (ver Lehmann (1983)) es una condición de “imparcialidad”.

47

48

CAPÍTULO 4. PROCEDIMIENTOS INSESGADOS. Ejemplo 4.1 Supongamos un problema de estimación puntual con función de pérdida cuadrática. La condición de insesgadez (4.1) requiere: Eθ (θ′ − δ(X))2 ≥ Eθ (θ − δ(X))2

∀θ, θ′ ∈ Θ

(4.3)

Sumando y restando Eθ (δ(X)) en el interior de cada paréntesis y tomando valor medio, tras simplificar tenemos: 2

Eθ [θ′ − Eθ δ(X)] ≥ Eθ [θ − Eθ δ(X)]2

∀θ, θ′ ∈ Θ

(4.4)

que se verifica sólo si Eθ δ(X) = θ. La equivalencia entre (4.1) y (4.2) va más lejos de lo que el argumento anterior deja entrever: (4.1) y (4.2) son equivalentes en condiciones bastante generales (ver Lehmann (1959), p. 22). En lo sucesivo, cuando hablemos de insesgadez en un contexto de estimación de parámetros, nos estaremos refiriendo a estimadores verificando (4.2).

En problemas de contraste de hipótesis, al igual que sucede en problemas de estimación, se define insesgadez mediante una condición estrechamente relacionada con (4.1), cuya discusión abordaremos en el Capítulo 8. Es importante darse cuenta de que la insesgadez, siendo como es una propiedad intuitivamente atrayente, no es un requerimiento imprescindible, ni necesariamente deseable. En ocasiones, ni siquiera existen procedimientos insesgados. Los siguientes ejemplos ilustran estas ideas. Ejemplo 4.2 (un estimador insesgado claramente indeseable) Sea δ = δ(X)) un estimador de θ con pérdida cuadrática, L(θ, t) = (t − θ)2 . Supongamos que la distribución de δ es tal que: 1 2 Tal estimador es insesgado. Sin embargo, siempre tendrá mayor pérdida que otro, δ ′ , acaso sesgado pero verificando: Prob {δ = θ + 100} = Prob {δ = θ − 100} =

Prob {|δ ′ − θ| ≤ 5} = 1 En consecuencia, δ es inadmisible. Existen otros muchos ejemplos de estimadores de Bayes que son sesgados, menos artificialmente simples que el presente. La teoría de Modelos Lineales muestra que, si la pérdida es cuadrática, un estimador sesgado (el estimador ridge) puede ser preferible al (insesgado óptimo) proporcionado por mínimos cuadrados ordinarios, y que la mejora derivada de tolerar algún sesgo puede ser notable (en los casos de acusada multicolinealidad). Garthwaite et al. (1995), pág. 35, proporciona un ejemplo alternativo a éste.

Ejemplo 4.3 (un estimador insesgado puede ocasionalmente dar resultados absurdos) La insesgadez, cuando el estimando está constreñido a estar en un cierto rango, da lugar a situaciones anómalas. Supongamos que se desea estimar ρ2 o coeficiente de correlación al cuadrado entre dos variables. Por definición, 0 ≤ ρ2 ≤ 1. Si obligamos a un estimador ρˆ2 a ser insesgado, nos encontraremos con que podemos obtener ρˆ2 < 0 ó sobre otras ρˆ2 > 1. En efecto, el ser insesgado cuando ρ2 = 0 obliga a que eventualmente ρˆ2 < 0 (si siempre fuera ρˆ2 ≥ 0, E[ˆ ρ2 ] > 0 contra el supuesto de 2 insesgadez). Lo mismo ocurre cuando ρ = 1.

4.2. FUNCIONES CONVEXAS.

49

Ejemplo 4.4 (no existencia de estimadores insesgados de una cierta función) Consideremos una moneda cuya probabilidad de dar cara al ser arrojada es θ. Estamos interesados en estimar no θ, sino la razón de probabilidades cara/cruz, es decir, γ(θ) = θ/(1 − θ), y contamos con una muestra formada por n observaciones independientes X1 , . . . , Xn . Sea S(X) = X1 + . . . Xn . No existe un estimador insesgado. Si lo hubiera, debería verificar: X θ Eθ δ(X) = δ(x)θs(x) (1 − θ)n−s(x) = (4.5) 1−θ x∈X P en que s(x) = xi y X es el conjunto formado por todas las posibles ntuplas de ceros y unos. Sin embargo, el lado izquierdo de la igualdad anterior es un polinomio de grado finito en θ, en tanto que el lado derecho puede escribirse como θ(1 + θ + θ2 + . . .); ningún polinomio puede igualar a la serie de potencias en el lado derecho para cualquier valor de θ.

4.2. Funciones convexas. Una función φ(x) real-valorada en el intervalo (a, b) (−∞ ≤ a < b ≤ ∞) es convexa si para cualesquiera x, y, con a < x < y < b y para cualquier 0 < γ < 1 se verifica: φ(γx + (1 − γ)y) ≤ γφ(x) + (1 − γ)φ(y)

(4.6)

Decimos que es una función estrictamente convexa si la desigualdad en la expresión anterior es estricta. Una función φ(x) es cóncava en [a, b] si −φ(x) es convexa en el mismo intervalo. Es inmediato ver que, en el caso de funciones derivables, φ′ (x) monótona no decreciente es condición necesaria y suficiente de convexidad; φ′′ (x) ≥ 0 es condición suficiente pero no necesaria para la convexidad de φ(x). Las siguientes propiedades de las funciones convexas, enunciadas como teoremas, serán de utilidad. Teorema 4.1 Si φ(x) es convexa en (a, b) y t ∈ (a, b), siempre existe una recta de ecuación y = L(x) = c(x − t) + φ(t) a través de (t, φ(t)) tal que: L(x) ≤ φ(x), ∀x ∈ (a, b). La prueba es sencilla, y resulta innecesaria a la vista de un gráfico. Todo lo que el teorema establece es que para cualquier t en el intervalo de convexidad podemos trazar una tangente2 a una función convexa que queda siempre por debajo. Teorema 4.2 (Desigualdad de Jensen) Si φ(x) es una función convexa en el intervalo soporte de la v.a. X, y X tiene momento de primer orden finito, se tiene que: φ (E(X)) ≤ E [φ(X)]

(4.7)

2 Estrictamente, podría no ser una tangente en el sentido habitual, y limitarse a tocar a la función convexa en un punto donde ésta es angulosa.

CAPÍTULO 4. PROCEDIMIENTOS INSESGADOS.

50 D EMOSTRACION :

Sea y = L(x) la recta aludida en el teorema anterior, con t = E(X). Entonces: E [φ(X)] ≥ E [L(X)]

= E [c(X − t)] + φ(t)

= φ(E[X])

Ejemplo 4.5 Una situación en que la desigualdad de Jensen es de aplicación inmediata es aquélla en que el regresando en un modelo lineal es una función cóncava (o convexa) de la variable que resulta de interés predecir. Por ejemplo, podemos tener: Yi = log Zi = xi ′ β + ǫi De acuerdo con el teorema de Gauss-Markov, sabemos entonces que una predicción insesgada y de varianza mínima del valor y∗ del regresando es x′∗ βˆ + ǫ. Es decir: ˆ = y∗ E[x∗ ′ β]

(4.8)

Sin embargo, la variable que deseamos predecir es z∗ = ey∗ . Como la función exponencial es convexa, de acuerdo con la desigualdad de Jensen se tiene: E[Z∗ ] ≥ eE[Y∗ ] Si x′∗ βˆ estima insesgadamente el exponente del lado derecho en la expresión ′ ˆ anterior, ex∗ β será un estimador sesgado por defecto de E[Z∗ ]. Si quisiéramos corregir este sesgo, podríamos quizá linealizar la función logaritmo. En la práctica, el sesgo suele ser de entidad lo suficientemente reducida en comparación con la varianza de la predicción como para no ser considerado.

4.3. Estimación insesgada puntual. Demostraremos en lo que sigue algunos resultados de gran alcance, que muestran la forma de obtener estimadores insesgados óptimos con funciones de pérdida bastante generales (convexas3 , lo que en particular incluye la estimación mínimocuadrática). 3

La convexidad es una propiedad intuitivamente plausible en una función de pérdida. En esencia supone, en un problema de estimación paramétrica, que la pérdida en que se incurre al estimar un parámetro crece más que proporcionalmente al error cometido en la estimación.

4.3. ESTIMACIÓN INSESGADA PUNTUAL.

51

Teorema 4.3 (Rao - Blackwell) Sea X una v.a. con distribución {FX (x, θ), θ ∈ ˆ Θ}, y S = S(X) un estadístico suficiente para θ. Sea θ(X) un estimador de θ, y ˆ θ) la función de pérdida, convexa en θ. ˆ Si θ(X) ˆ L(θ, tiene media finita y riesgo: h i ˆ = Eθ L(θ, ˆ θ) < ∞ rθ (θ) y definimos:

h i ˆ ηˆ(s) = E θ(X)|S =s

entonces:

ˆ rθ (ˆ η (s)) < rθ (θ) D EMOSTRACION : Es una aplicación de la desigualdad de Jensen: h i ˆ , θ) L(ˆ η , θ) = L(EX|S θ(X) h i ˆ ) = φ(EX|S θ(X) h i ˆ ≤ EX|S φ(θ(X)) h i ˆ θ) = EX|S L(θ(X),

Tomando ahora valor medio respecto de la distribución de S tenemos: h ii h ˆ θ) ES [L(ˆ η , θ)] ≤ ES EX|S L(θ(X),   y como ES EX|S [·] = EX [·] obtenemos en definitiva: h i ˆ ES [L(ˆ η , θ)] ≤ E L(θ(X), θ) ˆ rθ (ˆ η ) ≤ rθ (θ)

La desigualdad es estricta si la función de pérdida es estrictamente convexa.

ˆ Observemos, de paso, que, si θ(X) es insesgado, la aplicación del teorema de Rao-Blackwell proporciona un ηˆ(S) también insesgado. En efecto: h ii h h i ˆ ˆ = ES [ˆ η (S)] θ = Eθ θ(X) = ES EX|S θ(X)|S

CAPÍTULO 4. PROCEDIMIENTOS INSESGADOS.

52

Observación 4.1 ¿Dónde se ha hecho uso de la suficiencia de S? Parece a primera vista que en ninguna parte, y que bastaría condicionar sobre cualquier cosa para que el teorema de Rao-Blackwell surtiera efecto. Observemos que ello no es así. Si queremos que ηˆ(S) sea un estimador, no debe depender del parámetro θ. Si S es suficiente, h i Z ˆ ˆ ηˆ(S) = EX|S θ(X)|S = θ(X)f X|S (x|s)dx y se verifica esta condición de no dependencia de θ (pues, por definición de suficiencia, fX|S (x|s) no depende de dicho parámetro). No podría afirmarse lo mismo si S no fuera suficiente.

Cuando en un problema de estimación puntual con pérdida convexa se dispone de un estadístico que no sólo es suficiente sino también completo, puede afirmarse la existencia de un estimador único y de riesgo mínimo para cualquier función estimable de θ (es decir, para cualquier γ(θ) para la que exista alguna función de la muestra verificando Eθ [δ(X))] = γ(θ), ∀θ ∈ Θ). El siguiente teorema proporciona los detalles. Teorema 4.4 Sea X una variable aleatoria con distribución FX (x; θ), y S un estadístico suficiente para θ en la familia {FX (x; θ), θ ∈ Θ}. Entonces, cualquier función estimable γ(θ) posee un estimador insesgado que depende sólo de S. Si S es completo además de suficiente, este estimador es único. D EMOSTRACION : Por hipótesis existe δ(X) tal que Eθ [δ(X)] = γ(θ). Condicionando sobre S obtenemos ηˆ(S) que conserva la insesgadez. ¿Podría existir otro estimador insesgado, α ˆ (S)? No. Si lo hubiera, tendríamos (por insesgadez de ambos) que: Eθ [ˆ η (S)] = Eθ [ˆ α(S)] =⇒ Eθ [ˆ η (S) − α ˆ (S)] = 0 {z } | g(S)

Pero la condición de completo de S permite entonces concluír que Eθ [g(S)] = 0 ⇒ g(S) = 0 con probabilidad 1, y por tanto ηˆ(S) = α ˆ (S) (con probabilidad 1).

Si a las condiciones del teorema anterior unimos convexidad de la función de pérdida, tenemos el siguiente interesante resultado. ˆ Teorema 4.5 En las condiciones del Teorema 4.4, si L(θ(X), θ) es estrictamente ˆ convexa y rθ (θ) es finito, el único estimador insesgado obtenido es uniformemente de mínimo riesgo insesgado. En particular, se trata del estimador insesgado de mínima varianza uniforme4 . 4

En ocasiones llamado UMVU (UMVU = Uniformly Minimum Variance Unbiased).

4.3. ESTIMACIÓN INSESGADA PUNTUAL.

53

D EMOSTRACION : En efecto: consideremos ηˆ(S) y cualquier otro posible estimador insesgado ˆ ˆ θ(X). Una aplicación del teorema de Rao-Blackwell a θ(X) producirá un α ˆ (S) ˆ mejor que θ(X) y que necesariamente coincide con ηˆ(S). Por tanto, éste último es ˆ mejor que θ(X).

Los Teoremas 4.3 y 4.4 muestran dos vías para obtener estimadores insesgados de riesgo mínimo. La primera consistiría en buscar un estadístico suficiente completo S y, a continuación, una función de él que fuera insesgada. El Teorema 4.4 garantiza que este modo de operar conduce al (esencialmente único) estimador insesgado de riesgo mínimo. El inconveniente de este método es que a veces puede no ser fácil de llevar a cabo la corrección de sesgo aludida, dependiendo del estadístico suficiente que tomemos como punto de partida. Hay una segunda vía que a menudo permite llegar al mismo resultado de modo más simple. Una vez que hemos encontrado un estadístico suficiente completo S, podemos tomar cualquier estimador insesgado θˆ del parámetro de interés y calcular ˆ E[θ|S]. El Teorema 4.3 garantiza que el resultado es el estimador insesgado de riesgo mínimo, sin importar cuál haya sido el estimador insesgado de partida. Ejemplo 4.6 Volvamos sobre el Ejemplo 3.8, pág. 36. Vimos allí que Pn S = i=1 Xi (y, equivalentemente, X) es un estadístico suficiente para λ en la clase de distribuciones de Poisson, P (λ). Además, X es un estadístico completo. El Teorema 4.4 (pág. 52) muestra entonces que X es el único estimador insesgado de mínima varianza de λ (más generalmente, de mínimo riesgo para cualquier función de pérdida convexa). Ejemplo 4.7 Consideremos de nuevo el caso de una distribución U (0, 2θ) y una m.a.s. X1 , . . . , Xn procedente de ella. Vimos (Ejemplo 3.7, pág. 34) que X(n) es suficiente para θ y además completo (Ejemplo 3.19, pág. 43). Sea S = X(n) . Entonces, Eθ [S] =

Z

0



 n+1 2θ nsn−1 2n n s = sds = θ. n n (2θ) (2θ) n + 1 0 n+1

Por tanto, (2n)−1 (n + 1)X(n) es un estimador insesgado de θ que depende sólo del estadístico suficiente X(n) . Es insesgado de mínima varianza. En este caso, ha sido fácil aplicar la primera vía aludida en el texto: buscar una función del estadístico suficiente, calcular su sesgo y corregirlo.

El ejemplo siguiente hace también uso de la primera vía: imponer la insesgadez a una función de un estadístico completo suficiente.

CAPÍTULO 4. PROCEDIMIENTOS INSESGADOS.

54

Ejemplo 4.8 (estimador insesgado de mínima varianza de la varianza de una distribución binaria) Consideremos una distribución binaria de parámetro p; su varianza es pq = p(1 − p). Sea pˆ el estimador habitual de p, n X Xi . (4.9) pˆ = n−1 i=1

Es fácil ver que pˆ es insesgado para p y también suficiente y completo. Sin embargo, el estimador de la varianza pˆ(1 − pˆ) no es insesgado. En efecto, en virtud de la desigualdad de Jensen (Sección 4.2, pág. 49), E [ˆ p(1 − pˆ] = E [Φ(ˆ p)] ≤ Φ(E(ˆ p)) = p(1 − p),

dado que Φ(.) es una función cóncava. Podemos sinPembargo acometer en este caso la corrección directa del n sesgo. Sea T = i=1 Xi (completo suficiente) y δ(T ) una función arbitraria de dicho estadístico. Dado que T sigue una distribución binomial, el valor medio de δ(T ) es: E [δ(T )] =

n X

  n t δ(t) p (1 − p)n−t . t t=0

Definiendo ρ = p(1−p)−1 (por tanto p = ρ(1+ρ)−1 y (1−p) = (1+ρ)−1 ), n X

  n t E [δ(T )] = δ(t) p (1 − p)n−t t t=0   n X 1 n ρt . = δ(t) t t (1 + ρ) (1 + ρ)n−t t=0

(4.10)

Igualando (4.10) a p(1 − p) y simplificando tenemos: n X

  n ρt 1 δ(t) t t (1 + ρ) (1 + ρ)n−t t=0   n X n t δ(t) ρ t t=0   n X n t δ(t) ρ t t=0   n X n t δ(t) ρ t t=0

=

ρ (1 + ρ)2

=

ρ(1 + ρ)n−2

=

ρ

=

       n−2 n−1 n − 2 n−2 + ρ+ ...+ ρ 0 1 n−2 n−1 X n − 2 ρt . (4.11) t − 1 t=1

Igualando términos de igual orden a ambos lados de (4.11) vemos que debe verificarse:     n t(n − t) n−2 δ(t) (4.12) = =⇒ δ(t) = n(n − 1) t t−1 para t = 1, . . . , n − 1 (y δ(0) = δ(n) = 0, que ya quedan recogidos en la expresión general).

4.3. ESTIMACIÓN INSESGADA PUNTUAL.

55

Ejemplo 4.9 Supongamos que la v.a. X sigue una distribución de Poisson y que el parámetro que tenemos interés en estimar es θ = e−λ = ˆ ˆ ˆ Prob {X = 0}. Definamos θ(X) así: θ(X) = 1 si X = 0 y θ(X) = 0 en otro ˆ caso. Entonces, θ(X) es un estimador insesgado de θ, función de un estadístico completo suficiente, y por tanto uniformemente de mínima varianza, de acuerdo con el Teorema 4.4. Veámoslo. 1. El estadístico X es suficiente; claro, puesto que la totalidad de la muestra es siempre suficiente. 2. El estadístico X es completo en la familia de distribuciones de Poisson P(λ). Comprobémoslo. Sea una función g(x) tal que E[g(X)] = c. Ello significaría que: ∞ X j=0

g(j)

e−λ λj j!

=

c

=⇒

∞ X j=0

[g(j) − c]

e−λ λj =0 j!

y por tanto: [g(j) − c] = 0

∀j entero

=⇒

g(j) = c

∀j entero

En consecuencia, la única función g(x) verificando E[g(X)] = c es la función constante. 3. Finalmente, observemos que: ˆ E[θ(X)] =



e−λ λ0 + 0 · Prob {X > 0} 0!

=

e−λ

ˆ luego θ(X) es insesgado. Este ejemplo o similares han sido objeto de debate en la literatura. El estimador sólo puede proporcionar dos estimaciones: 0 ó 1. Ello es particularmente molesto cuando θ = e−λ no puede alcanzar ninguno de ambos extremos: 0 < θ < 1 si 0 < λ < ∞. Junto con los ejemplos 4.2 y 4.4, éste muestra que en algunos casos (en general, bastante anómalos) la elección de un estimador insesgado, incluso de mínima varianza, puede no ser una buena idea.

El siguiente ejemplo, reproducido de Cox y Hinkley (1974), pág. 259, amplía el precedente considerando n observaciones. Ilustra la segunda vía referida más arriba para obtener estimadores insesgados de riesgo mínimo: condicionar cualquier estimador insesgado sobre el valor que toma un estadístico completo suficiente. Ejemplo 4.10 Consideremos la misma situación examinada en el Ejemplo 4.9, pero suponiento ahora que disponemos de una muestra formada por n observaciones independientes, X1 , . . . , Xn . Si deseáramos estimar λ, X sería un estimador insesgado. Pero, para estimar θ = e−λ , el estimador obvio e−X es sesgado (desigualdad de Jensen); y no es inmediato el valor de su sesgo ni la forma de eliminarlo. Sin embargo, lo cierto es que X (o, equivalentemente, S = X1 + . . . + Xn ) es un estadístico completo suficiente (lo que se puede demostrar de modo exactamente análogo al empleado en el Ejemplo 4.9).

CAPÍTULO 4. PROCEDIMIENTOS INSESGADOS.

56

Busquemos un estimador insesgado cualquiera de θ = e−λ ; recordando que θ = Prob {X = 0} vemos que:  1 si X1 = 0 ˆ θ(X) = 0 en otro caso. es efectivamente insesgado. Entonces, de acuerdo con el Teorema 4.3 tenemos5 que: ˆ θˆ∗ (S) = E[θ(X)|S] =



1−

1 n

S

(4.13)

es el estimador insesgado (esencialmente único) de mínima varianza. ¡A la vista de (4.13) es claro que el indagar directamente qué función de S (o de X) es insesgada no hubiera tenido grandes posibilidades de éxito!

4.4. El jackknife En ocasiones puede ser difícil encontrar un estimador insesgado de partida y aplicar el procedimiento de Rao-Blackwell para obtener el estimador insesgado de varianza mínima. Quenouille (1956) propuso un procedimiento para, partiendo de un estimador sesgado, obtener otro insesgado o con sesgo muy reducido respecto al estimador inicial. Es la técnica conocida como jackknifing. Supongamos que el estimador θˆn , basado en una muestra de tamaño n, tiene un sesgo de orden O(n−1 ) —como es lo habitual—. Supongamos que E[θˆn ] = θ +

∞ X ai ni i=1

en que los coeficientes ai pueden depender de θ (pero no de n) y al menos el primero es distinto de cero (de forma que el orden del sesgo es el estipulado). El procedimiento de jackknifing consiste en lo siguiente: 1. Recalcular el estimador n veces, dejando cada vez fuera una observación. Esto proporcionará n versiones del estimador que denotaremos por θˆn−1,i , i = 1, . . . , n, en que el primer subíndice alude al tamaño de muestra empleado y el segundo a la observación omitida. 2. Computar la media aritmética θn−1 de las n versiones del estimador calculadas en el apartado anterior. 3. Definir el estimador jackknife así: θˆnJ

= θˆn + (n − 1)(θˆn − θn−1 ) = nθˆn − (n − 1)θ n−1

(4.14) (4.15)

5 Condicionalmente sobre S, la distribución de X es multinomial (véase Ejemplo 3.8, pág. 36), y por tanto la distribución de X1 condicionado por S es binomial de parámetros n1 , s.

4.4. EL JACKKNIFE

57

Es fácil comprobar que el sesgo de θˆnJ es de menor orden que el de θˆn . En efecto, ∞ ∞ X X ai ai E[θˆnJ ] = n(θ + ) − (n − 1) θ + i n (n − 1)i i=1

i=1

!

−a2 + O(n−3 ). n(n − 1)

=

(4.16) (4.17)

Por consiguiente, el sesgo original que era O(n−1 ) ha quedado reducido a O(n−2 ). Ejemplo 4.11 (estimación de θ2 en una distribución binaria b(θ)) Si disponemos de una muestra de n observaciones, sabemos que X = X1 + . . . + Xn (o, alternativamente, θˆn = X = X/n) son estadísticos suficientes para θ. Es claro no obstante que, si bien θˆn es insesgado para θ, ηˆ = θˆn2 = 2 X es sesgado para η = θ2 (consecuencia inmediata de la desigualdad de Jensen). Veamos cuál es este sesgo y cómo eliminarlo o reducirlo haciendo uso del jackknife. Dado que 2

E[X ] =

 2 θ(1 − θ) Var(X) + E(X) = + θ2 n

(4.18)

2

vemos que Sesgo(ˆ η ) = E[X ] − θ2 = n−1 θ(1 − θ). Dejando de lado la observación i-ésima sólo se pueden obtener dos valores para ηˆn−1,i :   2 x−1   con probabilidad x/n  n−1  ηˆn−1,i = 2  x n−x   con probabilidad ; n−1 n

por consiguiente, el cálculo del η n−1 puede hacerse directamente sin necesidad de recomputar n veces el estimador y promediar los resultados:  2  2 x x−1 n−x x η n−1 = + n n−1 n n−1 2 (n − 2)x + x = n(n − 1)2 El estimador jackknife es por tanto: ηˆnJ

= = =

nˆ ηn − (n − 1)η n−1  x 2 (n − 2)x2 + x n − (n − 1) n n(n − 1)2 x(x − 1) n(n − 1)

(4.19) (4.20) (4.21)

Puede verificarse con facilidad que, en este caso particular, el jackknife no sólo ha reducido el orden del sesgo, sino que lo ha cancelado en su totalidad. 2 Recordemos que, de acuerdo con (4.18), el sesgo de X es n−1 θ(1 − θ); por tanto, la remoción del sesgo de orden O(n) supone la remoción de todo el sesgo.

58

CAPÍTULO 4. PROCEDIMIENTOS INSESGADOS. CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER 4.1 En la situación descrita en el EjemploP4.9, obténgase un estimador insesgado de mínima varianza para θ = Prob { ni=1 Xi ≤ 1}.

4.2 Se cuenta con dos observaciones independientes X1 y X2 procedentes de una distribución con densidad fX (x; λ)

=

λe−λx .

Hállese el estimador de mínima varianza insesgado de θ = Prob {X ≥ 1}.

4.3 Sea una m.a.s. X1 , . . . , Xn procedente de una distribución cuya densidad es,  fX (x, θ) para x ∈ [a, b(θ)], 0 en otro caso. El parámetro a estimar es θ; a es una constante y b(θ) una función fija de θ. Compruébese que, si existe un estadístico suficiente, debe ser X(n) , y que una condición suficiente para ello es que fX (x, θ) = g(x)h(θ). (Garthwaite et al. (1995), pág. 37)

4.4 Sea una m.a.s. X1 , . . . , Xn procedente de una distribución cuya densidad es,  −1 x/θ θ e si x ≥ 0, fX (x, θ) = 0 en otro caso. Indíquese de θ: i) θˆ = X1 ; ii) θˆ = Pn cuáles deˆ los siguientes Pestimadores n −1 −1 ˆ ˆ n i=1 Xi ; iii) θ = (n + 1) i=1 Xi ; iv) θ = nX(1) ; v) θ = X1 ; vi) θˆ = X(n) , son: a) Insesgados, b) Función de estadísticos suficientes y c) De mínima varianza insesgados.

4.5 Sean X1 , . . . , Xn , variables aleatorias con densidad común fX|θ (x |θ) = θxθ−1 , en que 0 ≤ x ≤ 1 y θ > 0. i) Encuéntrese un estadístico suficiente para θ.

ii) Compruébese que − log X1 es un estimador insesgado de θ−1 .

iii) Haciendo uso del hecho establecido en el apartado anterior, utilícese el teorema de Rao-Blackwell para encontrar el estimador insesgado de mínima varianza de θ−1 .

4.6 Sean X1 , . . . , Xn variables independientes con densidad común fX (x|θ1 , θ2 ). Supongamos dos estadísticos T1 y T2 tales que T1 es suficiente para θ1 cuando θ2 está dado, y T2 es suficiente para θ2 cuando θ1 está dado. Compruébese que T = (T1 , T2 ) es conjuntamente suficiente para (θ1 , θ2 ).

Capítulo 5

Eficiencia. La cota de Cramér-Rao.

5.1. Introducción La teoría que precede, y en particular el Teorema 4.5, muestran el modo de establecer optimalidad de un estimador insesgado. En lo que sigue, probaremos un resultado de menor alcance: bajo ciertas condiciones de regularidad, si θˆ es un estimador de θ se verifica ˆ ≥ H(θ), Varθ (θ)

(5.1)

en que H(θ) es una función que podemos obtener fácilmente. Entonces, si para un estimador θˆ insesgado de θ tuviéramos ˆ = H(θ), Varθ (θ)

(5.2)

no existiría ningún otro de varianza menor, y podríamos declarar θˆ óptimo (en términos de varianza y en la clase de los insesgados, no se olvide). Este procedimiento es inferior al proporcionado por el Teorema 4.5 por varias razones. En primer lugar, son precisas condiciones de regularidad —básicamente, la función de verosimilitud debe ser lo suficientemente “suave”, en un sentido que quedará claro más abajo—. En segundo lugar, (5.1) se refiere sólo a pérdidas cuadráticas. Finalmente, (5.1) no es una desigualdad “ajustada”, en el sentido de que puede suceder que, para todo θˆ insesgado, ˆ > H(θ). Varθ (θ) 59

(5.3)

CAPÍTULO 5. EFICIENCIA. LA COTA DE CRAMÉR-RAO.

60

Es decir, el lado derecho es una cota inferior, no necesariamente alcanzable, de la ˆ varianza en la estimación insesgada de θ por θ. Sin embargo, la utilización de (5.1) es cómoda en muchas ocasiones, y para su obtención haremos uso de algunos resultados de interés en sí mismos. Son los que se demuestran a continuación.

5.2. Algunos resultados instrumentales Lema 5.1 Consideremos la función de verosimilitud, es decir, fX (x; θ) como función de θ, y supongamos que se verifica Z Z ∂ ∂ fX (x; θ)dx. (5.4) fX (x; θ)dx = ∂θ ∂θ Entonces, Eθ0



∂ log fX (X; θ) ∂θ



= 0. θ=θ0

D EMOSTRACION : En efecto, observemos que ∂ log fX (x; θ) ∂θ Por consiguiente,   ∂ log fX (X; θ) Eθ0 ∂θ θ=θ0

=

= = = = =



Z

 ∂ f (x; θ) X ∂θ . fX (x; θ)

∂ log fX (x; θ) dx ∂θ Z ∂ f (x; θ) X fX (x; θ) ∂θ dx fX (x; θ) Z ∂ fX (x; θ)dx ∂θ Z ∂ fX (x; θ)dx ∂θ 0. fX (x; θ)

Ejemplo 5.1 Ilustramos (5.5) en el caso simple en que X ∼ N (θ, σ2 =

1) y X1 , . . . , Xn es una muestra aleatoria simple. Entonces,  n  Y  1 √ exp −(Xi − θ)2 /2 , fX (X; θ) = 2π i=1

(5.5)

5.2. ALGUNOS RESULTADOS INSTRUMENTALES

61

y ∂ log fX (X; θ) ∂θ

=



n X i=1

(Xi − θ).

Tomando valor medio de esta última expresión comprobamos que se anula:



"

n X i=1

#

(Xi − θ)

= nθ − nθ = 0.

Obsérvese que ello es cierto sólo si coinciden los valores del parámetro que se sustrae de cada Xi y el valor del parámetro para el cuál se toma el valor medio.

Observación 5.1 En el Lema 5.1 se ha empleado la notación Eθ0



∂ log fX (X; θ) ∂θ



θ=θ0

para enfatizar el hecho de que se toma el valor medio de la derivada del logaritmo de la verosimilitud evaluada para el valor θ0 del parámetro θ, y que este valor medio lo es con respecto a la densidad fX (x; θ0 ). Nótese que esto es crítico para que el Lema 5.1 sea válido. En lo que sigue, para aligerar la notación, θ denota a un tiempo el valor del parámetro y la variable respecto de la que se deriva, sin que esta notación deba inducir a error. Además, salvo expresa mención en contrario, las derivadas respecto a θ se suponen también evaluadas en el valor del parámetro.

Lema 5.2 Bajo condiciones de regularidad 1 se tiene:

Varθ



∂ log fX (X; θ) ∂θ



 ∂ log fX (X; θ) 2 ∂θ  2  ∂ log fX (X; θ) = −Eθ . ∂θ 2

= Eθ



(5.6) (5.7)

D EMOSTRACION : 1

Que permitan intercambiar el orden de las operaciones de derivación e integración en los casos en que esto se hace en la demostración. Las condiciones de regularidad también incluyen que el recorrido de la distribución no dependa del parámetro θ (como sucedería, por ejemplo, en una U (0, θ)).

CAPÍTULO 5. EFICIENCIA. LA COTA DE CRAMÉR-RAO.

62 Se tiene que: 0 = = = = = =

∂ (0) (5.8) ∂θ   ∂ ∂ log fX (X; θ) Eθ (5.9) ∂θ ∂θ   Z ∂ ∂ log fX (x; θ) fX (x; θ) dx (5.10) ∂θ ∂θ  Z  ∂ 2 log fX (x; θ) ∂ log fX (x; θ) ∂fX (x; θ) fX (x; θ) + dx (5.11) ∂θ 2 ∂θ ∂θ   Z   2 ∂ log fX (x; θ) 2 ∂ log fX (X; θ) fX (x; θ)dx (5.12) + Eθ ∂θ ∂θ 2  2    ∂ log fX (X; θ) ∂ log fX (X; θ) 2 Eθ + Eθ . (5.13) ∂θ ∂θ 2

Se ha hecho uso de ∂fX (x; θ) 1 ∂ log fX (x; θ) = ∂θ fX (x; θ) ∂θ para pasar de (5.10) a (5.11). Del hecho de ser (5.13) igual a cero, se deduce Eθ



∂ log fX (X; θ) ∂θ

2

= −Eθ



 ∂ 2 log fX (X; θ) . ∂θ 2

5.3. Información de Fisher. Cota de Cramér-Rao Definición 5.1 Consideremos la variable aleatoria ∂ log fX (X, θ) . ∂θ Su varianza se denota por IX (θ) y se denomina información de Fisher asociada a una observación. De acuerdo con el lema anterior:  2    ∂ log fX (X, θ) ∂ log fX (X, θ) 2 = −Eθ IX (θ) = Eθ ∂θ ∂θ 2 Observación 5.2 El nombre de información dado a IX (θ) encuentra en parte su justificación en el papel que IX (θ) juega en la desigualdad de Cramér-Frechet-Rao (Teorema 5.1, pág. 64). Una justificación alternativa, que puede tener cierto atractivo intuitivo, sería la siguiente.

5.3. INFORMACIÓN DE FISHER. COTA DE CRAMÉR-RAO

63

Consideremos una familia de distribuciones, {fX (x, θ), θ ∈ Θ}, y dos miembros de la misma correspondientes a sendos valores del parámetro, θ0 (el “correcto”) y θ′ = θ0 + dθ. Pueden proponerse diversas formas de medir la distancia o discrepancia entre fX (x, θ0 ) y fX (x, θ′ ). Una de ellas sería: ℓ(θ0 , θ′ ) = Eθ0 [log fX (X, θ0 ) − log fX (X, θ′ )]

(5.14)

Si suponemos fX (x, θ′ ) suficientemente derivable respecto a θ y la sustituimos por su desarrollo en serie de Taylor hasta términos de segundo orden, (5.14) se convierte en: "   ∂ log fX (X, θ) ′ dθ ℓ(θ0 , θ ) ≃ Eθ0 log fX (X, θ0 ) − log fX (x, θ0 ) − ∂θ θ=θ0 #   1 ∂ 2 log fX (X, θ) 2 − (dθ) 2 ∂θ2 θ=θ0   2 1 ∂ log fX (X, θ) (dθ)2 = Eθ0 2 ∂θ2 1 IX (θ0 )(dθ)2 = 2 Ello muestra IX (θ) como el coeficiente de (dθ)2 en la medida aproximada de la distancia entre las dos distribuciones. Cuando IX (θ) es grande, una alteración de dθ en el valor del parámetro da lugar a dos distribuciones muy separadas, y cada observación es muy informativa. El caso extremo contrario se presentaría cuando IX (θ) fuera cero. Entonces, ambas distribuciones serían (hasta términos de segundo orden) iguales, y las observaciones de X sería nulamente informativas (si los dos valores del parámetro, θ y θ′ , dan lugar a distribuciones idénticas, el observar los valores que toma X no permite discriminar entre una y otra). El argumento esbozado no depende de manera crítica de la medida de discrepancia ℓ(θ, θ′ ) escogida; se llegaría al mismo resultado con otras muchas. Véase al respecto Rao (1965), pág. 271.

Observación 5.3 Vimos en el Ejemplo 1.7, pág. 6, que no era obvio el modo en que debe escogerse una distribución a priori no informativa. Una opción muy empleada consiste en emplear la distribución a priori no informativa de Jeffreys: véase Jeffreys (1961). Consiste en tomar para una función φ = φ(θ) tal que IX (φ) sea constante una distribución a priori ξ(φ) ∝ k (quizá impropia, por consiguiente). Ello equivale a tomar sobre el parámetro 1 de interés θ una distribución a priori ξ(θ) ∝ IX (θ) 2 . Lema 5.3 La información de Fisher IX (θ) asociada a una muestra aleatoria simple X formada por n observaciones, es nIX (θ). D EMOSTRACION : Si la muestra es aleatoria simple, fX (X; θ) = fX (X1 , θ) · . . . · fX (Xn , θ)

(5.15)

CAPÍTULO 5. EFICIENCIA. LA COTA DE CRAMÉR-RAO.

64

y por consiguiente: n

∂ log fX (X; θ) X ∂ log fX (Xi , θ) = ∂θ ∂θ

(5.16)

i=1

Tomando el valor medio del cuadrado de la expresión anterior, tenemos en el lado izquierdo la información de Fisher correspondiente a la muestra X:     n X ∂ log fX (X; θ) 2 ∂ log fX (Xi , θ) 2 Eθ Eθ = ∂θ ∂θ i=1     n n X X ∂ log fX (Xj , θ) ∂ log fX (Xi , θ) Eθ Eθ +2 ∂θ ∂θ i=1 j=i+1

= nIX (θ)   ∂ log fX (Xj , θ) habida cuenta de que Eθ = 0 (Lema 5.1, pág. 60). ∂θ

Con ayuda de los lemas anteriores podemos ahora fácilmente probar el siguiente teorema. ˆ ˆ Teorema 5.1 h iSea θ = θ(X) un estimador del parámetro θ y ψ(θ) su valor medio, ψ(θ) = Eθ θˆ . Entonces, bajo condiciones de regularidad, ˆ ≥ Varθ (θ)

[ψ ′ (θ)]2





∂ log fX (x; θ) ∂θ

2

D EMOSTRACION : ψ ′ (θ) = = = = = =

h i ∂ ˆ Eθ θ(X) ∂θ Z ∂ ˆ θ(x)f X (x; θ)dx ∂θ Z ∂ ˆ θ(x) fX (x; θ)dx ∂θ Z ˆ ∂ log fX (x; θ) fX (x; θ)dx θ(x) ∂θ   ∂ log fX (X; θ) ˆ Eθ θ(X) ∂θ   ∂ log fX (X; θ) ˆ Eθ (θ(X) − ψ(θ)) ∂θ

(5.17)

5.3. INFORMACIÓN DE FISHER. COTA DE CRAMÉR-RAO

65

En el último paso se ha tenido en cuenta (Lema 5.1, pág. 60) que   ∂ log fX (X, θ) Eθ = 0. ∂θ Elevando al cuadrado la igualdad anterior tenemos:     ′ 2 ∂ log fX (X; θ) 2 ˆ ψ (θ) = Eθ (θ(X) − ψ(θ)) ∂θ i  ∂ log f (X; θ) 2 h X ˆ ≤ Eθ (θ(X) − ψ(θ))2 Eθ ∂θ  2 ˆ · Eθ ∂ log fX (X; θ) = Varθ (θ) ∂θ

(5.18) (5.19) (5.20)

en que el ≤ resulta de aplicar la desigualdad de Schwarz a la expresión precedente. ˆ se llega a la tesis del teorema. Despejando Varθ (θ)

ˆ Observación 5.4 En el caso particular de que θ(X) sea insesgado para cualquier valor de θ, ψ(θ) = θ, y el numerador de (5.17) es la unidad. Si X es una muestra formada por observaciones independientes, el denominador de (5.17) es, de acuerdo con el Lema 5.3, nIX (θ). En el caso de que ambas ˆ cosas se verifiquen —estimador θ(X) insesgado y muestra formada por observaciones independientes—, la desigualdad (5.17) adopta por consiguiente la forma: ˆ ≥ Varθ (θ)

1 nIX (θ)

(5.21)

Observación 5.5 Por analogía con la definición de información de Fisher sobre θ contenida en X, podemos definir información de Fisher sobre θ contenida en θˆ así: " #2 ˆ θ) ∂ log fθˆ(θ; Iθˆ(θ) = Eθ ∂θ ˆ (siendo ξ variables cualesquieHagamos el cambio de variables X → (ξ, θ) ˆ ra, que, junto con θ, permiten recuperar X; véase Cramér (1960), pág. 548 y siguientes). Entonces: ∂(ξ, θ) ˆ ˆ θ)f ˆ(θ; ˆ θ) fX (x; θ) = fξ|θˆ(ξ|θ; θ ∂x y se tiene que:

ˆ θ) ∂ log f (θ; ˆ θ) ∂ log fξ|θˆ(ξ|θ; ∂ log fX (X; θ) θˆ = + ∂θ ∂θ ∂θ

CAPÍTULO 5. EFICIENCIA. LA COTA DE CRAMÉR-RAO.

66

ya que el jacobiano de la transformación no depende de θ. Elevando al cuadrado y tomando valor medio:

IX (θ)

=

=

"

ˆ θ) ∂ log fξ|θˆ(ξ|θ;

#2

"

ˆ θ) ∂ log fθˆ(θ; + Eθ Eθ ∂θ ∂θ " # ˆ θ) ∂ log f (θ; ˆ θ) ∂ log fξ|θˆ(ξ|θ; θˆ +2Eθ ∂θ ∂θ " #2 ˆ θ) ∂ log fξ|θˆ(ξ|θ; Eθ + Iθˆ(θ) ∂θ

#2

(5.22)

ya que: Eθ

"

# ˆ θ) ∂ log f (θ; ˆ θ) ∂ log fξ|θˆ(ξ|θ; θˆ ∂θ ∂θ !# " ˆ θ) ∂ log f (θ; ˆ θ) ∂ log fξ|θˆ(ξ|θ; θˆ = Eθˆ Eξ|θˆ ∂θ ∂θ " !#! ˆ θ) ˆ θ) ∂ log fξ|θˆ(ξ|θ; ∂ log fθˆ(θ; Eξ|θˆ = Eθˆ ∂θ ∂θ

y el término en el corchete es cero (Lema 5.1, pág. 60). De (5.22) se desprende que Iθˆ(θ) ≤ IX (θ), y que para que se verifique la igualdad es necesario que: ! ˆ θ) 2 ∂ log fξ|θˆ(ξ|θ; =0 (5.23) Eθ ∂θ Ahora bien, (5.23) se verifica siempre que θˆ es un estadístico suficiente (pues ˆ el “resto” de la muestra ξ tiene distribución entonces, condicionalmente en θ, independiente de θ).

Observación 5.6 Relacionada con la observación anterior, tenemos la siguiente: si Iθˆ(θ) = IX (θ), es decir, si θˆ es suficiente, la aplicación del ˆ supuesta insesgada, proporciona: Teorema 5.1 a la variable aleatoria θ, Eθ (θˆ − θ)2



1 1 = Iθˆ(θ) IX (θ)

(5.24)

La última igualdad está garantizada por la suficiencia, pero ello todavía no implica que el primer término y el último sean iguales. La suficiencia no garantiza que un estimador alcance la cota de Cramér-Rao. Para que ello ocurra es preciso, además, que Eθ (θˆ − θ)2

=

1 . Iθˆ(θ)

(5.25)

El Problema 5.2 proporciona una condición necesaria y suficiente (bajo condiciones de regularidad) para que ello ocurra.

5.4. EFICIENCIA

67

Examinemos a continuación casos simples en que la cota de Cramér-Rao permite concluir que estamos ante estimadores insesgados de mínima varianza entre los que verifican condiciones de regularidad. Ejemplo 5.2 Consideremos X ∼ N (θ, σ2 = 1). Vimos en el Ejem-

plo 5.1, pág. 60, que

∂ log fX (X; θ) ∂θ

=

n X i=1

(Xi − θ).

Tomando valor medio en dicha expresión, IX (θ)

= Eθ



∂ log fX (X; θ) ∂θ

2

= Eθ

" n X i=1

#2

(Xi − θ)

= nσ 2 = n.

Por consiguiente, la varianza de cualquier estimador insesgado regular está acotada inferiormente por IX (θ)−1 = n−1 . Como quiera que Var(X) = n−1 e insesgado, tenemos que X es insesgado de mínima varianza regular. Nótese que al mismo resultado se puede llegar a partir del teorema de Rao-Blackwell sin requerir condiciones de regularidad: basta notar el carácter de insesgado de X y que es función de un estadístico completo suficiente.

Ejemplo 5.3 (cota de Cramér-Rao para el parámetro de una Poisson) Sea X ∼ PX (x; λ) = e−λ λx (x!)−1 . Entonces, ∂ log PX (X; λ) ∂λ 2  ∂ log PX (X; λ) Eλ ∂λ

= −1 + λ−1 X = Eλ Xλ−1 − 1 = Eλ



= λ−1 .

X −λ λ

2

2

Por consiguiente, IX (λ) = λ−1 y la cota de Cramér-Rao para cualquier ˆ basado en n observaciones independientes es estimador λ ˆ ≥ Var(λ)

λ 1 = . −1 nλ n

Como quiera que X tiene varianza precisamente λ/n, concluimos que es estimador insesgado de mínima varianza.

5.4. Eficiencia En relación con la Observación 5.4, tenemos la siguiente definición. Definición 5.2 Se llama eficiencia (o, a veces, eficiencia de Bahadur) de un estimador insesgado al cociente 1/IX (θ) ˆ Var(θ)

68

CAPÍTULO 5. EFICIENCIA. LA COTA DE CRAMÉR-RAO.

Un estimador que alcance la cota de Cramér-Rao tiene pues eficiencia 1; se dice que es eficiente. Es preciso notar que la eficiencia así definida no implica optimalidad en un sentido demasiado amplio, y, de hecho, es quizá un nombre no muy afortunado. En efecto, un estimador eficiente es mejor sólo: En la clase de estimadores regulares insesgados. Si adoptamos como función de pérdida una mínimo cuadrática (recuérdese que, en cambio, el Teorema 4.3 proporcionaba estimadores insesgados óptimos para cualquier función de pérdida convexa y sin supuestos de regularidad). Es también interesante señalar que la noción de eficiencia surge de la comparación de la varianza de un estimador insesgado con un óptimo optimorum (en la clase de los estimadores regulares insesgados) que no tiene porqué ser alcanzable. Puede así darse el caso de que un estimador sea ineficiente de acuerdo con la definición anterior, y sin embargo no exista ninguno mejor en la clase de los insesgados. El siguiente ejemplo lo pone de manifiesto. Ejemplo 5.4 (un estimador insesgado de varianza mínima que, sin embargo, no alcanza la cota de Cramér-Rao para estimadores insesgados) Como ejemplo de situación descrita en la observación anterior, puede tomarse el siguiente (ver Romano y Siegel (1986), ejemplo 9.4). Consideremos de nuevo el Ejemplo 4.9 (pág. 55), que a su vez hacía referencia al Ejemplo 3.8 (pág. 36). Nos planteábamos allí el problema de estimar insesgadamente el θ = e−λ = Prob {X = 0} en una distribución de Poisson P(λ). Si sólo se dispone de una observación, el estimador:  1 si X = 0 θˆ = 0 en otro caso vimos que era insesgado y de varianza mínima. Esta varianza es la de una binaria de parámetro θ = e−λ , es decir, e−λ (1 − e−λ ). En términos de θ, la función de cuantía de X es: PX (x; θ) =

θ(− log θ)x x!

y el cálculo de la cota de Cramér-Rao es simple: ∂ log PX (X; θ) ∂θ

= = =

1 (− log θ)′ +X θ (− log θ) (−1/θ) 1 +X θ − log θ   1 log θ + X θ log θ

5.4. EFICIENCIA

69

Por tanto: IX (θ)

= = =



∂ log PX (X; θ) ∂θ  2 X −λ 1 E θ2 −λ 1 E(X − λ)2 θ2 λ2 1 θ2 λ

= E

2

y en consecuencia, la varianza de un estimador insesgado θˆ haciendo uso de una única observación es: E(θˆ − θ)2 ≥

λe−2λ λθ2 = 1 1

Fácilmente se comprueba que e−λ (1 − e−λ ) > λe−2λ (viendo que las funciones a ambos lados de la desigualdad toman el valor 0 cuando λ = 0 y que la derivada del lado izquierdo es mayor que la del lado derecho). La cota de Cramér-Rao no es por tanto alcanzable en este caso por ningún estimador insesgado.

En el mismo espíritu que la Definición 5.2 tenemos la siguiente. Definición 5.3 Se llama eficiencia relativa de un estimador θˆ1 respecto a otro θˆ2 al cociente Var(θˆ2 ) . Var(θˆ1 ) Las eficiencias, relativas o no, pueden variar con el tamaño muestral, por lo que en ocasiones se recurre a especificarlas para muestras “muy grandes”. Ello da lugar a las nociones de eficiencia asintótica y eficiencia asintótica relativa, que encontraremos en la Sección 6.5. Ejemplo 5.5 (eficiencia relativa de varios estimadores de θ en una distribución U (0, 2θ)) Consideremos de nuevo el caso de una distribución uniforme U (0, 2θ). Dada una m.a.s. X1 , . . . , Xn procedente de esta distribución hemos visto que X(n) es suficiente (Ejemplo 3.7, pág. 34), completo (Ejemplo 3.19, pág. 43) y puede dar lugar, mediante la oportuna corrección de su sesgo, a un estimador insesgado de mínima varianza de θ, θˆ =

n+1 X(n) , 2n

(Ejemplo 4.7, pág. 53). Examinemos ahora la eficiencia relativa de θˆ1 = X. Ambos estimadores θˆ y θˆ1 son insesgados. La varianza del segundo es Var(θˆ1 ) =

n−2

n X i=1

Var(Xi ) = n−2

n X (2θ − 0)2 i=1

12

=

θ2 . 3n

CAPÍTULO 5. EFICIENCIA. LA COTA DE CRAMÉR-RAO.

70

La varianza de θˆ se calcula también con facilidad. Tenemos  2 Z 2θ ˆn+1 h i n+1 nθ 2 ˆ = E θ dθˆ = (n + 1)2 (n + 2)−1 θ2 ; 2n (2θ)n 0

la varianza de θˆ es por tanto ˆ Var(θ)

= (n + 1)2 (n + 2)−1 θ2 − θ2 =

θ2 . n(n + 2)

Comparando, vemos que el estimador θˆ tiene varianza igual (cuando n = 1) ó menor, y tanto menor cuanto mayor es n. De hecho, la varianza de θˆ tiende a cero con orden O(n−2 ), mientras que la de θˆ1 tiende a cero linealmente. La eficiencia relativa de θˆ1 respecto de θˆ es ˆ = Ef.rel.(θˆ1 ; θ)

3 n−1 (n + 2)−1 θ2 = . −1 2 (3n) θ n+2

Ejemplo 5.6 (cuando fallan las condiciones de regularidad, la varianza de un estimador puede descender por debajo de la cota de Cramér-Rao) En el Ejercicio 5.5 se ha calculado la varianza del estimador insesgado de mínima varianza. Podemos ahora comprobar que dicha varianza es inferior a la cota que resultaría de una aplicación mecánica (e incorrecta) de la cota de Cramér-Rao. En efecto:  (2θ)−1 si 2θ > X(n) , fX (X; θ) = 0 en otro caso,  ∂ log fX (X, θ) −1/θ si 2θ > X(n) , = 0 en otro caso. ∂θ Hay que señalar que la derivada no existe en el punto anguloso θ = X(n) . Si ahora calculamos la “información de Fisher”, obtenemos: 2 Z 2θ  1 1 1 dx = 2 . IX (θ) = − θ 2θ θ 0 Por consiguiente, la “cota de Cramér-Rao” daría ˆ ≥ Var(θ)

1 θ2 = , nθ−2 n

mientras que en el Ejemplo 5.5 hemos comprobado que el estimador insesgado óptimo tiene varianza θ2 n−1 (n + 2)−1 . La razón por la que la desigualdad de Cramér-Rao no es de aplicación aquí, es que fallan las condiciones de regularidad. En efecto, Z ∂ fX (x, θ)dx = 0, ∂θ mientras que Z

∂ fX (x, θ)dx ∂θ

=

Z

∂ 1 dx = ∂θ θ

Z



1 dx 6= 0. θ2

5.4. EFICIENCIA

71

CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER 5.1 Demuéstrese que la expresión (5.14), pág. 63, propuesta como distancia entre fX (x, θ0 ) y fX (x, θ′ ) toma valores no negativos, y es cero si y sólo si fX (x, θ0 ) y fX (x, θ′ ) son iguales, salvo acaso en un conjunto de puntos con probabilidad cero. 5.2 Para que la desigualdad de Schwarz 2

[E(XY )]



E[X 2 ]E[Y 2 ]

se verifique, es condición suficiente que X ∝ Y , salvo en un conjunto de puntos con probabilidad cero. Haciendo uso de este hecho y observando el uso que de la desigualdad de Schwarz se ha hecho en la ecuación (5.19), demuéstrese que para que un estimador insesgado regular θˆ alcance la cota de Cramer-Rao es precisa, además de la suficiencia, que (θˆ − θ) ∝

∂ log fX (x; θ) . ∂θ (Garthwaite et al. (1995), pág. 14)

5.3 Completando el problema anterior, verifíquese que bajo condiciones de regularidad, un estimador insesgado alcanza la cota de Cramér-Rao si, y sólo si, (θˆ − θ) = IX (θ)−1

∂ log fX (x; θ) . ∂θ

5.4 Sea una distribución de Poisson con función de cuantía PX (x; λ). Haciendo uso de que E[X(X − 1)] = λ2 , obténgase:

1. El mejor estimador insesgado de λ2 basado en una única observación X. 2. El mejor estimador insesgado de λ2 basado en n observaciones.

5.5 Sea X1 , . . . , Xn una m.a.s.P procedente de una distribución N (µ, Σ2 ). n

Compruébese que S 2 = (n − 1)−1 i=1 (Xi − N )2 no alcanza la cota de Cramér-Rao, pero la diferencia entre su varianza y dicha cota tiende hacia cero cuando n → ∞.

72

CAPÍTULO 5. EFICIENCIA. LA COTA DE CRAMÉR-RAO.

Capítulo 6

Máxima verosimilitud

6.1. La lógica máximo verosímil En (Trocóniz, 1987, pág. 214) se propone el siguiente ejemplo: “Supongamos que se dispone de tres urnas simbolizadas por U4 = U50 = U99 =







4 bolas blancas 96 bolas negras 50 bolas blancas 50 bolas negras 99 bolas blancas 1 bolas negras

y que nos presentan una muestra de cuatro bolas tomadas de una de las urnas U4 , U50 ó U99 ; las cuatro bolas resultaron ser blancas. Con cierta lógica, si debiéramos emitir un juicio sobre la urna de procedencia nos inclinaríamos por U99 , pues es grande la probabilidad de que esta urna proporcione una muestra de cuatro bolas blancas, y pequeña la probabilidad en las urnas U4 y U50 . [. . .] La lógica que contiene esta forma de decidir es la lógica de la máxima verosimilitud.” Es lo cierto que difícilmente alguien podría, confrontado con el mismo problema, resolver de diferente modo. Ello dice mucho de la fuerte base intuitiva que subyace a la lógica de la máxima verosimilitud. 73

74

CAPÍTULO 6. MÁXIMA VEROSIMILITUD

Examinemos algunas cuestiones de interés, y tratemos de racionalizar el comportamiento que parece tan intuitivamente correcto. En primer lugar, podemos pensar en las urnas como “estados de la Naturaleza” que generan observables. Ello nos devuelve al marco de la teoría esbozada en capítulos anteriores. Si las bolas sacadas hubieran sido cinco, y las cinco blancas, ello haría de inmediato descartable la urna U4 . No podemos considerar un estado de la Naturaleza como plausible si es incapaz de generar la evidencia que hemos observado. Observemos que la lógica máximo verosímil va un paso más allá, y permite manejar casos en que la conclusión no puede alcanzarse con absoluta certeza. No es imposible que la urna U4 genere cuatro bolas blancas en un muestreo, pero si muy raro; y por lo tanto adoptamos como estado de la Naturaleza otro (en el ejemplo propuesto, U99 ) que genera la evidencia observada con mayor facilidad. Podemos pues ver la lógica máximo verosímil como una extensión de la lógica ordinaria que nos obliga a excluir hipótesis o explicaciones que no dan cuenta de lo observado. Observemos también que, en un sentido vago e impreciso, que será perfilado en el Capítulo 9, la lógica máximo verosímil conduce a escoger el estado de la Naturaleza o hipótesis explicativa menos “compleja.” El razonamiento subyacente al enfrentarnos al ejemplo de las tres urnas es: “¿Por qué habríamos de aceptar que la urna generadora de las cuatro bolas blancas es U4 —que sólo rarísimamente genera cuatro bolas blancas— cuando la urna U99 genera el mismo observable con gran frecuencia? ¿Por qué admitir que ha ocurrido algo muy raro cuando hay una explicación alternativa que lo hace frecuente?” En otras palabras, lo que hacemos es escalafonar los posibles estados de la Naturaleza, considerando más “complejos” (y por ello menos deseables) a aquéllos que más raramente generan evidencia como la observada. Veremos (en el Capítulo 9) que esta intuición se puede precisar considerablemente en una noción de complejidad. En parte por su atrayente contenido intuitivo y en parte por las buenas propiedades asintóticas de que disfruta, el método de estimación máximo verosímil alcanzó enseguida una enorme popularidad. En lo que sigue se examinan las propiedades asintóticas del estimador, destacando que las mismas no siempre se trasladan a pequeñas muestras, donde el estimador MV puede ser marcadamente ineficiente.

6.2. Verosimilitud y estimación máximo verosímil. Sea fX (X; θ) la función de densidad conjunta de una muestra X = X1 , . . . , Xn . Si consideramos fija la muestra en los valores observados, tenemos una función fX (x; θ) de θ llamada función de verosimilitud. Proporciona la densidad (o cuantía en el caso de variables aleatorias discretas) que correspondería a la muestra fija considerada bajo cada posible valor de θ. Ejemplo 6.1 Sea una muestra aleatoria simple (X1 , . . . , Xn ) procedente de una distribución N (θ, σ02 ), de la que se conoce la varianza σ02 . Fija-

6.2. VEROSIMILITUD Y ESTIMACIÓN MÁXIMO VEROSÍMIL. dos en el muestreo los n valores (x1 , . . . , xn ), la verosimilitud es: ) (  n n 1 1 X √ (xi − θ)2 fX (x; θ) = exp − 2 2σ0 i=1 σ0 2π

75

(6.1)

Como función de θ, es una distribución normal con varianza σ02 centrada sobre x.

0.0e+00 5.0e−06 1.0e−05 1.5e−05 2.0e−05 2.5e−05 3.0e−05 3.5e−05

θ12(1 − θ)17−12

Figura 6.1: Verosimilitud P asociada a una muestra (x1 , . . . , x17 ), cuando X es binaria de parámetro θ y 17 i=1 xi = 12.

0.0

0.2

0.4

0.6

0.8

1.0

θ

Ejemplo 6.2 Sea una muestra aleatoria simple (X1 , . . . , Xn ) procedente de una distribución binaria de parámetro θ. Sea s = x1 + . . . + xn . La función de cuantía conjunta es:   n s PX (x; θ) = θ (1 − θ)n−s (6.2) s Como función de θ, su forma es la que muestra la Figura 6.1. El máximo se alcanza sobre s/n (que en el caso representado en la Figura 6.1 es 12/17).

Definición 6.1 Llamamos estimador máximo verosímil θˆMV del parámetro θ en la familia de distribuciones {fX|θ (x |θ), θ ∈ Θ} a def θˆMV = arg m´ax fX |θ (x |θ).

θ

76

CAPÍTULO 6. MÁXIMA VEROSIMILITUD

Puede ocurrir que θˆMV no esté unívocamente definido. Cuando necesitemos enfatizar la dependencia de θˆMV del tamaño muestral escribiremos θˆMV,n . Se sigue inmediatamente de la Definición 6.1 que si θˆMV es el estimador máximo verosímil de θ y g(.) es cualquier función 1-1 de θ, entonces g(θˆMV ) es el estimador máximo verosímil de g(θ) (Ejercicio 6.3). Observación 6.1 Es de interés comprobar que, como cabe esperar de cualquier estimador “sensato”, si hay un estadístico suficiente S = S(X) para θ y θˆMV es único, entonces θˆMV = ℓ(S). En efecto, como consecuencia del teorema de factorización (Teorema 3.3, pág. 37), fX (x; θ) = gS (s, θ)h(x) Como función de θ, dada x, fX (x; θ) tiene un perfil idéntico al de gS (s, θ); h(x) es un mero factor de escala. Por tanto, fX (x; θ) alcanza su máximo dondequiera que gS (s, θ) alcance el suyo. Este último depende de x sólo a través de s, y por tanto, θˆMV ha de ser función de s solamente. Si θˆMV no es único, cabría imaginar un estimador máximo verosímil que no dependería de la muestra sólo a través de s: véase Romano y Siegel (1986), Ejemplo 8.13, o Levy (1985).

Observación 6.2 Relacionada con la anterior observación está la siguiente: si hay un estadístico suficiente y el estimador máximo verosímil es único, entonces éste no puede ser mejorado con ayuda del método de RaoBlackwell. En efecto: de acuerdo con la observación precedente, el estimador MV en este caso sería una función unívoca del estadístico suficiente, y el condicionar sobre el valor que toma éste nos daría de nuevo el estimador MV. Observación 6.3 En ocasiones se dice que “el estimador máximo verosímil extrae cuanta información hay en la muestra”, lo que sugiere una especie de suficiencia automática. Esto es frecuentemente, pero no necesariamente, cierto. Es cierto cuando el estimador MV es función 1 − 1 de un estadístico suficiente (en cuyo caso es suficiente; véase Sección 3.2). Pero éste no tiene porqué ser necesariamente el caso. Consideremos de nuevo el ejemplo propuesto en la Observación 3.2, pág. 41. La verosimilitud era    N d   X X fT ,U (t, u) = β d exp −β  ti + uj  .   i=1

j=d+1

Se puede comprobar que el estimador máximo verosímil es βˆMV = Pd

i=1 ti

+

d PN

j=d+1

uj

.

Fácilmente se ve que βˆMV no es suficiente; un mismo valor de βˆMV es compatible multitud de valores del estadístico (2-dimensional) suficiente P con P (d, ( ti + uj )).

6.3. CONSISTENCIA FUERTE DEL ESTIMADOR MÁXIMO VEROSÍMIL.77

6.3. Consistencia fuerte del estimador máximo verosímil. Decimos que un estimador θˆn basado en una muestra de tamaño n es consisp tente para el parámetro θ si: θˆn −→ θ. Decimos que es fuertemente consistente si c.s. la convergencia anterior es casi segura: θˆn −→ θ. El lema a continuación hace uso de la desigualdad de Jensen para establecer un resultado instrumental. Lema 6.1 Supongamos que fX (x; θ∗ ) = fX (x; θ0 ) (salvo acaso sobre un conjunto de medida nula) sólo cuando θ∗ = θ0 . Sea θ0 el verdadero valor del parámetro θ. Entonces,     fX (X; θ∗ ) fX (X; θ∗ ) Eθ0 log < log Eθ0 = 0. (6.3) fX (X; θ0 ) fX (X; θ0 ) D EMOSTRACION : Como log() es una función estrictamente cóncava, la desigualdad es consecuencia directa de la de Jensen. La nulidad del lado derecho es también fácil de establecer. En efecto,   Z fX (x; θ∗ ) fX (X; θ∗ ) dx = log fX (x; θ0 ) log Eθ0 fX (X; θ0 ) fX (x; θ0 ) Z = log fX (x; θ∗ )dx = log(1) = 0;

si la distribución fuera discreta, las integrales se convertirían en sumatorios.

c.s.

Teorema 6.1 En las condiciones bajo las que se verifica el Lema anterior, θˆMV −→ θ0 . D EMOSTRACION : Como

  fX (X; θ∗ ) Eθ0 log =c<0 fX (X; θ0 ) según el Lema anterior, en virtud de la ley fuerte de grandes números (A.3) tenemos que para todo θ∗ 6= θ0 ,  n  1X fX (Xi ; θ∗ ) c.s. −→ c < 0 log n fX (Xi ; θ0 ) i=1 ( )   n X fX (Xi ; θ∗ ) 1 log Prob l´ım <0 = 1 n→∞ n fX (Xi ; θ0 ) i=1 ( ) n n 1X 1X Prob l´ım log fX (Xi ; θ∗ ) < l´ım log fX (Xi ; θ0 ) = 1 n→∞ n n→∞ n i=1

i=1

CAPÍTULO 6. MÁXIMA VEROSIMILITUD

78

Sin embargo, de acuerdo con la definición de θˆMV , ha de suceder: n

1X log fX (Xi , θˆMV,n ) ≥ n→∞ n l´ım

i=1

n

1X log fX (Xi ; θ0 ) n→∞ n l´ım

i=1

c.s. Las dos desigualdades anteriores sólo pueden reconciliarse si θˆMV,n −→ θ0 , lo que prueba la consistencia fuerte del estimador MV.

6.4. Información de Kullback-Leibler y estimación máximo verosímil Hay una relación interesante entre la estimación máximo verosímil y la información de Kullback-Leibler. La ilustraremos mediante un caso muy simple. Supongamos que Θ = {θ0 , θ1 }, y que la variable aleatoria X se distribuye según FX (x; θi ), i = 0 ó 1. Llamamos información en una observación X para discriminar entre θ0 y θ1 a:   fX (X; θ1 ) − log (6.4) fX (X; θ0 ) Observemos que si X = x tuviera exactamente la misma densidad bajo θ0 que bajo θ1 , la observación en cuestión carecería de información a efectos de discriminar entre ambos estados de la naturaleza, y (6.4) sería cero. El caso opuesto se presenta cuando la densidad bajo un estado y otro es muy diferente: en este caso, la observación podría considerarse como muy informativa acerca del estado de la naturaleza, y (6.4) sería grande en valor absoluto. Una medida razonable de la “separación” entre FX (x; θ0 ) y FX (x; θ1 ) podría ser la información media que proporciona una observación:   Z fX (x; θ1 ) dx (6.5) d(θ0 , θ1 ) = − fX (x; θ0 ) log fX (x; θ0 ) o, en el caso de variables discretas: d(θ0 , θ1 ) = −

X

PX (x, θ0 ) log



PX (x, θ1 ) PX (x, θ0 )



(6.6)

Llamamos a (6.5)-(6.6) información de Kullback-Leibler para la discriminación entre θ0 y θ1 contenida en una observación. De nuevo, obsérvese que se trata de una definición intuitivamente plausible. En particular, si fX (x; θ0 ) = fX (x; θ1 ) para todo valor x tendríamos que d(θ0 , θ1 ) = 0, y sería imposible discriminar.

6.5. EFICIENCIA Y EFICIENCIA ASINTÓTICA

79

Observación 6.4 La información de Kullback-Leibler esta relacionada con la de Fisher, que puede verse como una aproximación de segundo orden: véase la Observación 5.2, pág. 62. Observación 6.5 La expresión (6.5) toma valor no negativo (mismo argumento que el empleado en el Lema 6.1) y puede verse por ello como una medida de separación o distancia. No es sin embargo simétrica en sus argumentos, a diferencia de una distancia. Es interesante ver el problema de estimación máximo verosímil como un problema de selección de una distribución en una familia paramétrica, {FX (x; θ), θ ∈ Θ}. Razonemos sobre el caso en que X es una variable aleatoria discreta. La muestra (x1 , . . . , xn ) puede verse como generando una distribución empírica FX∗ (x), que atribuye probabilidad 1/n a cada uno de los valores muestrales observados (ó k/n a aquéllos que se han repetido k veces). Es decir, FX∗ (x) =

(Total observaciones ≤ x) . n

De aquí podemos obtener PX∗ (x) = FX∗ (x) − FX∗ (x− ). Podríamos pensar en estimar θ seleccionando en la clase paramétrica {FX (x; θ), θ ∈ Θ} aquella distribución que minimiza la distancia de Kullback-Leibler a la distribución empírica observada, es decir, que minimiza: −

n X i=1

PX∗ (xi ) log

PX (xi ; θ) PX∗ (xi )

=

n X

PX∗ (xi ) log

i=1

PX∗ (xi ) PX (xi ; θ)

n X 1/n 1 log = n PX (xi ; θ) i=1

=

n

n

i=1

i=1

1X 1 1X log − log PX (xi ; θ) n n n

Como el primer sumando del lado derechoPes constante, la minimización de la expresión anterior llevaría a hacer máximo ni=1 log PX (xi ; θ) lo que da lugar al estimador máximo verosímil de θ.

6.5. Eficiencia y eficiencia asintótica Vimos (Teorema 5.1, pág. 64) que un estimador θˆn insesgado de θ basado en una muestra aleatoria simple formada por n observaciones tenía su varianza acotada inferiormente: Varθ (θˆn ) ≥

1 nIX (θ)

(6.7)

CAPÍTULO 6. MÁXIMA VEROSIMILITUD

80

y decíamos que θˆn es eficiente (Definición 5.2, pág. 68) si la relación anterior se verifica con igualdad. Es claro que un estimador eficiente no puede ser mejorado (en términos de varianza) por ningún otro en la clase de los insesgados regulares, pues el que lo hiciera violaría (6.7). Consideremos una sucesión estimadora {θˆn } cada uno de cuyos términos estima insesgadamente θ, y supongamos que se dan las condiciones de regularidad √ necesarias. Entonces, (6.7) se verifica para cada θˆn , n = 1, 2, . . ., y Varθ ( nθˆn ) √ ˆ (ó, equivalentemente, Varθ ( n[θn − θ]) = nVarθ (θˆn )) ha de ser mayor o igual que 1/IX (θ). Cabría esperar que si √

L

n[θˆn − θ]−→ N (0, v(θ)),

L

en que −→ designa convergencia en distribución (Definición A.1, p. 144), la varianza de la distribución asintótica verificase: v(θ) ≥

1 IX (θ)

(6.8)

Este no es el caso. La aparente paradoja se desvanece cuando observamos que la varianza asintótica (= varianza de la distribución asintótica) no necesariamente tiene mucho que ver con el límite de la sucesión de varianzas. El siguiente ejemplo lo ilustra. Ejemplo 6.3 Sea {Yn } una sucesión de variables aleatorias independientes e idénticamente distribuidas como N (0, 1), y {Xn } una sucesión de variables aleatorias definidas así:  Yn con probabilidad 1 − n1 , Xn = n con probabilidad n1 L

Entonces, es evidente que Xn −→ X, siendo X una variable N (0, 1), la media asintótica es 0 y la varianza asintótica 1. Sin embargo:   1 1 +n· =1 E[Xn ] = 0 · 1 − n n     1 1 2 2 21 2 Var(Xn ) = E[Xn ] − (E[Xn ]) = 1 − ·1+n −1 = n− n n n Mientras que la media y varianza de la distribución asintótica son respectivamente 0 y 1, los límites de la sucesión de medias y varianzas son: l´ım E[Xn ] =

n→∞

l´ım Var(Xn ) =

n→∞

1 ∞

En general, se verifica (véase Lehmann (1983), pág. 405) que la varianza asintótica es menor o igual que el límite inferior de la sucesión de varianzas.

6.6. NORMALIDAD Y EFICIENCIA ASINTÓTICA DEL ESTIMADOR MÁXIMO VEROSÍMIL.81 El ejemplo anterior muestra que límite de la sucesión de varianzas y varianza asintótica no tienen por qué coincidir. Una sucesión estimadora todos cuyos términos alcanzan la correspondiente cota de Cramér-Rao, podría dar lugar a una varianza asintótica menor que la que se deduciría de dicha cota. De nuevo un ejemplo aclara la situación. Ejemplo 6.4 Sea X1 , . . . , Xn una muestra formada por observaciones N (θ, 1), y consideremos el siguiente estimador de θ:  X si |X| ≥ n−1/4 , ˆ (6.9) θn = bX si |X| < n−1/4 . Entonces encontramos la siguiente situación: θˆn se distribuye asintóticamente como N (θ, σ 2 = n1 ), salvo si θ = 0. En este último caso, la distribución asintótica es N (0, b2 /n), lo que mejora la varianza de X si b2 < 1. ¡Tenemos un estimador de θ tan bueno como X —que sabemos insesgado de mínima varianza, y alcanzando la cota de Cramér-Rao— pero asintóticamente mejor para √ ˆalgunos valores del parámetro! En este caso, para θ = 0. En efecto: n[θn − 0] converge en distribución a una variable aleatoria Z tal que: Var(Z) = b2 < 1 =

1 I(θ)

El punto θ = 0 en que el estimador considerado ve su varianza asintótica decrecer por debajo de 1/I(θ) se dice que es de supereficiencia. Este ejemplo se debe a J. Hodges (ver Romano y Siegel (1986), pág. 229).

La existencia de puntos de supereficiencia, en que la varianza asintótica de un estimador regular puede descender por debajo de la cota de Cramer-Rao, es un fenómeno sin mayor interés práctico. En realidad, (6.8) casi es cierta, en el sentido de que el conjunto de puntos θ para los cuales no se verifica es de medida de Lebesgue cero. Por otra parte, el comportamiento supereficiente para algunos θ va siempre asociado a un comportamiento no eficiente en la vecindad de los mismos (ver Lehmann (1983), p. 408).

6.6. Normalidad y eficiencia asintótica del estimador máximo verosímil. En condiciones bastante generales, el estimador MV no sólo es fuertemente consistente, sino que su distribución asintótica es normal. El siguiente resultado, cuya demostración meramente bosquejamos, muestra las condiciones necesarias para ello. Teorema 6.2 Sean (X1 , . . . , Xn ) independientes e idénticamente distribuidas, con densidad común fX (x; θ). Supongamos que se verifican las siguientes condiciones de regularidad:

CAPÍTULO 6. MÁXIMA VEROSIMILITUD

82

1. El espacio paramétrico Θ es un intervalo abierto —no necesariamente finito— . 2. Las funciones de densidad fX (x; θ) tienen soporte común, que no depende de θ. 3. Las funciones de densidad fX (x; θ) son tres veces diferenciables respecto a θ para cada x, y las derivadas son continuas en Θ. R 4. La integral fX (x; θ)dx puede ser diferenciada dos veces bajo el símbolo integral. 5. La información de Fisher verifica 0 < I(θ) < ∞. 6. La tercera derivada de log fX (x; θ) respecto a θ está acotada superiormente por una función M (x) tal que Eθ0 [M (x)] < ∞. Entonces, cualquier sucesión consistente θˆn de soluciones de la ecuación de verosimilitud (y el estimador máximo verosímil proporciona una) satisface: √

L

n(θˆn − θ0 ) → N (0, I(θ0 )−1 )

(6.10)

D EMOSTRACION : Designemos, para aligerar la notación, Uj (θ) = Desarrollando

Pn

n X

ˆ

j=1 Uj (θMV ,n )

Uj (θˆMV ,n ) =

∂ log fX (Xj , θ) ∂θ

en torno a θ0 , obtenemos: n X

Uj (θ0 ) +

+

1 2

n X j=1

j=1

j=1

(6.11)

n X j=1

Uj′ (θ0 )(θˆMV ,n − θ0 )

˜ θˆMV ,n − θ0 )2 Uj′′ (θ)(

(6.12)

en que θ˜ es un punto intermedio entre θˆMV,n y θ0 , es decir, |θ˜ − θ0 | < |θˆMV,n − θ0 |. Pero θˆMV,n , bajo condiciones de regularidad, anula el lado izquierdo de (6.12). Por tanto, tenemos que: n X j=1

Uj (θ0 ) = −

n X j=1

n

1 X ′′ ˜ ˆ Uj (θ)(θMV ,n − θ0 )2 Uj′ (θ0 )(θˆMV ,n − θ0 ) − 2 j=1

Sabemos (Lema 5.1, pág. 60) que Eθ0 [Uj (θ0 )] = 0. Por otra parte, Eθ0 [−Uj′ (θ0 )] = Eθ0 [Uj (θ0 )]2 = I(θ0 )

(6.13)

6.6. NORMALIDAD Y EFICIENCIA ASINTÓTICA DEL ESTIMADOR MÁXIMO VEROSÍMIL.83 (Lema 5.2, pág. 61 y definición inmediatamente posterior). Dividiendo (6.13) entre p nI(θ0 ) tenemos la igualdad: " Pn Pn p U (θ ) − j=1 Uj′ (θ0 ) j 0 j=1 p nI(θ0 )(θˆMV ,n − θ0 ) = nI(θ0 ) nI(θ0 ) # Pn ′′ ˜ 1 j=1 Uj (θ) ˆ (θMV,n − θ0 ) (6.14) − 2 nI(θ0 ) Los Lemas invocados y el teorema central del límite muestran que el lado izquierdo de (6.14) converge en distribución a una N (0, 1), y el primer término del corchete converge en probabilidad a 1 (ley débil de los grandes números, Teorema A.2). p ˜ tiene valor medio finito (condición 6 del enunciado) y θˆMV,n →θ Como Uj′′ (θ) 0 , el segundo término del corchete converge en probabilidad a cero. En consecuencia, reescribiendo (6.14) así: " P Pn p Uj (θ0 ) − nj=1 Uj′ (θ0 ) j=1 p nI(θ0 )(θˆMV ,n − θ0 ) = nI(θ0 ) nI(θ0 ) #−1 Pn ′′ ˜ 1 j=1 Uj (θ) (θˆMV ,n − θ0 ) − 2 nI(θ0 ) p vemos que nI(θ0 )(θˆMV,n − θ0 ) es el producto de una sucesión aleatoria que converge en probabilidad a 1 y una sucesión aleatoria que converge en distribución a una N (0, 1). El Teorema A.1 permite entonces asegurar p L nI(θ0 )(θˆMV ,n − θ0 ) → N (0, 1)

que equivale a (6.10) en el enunciado del teorema.

Observación 6.6 Si g(.) es función 1-1 de θ se ha mencionado ya que el estimador máximo verosímil de g(θ) es g(θˆMV ). Supongamos además que para el verdadero valor del parámetro, θ0 , se verifica que g ′ (θ0 ) 6= 0. Entonces el teorema anterior admite la siguiente generalización: √ L n(g(θˆMV − g(θ0 )) → N (0, I(θ0 )−1 [g ′ (θ0 )]2 ). La demostración es muy simple y se bosqueja a continuación. Desarrollando en serie g(θˆMV ) hasta términos de primer orden, g(θˆMV ) = g(θ0 ) + (θˆMV − θ0 ) [g ′ (θ0 ) + Rn ] , p p en que Rn es el término complementario. Pero Rn →0 cuando θˆMV →θ0 . Por consiguiente, siempre en uso del Teorema A.1, tenemos: √ √ L n(g(θˆMV ) − g(θ0 )) → g ′ (θ0 ) n(θˆMV − θ0 )

CAPÍTULO 6. MÁXIMA VEROSIMILITUD

84 y por tanto

√ L n(g(θˆMV ) − g(θ0 )) → g ′ (θ0 )N (0, I(θ0 )−1 ) equivalente a la tesis.

6.7. Estimación máximo verosímil: inconvenientes El desarrollo anterior muestra la estimación máximo verosímil desde una perspectiva muy favorable. No sólo es consistente —cualidad compartida con muchos otros tipos de estimadores, y ciertamente con cualquiera que estemos dispuestos a considerar—, sino también asintóticamente eficiente. Su distribución asintótica es normal sea cual fuere la de la población muestreada. Estas propiedades se verifican de modo bastante general, como los enunciados de los teoremas anteriores dejan traslucir. Es importante ver, sin embargo, que se trata de propiedades que operan en grandes muestras. En pequeñas muestras, el comportamiento del estimador máximo verosímil puede ser bastante pobre. En ocasiones, la obtención del estimador máximo verosímil puede ser computacionalmente infactible. En otras, puede sencillamente no existir un máximo de la función de verosimilitud. Los ejemplos y observaciones que siguen tienen por objeto mostrar tales problemas en algunas situaciones. Ilustran algunos de los inconvenientes con que se puede tropezar al emplear estimadores máximo verosímiles. Ejemplo 6.5 (un estimador máximo verosímil de inviable utilización práctica) Consideremos una variable aleatoria X con distribución de Cauchy y parámetro de localización θ. La verosimilitud asociada a una muestra de tamaño n es: n Y 1 1 fX (x; θ) = π 1 + (xi − θ)2 i=1 Tomando logaritmos, derivando, e igualando la derivada a cero, tenemos: ∂ log fX (x; θ) ∂θ

=



=

2

=

0

n X 2(xi − θ)(−1)

(6.15) 1 + (xi − θ)2  Q  − θ) j6=i 1 + (xj − θ)2 Qn (6.16) 2 j=1 [1 + (xj − θ) ]

i=1 Pn i=1 (xi

(6.17)

El estimador máximo verosímil θˆMV,n ha de hacer que la igualdad anterior se verifique. Obsérvese que el numerador —que ha de anularse— es un polinomio de grado 2n − 1. La búsqueda de todas sus raíces para seleccionar entre ellas θˆMV ,n es infactible a poco grande que sea n.

En ocasiones, el estimador máximo verosímil no existe, porque la verosimilitud no está acotada. Un caso trivial sería el de una variable aleatoria X ∼ N (µ, σ 2 ),

6.7. ESTIMACIÓN MÁXIMO VEROSÍMIL: INCONVENIENTES

85

de la que tenemos una única observación. Si quisiéramos estimadores máximo verosímiles de µ y σ 2 , habríamos de maximizar: (x − µ)2 1 log fX (x; µ, σ 2 ) = − log(2πσ 2 ) − 2 2σ 2 Esta función no está acotada: tiende a ∞ cuando σ 2 → 0. El caso anterior es irrelevante a efectos prácticos, dado que nunca nos propondríamos estimar los dos parámetros de una distribución normal con una sóla observación. Sin embargo, el siguiente ejemplo muestra que situaciones similares son plausibles en la práctica. Ejemplo 6.6 (función de verosimilitud no acotada) Supongamos una situación en que la variable aleatoria aleatoria X sigue habitualmente una distribución N (µ, 1). Sin embargo, con probabilidad p, X puede proceder de una distribución N (µ, σ 2 ), con varianza desconocida. La descripción anterior podría convenir, por ejemplo, a un fenómeno en que la variable X está sujeta esporádicamente a cambios de régimen, dando lugar a outliers, u observaciones anómalas. La función de verosimilitud sería:      n Y (xi − µ)2 (xi − µ)2 1 p √ exp − + (1 − p) exp − fX (x; µ, σ 2 ) = 2σ 2 2 2π σ i=1 Observemos que dicho producto involucra términos que no están acotados. En efecto, consideremos un término tal como    n  p (xj − µ)2 (xi − µ)2 Y (1 − p) exp − ; exp − σ 2σ 2 2 j=1 j6=i

es fácil ver que para µ = xi la expresión anterior crece sin límite cuando σ → 0. Por tanto, incluso aunque tengamos muchas observaciones y la probabilidad p sea muy pequeña, el problema de inexistencia de un máximo global para la función de verosimilitud puede presentarse. Véase Cox y Hinkley (1974), pág. 291.

En ocasiones, el estimador máximo verosímil existe, pero con pequeñas muestras puede ser de muy pobres resultados. El siguiente ejemplo, algo artificial si se quiere, lo muestra de un modo bastante espectacular. Ejemplo 6.7 (un estimador máximo verosímil inadmisible) Consideremos una variable aleatoria X binaria de parámetro θ. Sabemos que θ ∈ ( 13 , 32 ), y hemos de estimar dicho parámetro con ayuda de una única observación. La verosimilitud tendría por expresión: fX (x, θ) = θx (1 − θ)(1−x)

(x = 0, 1)

Con θ constreñida a estar en el intervalo indicado anteriormente, el estimador máximo verosímil es:  1 si x = 0, 3 θˆMV,n = 2 si x = 1 3

CAPÍTULO 6. MÁXIMA VEROSIMILITUD

86

y su error cuadrático medio resulta ser:  2 2  1 3θ2 − 3θ + 1 2 2 ˆ − θ + (1 − θ) −θ = (6.18) E[θMV ,n − θ] = θ 3 3 9 Consideremos ahora un estimador que ignora el valor tomado por X y atribuye siempre a θ el valor 21 . Su error cuadrático medio sería: 

1 E −θ 2

2

= θ



1 −θ 2

2

+ (1 − θ)



1 −θ 2

2

=

4θ2 − 4θ + 1 (6.19) 4

Efectuando la diferencia (6.18)-(6.19) vemos que es −24θ2 + 24θ − 5 . 36 Examinando esta función se comprueba que en el intervalo ( 13 , 23 ) es siempre positiva; el estimador máximo verosímil resulta dominado incluso por uno que, como el propuesto, lejos de hacer uso óptimo de la información muestral, no hace ningún uso.

El valor de θ que maximiza la verosimilitud no tiene porqué ser único. Ejemplo 6.8 Consideremos una distribución uniforme U (θ− 12 , θ+ 12 ),

de la que tomamos una muestra X1 , . . . , Xn . Es fácil ver que cualquier valor θ ∈ [X(n) − 1, X(1) + 1] da lugar al mismo valor de la verosimilitud (= 1), y por tanto es igualmente válido como estimador máximo verosímil. Menos simple, pero más frecuente en la práctica, es el caso de múltiples máximos locales y/o globales en la función de verosimilitud. Véase el Ejercicio 6.1.

El estimador máximo verosímil es frecuentemente sesgado en pequeñas muestras, aunque asintóticamente insesgado bajo las condiciones de regularidad que otorgan vigencia al Teorema 6.2. Ejemplo 6.9 Consideremos el problema de estimar θ en una distribución uniforme, U (0, θ), con ayuda de una muestra de tamaño n. El estadístico suficiente y estimador máximo verosímil de θ es X(n) , mayor de las observaciones (véase el Ejemplo 3.7, pág. 3.7). Es evidente que X(n) ≤ θ y como estimador de θ es por tanto sesgado por defecto. De nuevo este es un ejemplo algo académico; pero en la práctica pueden encontrarse multitud de otros. Así, el estimadorP máximo verosímil de la van rianza en una distribución normal es s2 = n−1 i=1 (xi − x)2 . Como en el caso anterior, el sesgo tiende a cero cuando n → ∞. Quizá la objeción más seria que puede plantearse al uso del estimador máximo verosímil es que obliga a especificar, salvo en los parámetros que se estiman, la forma de las distribuciones: es un requisito previo el fijar la familia de distribuciones que estamos dispuestos a considerar. Esto puede originar estimadores con propiedades no imaginadas. Por ejemplo, el suponer que la distribución originando X es N (θ, 1) nos llevaría a adoptar X como estimador de θ. Si la distribución

6.7. ESTIMACIÓN MÁXIMO VEROSÍMIL: INCONVENIENTES

87

fuera de Cauchy, C(θ), tal estimador tendría desastrosas propiedades —de hecho, no tendría varianza finita, cualquiera que fuera el tamaño muestral—. Si la ausencia de robustez frente al incumplimiento de los supuestos distribucionales, la complejidad de cómputo, y el comportamiento, a veces, pobre en pequeñas muestras son inconvenientes, es preciso señalar que el estimador MV tiene todavía mucho en su haber1 . Requiere no obstante cuidado el hacer uso inteligente de él.

CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER 6.1 Examínese la función de verosimilitud de una distribución de Cauchy C(θ) (se introdujo en el Ejemplo 6.5, pág. 84) y demuéstrese que tiene en general múltiples máximos relativos. 6.2 Sean X1 , . . . , Xn v.a. independientes con distribución binaria de parámetro θ. Se comprobó (Ejemplo 3.8, pág. 36) que no existe estimador insesgado de γ(θ) = θ(1 − θ). ¿Hay estimador máximo verosímil de γ(θ)? ¿Es único? 6.3 Si θˆMV es el estimador máximo verosímil de θ y δ = δ(θ) es una función 1-1 de θ, entonces δˆMV = δ(θˆMV ). Demuéstrese. Si δ(θ) es una función, por ejemplo, convexa, y θˆMV es insesgado ¿qué podemos decir del sesgo de δˆMV ? (Ayuda: hágase uso de la desigualdad de Jensen (Teorema 4.2, pág. 49).)

1 Una vehemente opinión contraria al uso de máxima verosimilitud, enérgicamente contestada, puede verse en Berkson (1980). Es también interesante Rao (1962).

88

CAPÍTULO 6. MÁXIMA VEROSIMILITUD

Capítulo 7

Estimación máximo verosímil en la práctica.

7.1. Introducción. Como el Ejemplo 6.5 ponía de manifiesto, la obtención del estimador máximo verosímil puede no ser fácil. Incluso en el caso en que se tiene la certeza de que la verosimilitud tiene un único máximo relativo y es bien comportada, la solución analítica de la ecuación de verosimilitud ′

L (θ) =

n X

Uj (θ) = 0

j=1

puede ser inabordable. Se hace preciso acudir a métodos numéricos aproximados en muchas ocasiones. La Sección 7.2 muestra que en la familia exponencial es posible en ocasiones obtener soluciones de las ecuaciones de verosimilitud de modo simple, igualando los valores muestrales de los estadísticos suficientes a sus valores medios. La Sección 7.3 presenta la aplicación del método general de Newton-Raphson a la resolución de la ecuación de verosimilitud. La Sección 7.4 presenta el método conocido como de scoring, estrechamente relacionado con el anterior. La Sección 7.5 describe con algún detalle el algoritmo EM, muy utilizado para maximizar verosimilitudes, que presenta la interesante ventaja de permitir trabajar de modo simple con verosimilitudes de datos incompletos. 89

90 CAPÍTULO 7. ESTIMACIÓN MÁXIMO VEROSÍMIL EN LA PRÁCTICA.

7.2. Estimación máximo verosímil en la familia exponencial. Consideremos el logarítmo de la verosimilitud en forma canónica de una distribución en la familia exponencial. Sin pérdida de generalidad, la escríbiremos en términos de sus parámetros naturales:   n k X X  (7.1) L(θ, x) = θj bj (xi ) + c(θ) + d(xi ) i=1

j=1

Como vimos en la Sección 3.5, el vector (T1 , . . . , Tk ) =

n X

b1 (x1 ), . . . ,

n X

bk (x1

i=1

i=1

!

proporciona de inmediato los estadísticos mínimos suficientes para el vector θ. Derivando el logaritmo de la verosimilitud respecto de θ1 , . . . , θk e igualando a cero para obtener puntos estacionarios de la función de verosimilitud tenemos: ∂L(θ, x) ∂θj

= Tj +

∂nc(θ) =0 ∂θj

(7.2)

Las ecuaciones anteriores podrían proporcionar, si son de fácil solución, valores de θˆ1 , . . . , θˆk , funciones de los estadísticos suficientes, candidatos a ser estimadores máximo verosímiles. Si recordamos (Lema 5.1) que   ∂L(θ, x) Eθ =0 ∂θj obtenemos de (7.2) que:   ∂L(θ, x) ∂nc(θ) =0 = Eθ [Tj ] + Eθ ∂θj ∂θj

(7.3)

De (7.2)-(7.3) obtenemos entonces que ha de verificarse: Tj − Eθ [Tj ] = 0 para j = 1, . . . , k. La regla es pues simple: basta igualar los estadísticos suficientes a sus valores medios (funciones éstos últimos de θ) para obtener soluciones de las ecuaciones de verosimilitud. El ejemplo que sigue lo ilustra. Ejemplo 7.1 Consideremos el caso de una normal multivariante N (µ, Σ). Se desean los estimadores máximo verosímiles de θ = (µ, Σ). La verosimilitud de una mestra de tamaño n viene dada, por:   n  Y 1 1 |Σ|− 2 exp − (xi − µ)′ Σ−1 (xi − µ) 2 i=1

7.3. MÉTODO DE NEWTON-RAPHSON.

91

Si tomamos logaritmo nepariano de la expresión anterior y reordenamos sus términos podemos llegar a: !) ! ( n n X X 1 n n ′ −1 xi − traza Σ−1 xi xi ′ L(θ) = − log |Σ|− µ Σ µ+µ′ Σ−1 2 2 2 i=1 i=1 La expresión anterior exhibe conjuntamente suficientes para Pn Pn los estadísticos θ = (µ, Σ): (T1 , T2 ) = ( i=1 xi , i=1 xi xi ′ ) Igualando dichos estadísticos suficientes a sus valores medios, obtenemos: Eθ [T1 ] =

nµ =

n X

xi

(7.4)

i=1

Eθ [T2 ] =

nΣ + nµµ′ =

n X

xi xi ′ ;

(7.5)

i=1

Pn la primera ecuación inmediatamente proporciona µ ˆ MV = n−1 i=1 xi = P ˆ = n−1 n xi xi ′ −µ ˆ MV µ ˆ MV ′ . x, que sustituido en la segunda proporciona Σ i=1

7.3. Método de Newton-Raphson. 7.3.1. Descripción Sea θˆ una raíz de la ecuación de verosimilitud y θˆ(1) una solución inicial aproximada. Desarrollando en serie de potencias en torno a θˆ(1) hasta términos de segundo orden, obtenemos: ˆ = 0 ≃ L′ (θˆ(1) ) + L′′ (θˆ(1) )(θˆ − θˆ(1) ) L′ (θ)

(7.6)

de donde: θˆ

θˆ(1) −



L′ (θˆ(1) ) L′′ (θˆ(1) )

(7.7)

A partir de una aproximación inicial θˆ(1) la relación anterior proporciona otra. Nada impide emplear esta última como nueva aproximación inicial y repetir el proceso cuantas veces haga falta hasta convergencia, si se produce. Es decir, dada la aproximación θˆ(n) obtendremos la siguiente, θˆ(n+1) , así: θˆ(n+1)

=

θˆ(n) −

L′ (θˆ(n) ) L′′ (θˆ(n) )

(7.8)

deteniendo la iteración cuando θˆ(n+1) y θˆ(n) difieran entre sí en menos de una tolerancia preespecificada. Es interesante señalar que una sola iteración empleando (7.8) basta para producir un estimador consistente y asintóticamente eficiente, siempre que el punto de partida θˆ(1) sea consistente “a la suficiente velocidad”. El siguiente teorema hace precisa la anterior afirmación.

92 CAPÍTULO 7. ESTIMACIÓN MÁXIMO VEROSÍMIL EN LA PRÁCTICA. Teorema 7.1 Supongamos que se verifican las condiciones en el Teorema 6.2, y que θ˜n es un estimador que converge en probabilidad a θ de tal forma1 que (θ˜n − 1 θ) = Op (n− 2 ). Entonces, L′ (θ˜n ) θˆn = θ˜n − L′′ (θ˜n )

(7.9)

es asintóticamente eficiente y normal. La demostración puede encontrarse en Lehmann (1983), pág. 422.

La discusión precedente se generaliza fácilmente al caso en que hay un vector de parámetros a estimar, sin más que reemplazar en (7.6) θˆ por un vector de estimadores y L′ (θ) y L′′ (θ) por el vector gradiente ∇L(θ) y la matriz de segundas derivadas ∇2 L(θ). La iteración toma entonces la forma:  −1 θˆn+1 = θˆn − ∇2 L(θˆn ) ∇L(θˆn )

(7.10)

7.3.2. Propiedades Con el método de Newton-Raphson la convergencia no está garantizada. No obstante, si la verosimilitud es bien comportada, es un método eficaz y conduce en un número habitualmente pequeño de iteraciones a una raíz de la ecuación L′ (θ) = 0. Definición 7.1 Sea una ecuación g(x) = 0 cuya solución x∗ buscamos. Sea xn la aproximación obtenida mediante un método iterativo en la iteración n-ésima y en = xn − x∗ el error de aproximación. Se dice que un método de solución de es de convergencia cuadrática cuando en ∝ (en−1 )2 . Convergencia cuadrática. El método de Newton-Raphson para aproximar una raíz de g(x) = 0, cuando converge, goza de convergencia cuadrática. En efecto, supongamos una aproximación xn lo suficientemente cercana a x∗ . Consideremos f (x) = x − g(x)/g′ (x). Entonces, en = xn − x∗ = xn − f (x∗ ) = f (xn−1 ) − f (x∗ )

(7.11) (7.12)

Si desarrollamos f (xn−1 ) en torno al punto x∗ , de la igualdad anterior deducimos: 1 en = f (x∗ ) + f ′ (x∗ )(xn−1 − x∗ ) + f ′′ (z)(xn−1 − x∗ )2 − f (x∗ )(7.13) 2 1

Véase en el Apéndice A.4 el significado de la notación Op ().

7.3. MÉTODO DE NEWTON-RAPHSON.

93

siendo z un punto entre xn−1 y x∗ . Como f ′ (x∗ ) = 1 − tenemos en =

(g′ (x∗ ))2 g(x∗ )g′′ (x∗ ) + = 0, (g′ (x∗ ))2 (g′ (x∗ ))2

(7.14)

1 ′′ f (z)(xn−1 − x∗ )2 , 2

lo que muestra que la iteración de Newton converge —cuando lo hace— cuadráticamente. No monotonía. Naturalmente, nada garantiza que no podamos alcanzar una solución que sea máximo relativo de la verosimilitud en lugar de máximo global2 . De hecho, la iteración anterior puede dar lugar a verosimilitudes decrecientes: el aproximarnos a una raíz de L′ (θ) no garantiza que dicha raíz corresponda a un máximo relativo de L(θ). Es posible modificar el algoritmo de Newton-Raphson de modo que la verosimilitud crezca monótonamente (lo que garantiza al menos que la convergencia es hacia un máximo relativo). En efecto, en (7.10) el “paso” de θn a θn−1 es ∆θ = (−∇2 L(θˆn ))−1 ∇L(θˆn ) = A∇L(θˆn ), con A = (−∇2 L(θˆn ))−1 Desarrollando en serie en torno al punto θˆn : ˆ − L(θˆn ) = α[∇L(θˆn )]′ A[∇L(θˆn )] + o(α) L(θˆn + α∆θ)

(7.15)

Para α lo suficientemente pequeño, el signo del lado derecho viene dado por el del primer sumando. Si A es simétrica definida positiva, entonces el signo es positivo ˆ se incrementa al pasar de θˆn a y L(θ) θˆn+1 = θˆn + α∆θˆn . Si con A definida como se ha indicado la forma cuadrática en la derecha de (7.15) no fuera definida positiva, podríamos definir: ∆θ = A∇L(θˆn ) con cualquier A simétrica definida positiva, y el argumento anterior proporcionaría un algoritmo monónotamente creciente en L(θ). Hay muchas posibles elecciones: con A igual a la matriz unidad, tenemos un algoritmo gradiente convencional. Si hacemos h i A = E −∇2 L(θˆn ) tenemos el algoritmo de scoring descrito en la sección que sigue. Otras elecciones y variantes son posibles: puede verse una discusión más completa en Lange (1998). 2

La distribución de Cauchy, tan fecunda suministradora de contraejemplos, ilustra una vez más esta situación. La verosimilitud de su parámetro de ubicación tiene con gran frecuencia varios extremos relativos, si la muestra es grande.

94 CAPÍTULO 7. ESTIMACIÓN MÁXIMO VEROSÍMIL EN LA PRÁCTICA.

7.4. Método scoring de Fisher. El algoritmo de scoring procede de forma enteramente análoga al de NewtonRaphson. Su rasgo distintivo consiste en sustituir −∇2 L(θ) por −E [(∇L(θ)∇L(θ)′ ]. Obsérvese que esta última matriz es, bajo las habituales condiciones de regularidad, definida positiva. A menudo su expresión es también relativamente simple, lo que hace fácil su cálculo en cada iteración. Por contra, el método de scoring puede ser acusadamente más lento que el de Newton-Raphson.

7.5. El algoritmo EM. Aunque utilizable con completa generalidad, el algoritmo EM es preferentemente utilizado en el caso en que hay datos faltantes. La referencia seminal es Dempster et al. (1976), aunque en forma menos general las ideas subyacentes parecen haber existido antes. La descripción a continuación hace uso también de Laird (1993) y Navidi (1997). Una monografía reciente con muchas referencias es G.J.McLachlan y Krishnan (1997).

7.5.1. Notación Consideraremos, por simplicidad notacional, el caso de un único parámetro θ; el caso multivariante no añade nada esencial. Denotaremos por fX (x; θ) la verosimilitud de la muestra completa, si fuera observada: x es un vector o una matriz, no todas cuyas componentes son observadas. Observamos sólo y, y hay una relación x = X (y) que a cada y hace corresponder muchos posibles x (dicho de otro modo: la sóla observación de y no permite obtener de manera unívoca x). Como parte de x es no observada, tendrá sentido escribir valores medios como   def Q(θ|θ ′ ) = E log fX (x; θ)|θ ′ , y (7.16) Z log fX (x; θ)fX|Y (x|y; θ ′ )dx (7.17) = X (y)



def

H(θ|θ ) = =

  E log fX|Y (x|y; θ)|θ ′ , y Z log fX|Y (x|y; θ)fX|Y (x|y; θ ′ )dx

(7.18) (7.19)

X (y)

Denominemos, def

L(θ) =

log fY (y; θ).

(7.20)

Como log fX|Y (x|y; θ) = log fX (x; θ) − log fY (y; θ),

(7.21)

multiplicando cada término de (7.21) por fX|Y (x|y; θ ′ ) e integrando, obtenemos: Q(θ|θ ′ ) = L(θ) + H(θ|θ ′ ).

(7.22)

7.5. EL ALGORITMO EM.

95

Estamos interesados en maximizar L(θ), la verosimilitud calculada con la parte de muestra y que realmente observamos.

7.5.2. La iteración EM Si observáramos todo x, el problema de estimación máximo verosímil de θ se reduciría a maximizar una función. Como parte de x es inobservable, no podemos acometer directamente la maximización de log fX (x; θ). Una posibilidad sería sustituir la función desconocida por su valor esperado dada la parte de muestra que sí conocemos y bajo el supuesto de que θ = θ ′ ; es decir, reemplazar log fX (x; θ) por Q(θ|θ ′ ) y maximizar esta última. 3 Observemos que para tomar el valor medio necesitamos el valor del parámetro (y si lo conociéramos, el problema de estimación máximo verosímil ya no tendría objeto). Una posibilidad sería; 1. (Paso E) Calcular Q(θ|θ ′ ) para un valor θ ′ , la mejor aproximación de θ que tengamos. 2. (Paso M) Maximizar Q(θ|θ ′ ) respecto de θ. 3. Iterar los pasos anteriores hasta convergencia, si se produce. La idea es que al ejecutar por primera vez el paso E (de valor Esperado, porque en dicho paso tomamos un valor medio) obtendremos una función no muy similar a la que querríamos maximizar. Por ello, el paso M (de Maximizar) no dará el máximo de la función que realmente desearíamos maximizar, sino el de una diferente. Pero este máximo suministra una nueva estimación de θ diferente de la inicial, presumiblemente mejor, que nos permite reiniciar el proceso. La idea anterior constituye el núcleo del algoritmo EM, cuya iteración básica describimos más formalmente como Algoritmo 1. Algorithm 1 – Algoritmo EM 1: 2: 3: 4: 5: 6: 7: 8: 9: 3

Fijar valor inicial θ (0) de θ. Fijar ǫ {Mínima diferencia entre valores sucesivos de θ para seguir iterando.} i←0 repeat i ←i+1   Q(θ|θ (i−1) ) ← E log fX (x; θ)|θ (i−1) , y θ (i)← arg m´axθ Q(θ|θ (i−1) ) until |θ (i) − θ (i−1) | < ǫ θˆMV ← θ (i)

Nótese que para calcular el valor esperado de log fX (x; θ) necesitamos un punto de partida, es decir, un valor inicial θ′ de θ; el algoritmo EM suministra una pauta para refinar este valor inicial hasta llegar al estimador máximo verosímil.

96 CAPÍTULO 7. ESTIMACIÓN MÁXIMO VEROSÍMIL EN LA PRÁCTICA. Lo que antecede muestra un modo de operar, pero nada garantiza que haya convergencia ni, caso de que la hubiera, que se produzca a un valor de θ maximizando la verosimilitud, siquiera sea localmente. Bosquejaremos ahora este resultado, mostrando que: 1. Cada iteración del Algoritmo 1 incrementa L(θ). 2. Si la verosimilitud L(θ) está acotada y Q(θ (i) |θ (i−1) ) − Q(θ (i−1) |θ (i−1) ) ≥ λ(θ (i) − θ (i−1) )2 entonces θ (i) → θ∗ . 3. Si θ (i) → θ∗ y "

∂Q(θ|θ (i−1) ) ∂θ

#

= 0,

θ=θ (i)

entonces 

∂L(θ) ∂θ



= 0. θ=θ∗

Obsérvese que los tres resultados anteriores tomados en su conjunto, todavía no garantizan la convergencia del algoritmo EM a θˆMV o a un máximo local. Para ello haría falta mostrar que el valor estacionario de la verosimilitud θ∗ corresponde a un máximo y no a un mínimo o punto de silla. Una demostración completa que incluye éste y otros detalles puede encontrarse en Dempster et al. (1976). Teorema 7.2 En el Algoritmo 1, la verosimilitud crece monótonamente. D EMOSTRACION : De (7.22) deducimos: L(θ (i) ) = Q(θ (i) |θ (i−1) ) − H(θ (i) |θ (i−1) )

L(θ

(i−1)

) = Q(θ

(i−1)



(i−1)

) − H(θ

(i−1)



(i−1)

(7.23) ).

(7.24)

Restando (7.24) de (7.23) obtenemos L(θ (i) ) − L(θ (i−1) ) = (Q(θ (i) |θ (i−1) ) − Q(θ (i−1) |θ (i−1) ))

+ (H(θ (i−1) |θ (i−1) ) − H(θ (i) |θ (i−1) )).(7.25)

El primer miembro de la derecha de (7.25) es no negativo por el modo en que ha sido tomado el paso M de la iteración (se maximiza Q(θ|θ (i−1) ) respecto de θ,

7.5. EL ALGORITMO EM.

97

y por tanto necesariamente Q(θ (i) |θ (i−1) ) − Q(θ (i−1) |θ (i−1) ) ≥ 0). El segundo término es necesariamente no negativo4 . Por tanto, L(θ (i) ) − L(θ (i−1) ) ≥ 0.

Teorema 7.3 Cuando la verosimilitud está acotada, L(θ (i) ) → L∗ , para algún valor L∗ . Si, además, Q(θ (i) |θ (i−1) ) − Q(θ (i−1) |θ (i−1) ) ≥ λ(θ (i) − θ (i−1) )2 para todo i, entonces θ (i) → θ∗ . D EMOSTRACION : Una sucesión monótona acotada necesariamente tiene un límite: esto da cuenta de la existencia de L∗ , a la vez que garantiza que los términos de la sucesión L(θ (i) ) deben cumplir la condición de Cauchy para sucesiones convergentes. Por tanto, para todo r > 1 y p > p(ǫ) r X (L(θ (p+j) − L(θ p+j−1))) = |L(θ (p+r) − L(θ p) | < ǫ, j=1

y por consiguiente ǫ > ≥

r X (L(θ (p+j) − L(θ p+j−1)))

j=1 r X

(Q(θ (p+j) |θ (p+j−1) ) − Q(θ (p+j−1)|θ (p+j−1) ))

j=1 r X

≥ λ

j=1

(θ (p+j) − θ (p+j−1))2

≥ λ(θ (p+r) − θ (p) )2 . Ello muestra que θ (p) verifica también una condición de Cauchy y en consecuencia converge a algún θ∗ .

Establecido que θ (i) converge, resta por ver que el límite, si es un punto estacionario de Q(θ|θ), lo es también de la función de verosimilitud. Puede verse H(θ(i) |θ(i−1) ) − H(θ(i−1) |θ(i−1) ) como la distancia de Kullback-Leibler (véase (6.5), pág. 78) entre dos distribuciones de parámetros respectivos θ(i) y θ(i−1) . Esta distancia se minimiza cuando θ(i) = θ(i−1) . 4

98 CAPÍTULO 7. ESTIMACIÓN MÁXIMO VEROSÍMIL EN LA PRÁCTICA. Teorema 7.4 Supongamos que θ (i) → θ∗ . Entonces, bajo condiciones de regularidad suficientes,   ∂L(θ) = 0. ∂θ θ=θ∗ D EMOSTRACION : Derivando en (7.22) obtenemos # "   ∂L(θ) ∂Q(θ|θ (i−1) ) = ∂θ θ=θ(i) ∂θ

θ=θ (i)

"

∂H(θ|θ (i−1) ) − ∂θ

#

.(7.26) θ=θ (i)

Es claro que si la iteración converge, θ (i) y θ (i−1) en la expresión anterior pueden ambos sustituirse por θ∗ . La derivada de H(θ|θ ′ ) se anula para θ = θ ′ = θ∗ . La de Q(θ∗ |θ∗ ) también se anula —en cada iteración la función se maximiza, y su derivada por tanto se anula aunque no hayamos aún logrado convergencia—. En consecuencia, el lado izquierdo de (7.26) se anula.

7.5.3. Distribuciones de la familia exponencial. Cuando trabajamos con distribuciones en la familia exponencial, el algoritmo puede en ocasiones simplificarse de modo notable. Consideremos una distribución cuya densidad escrita en términos de su parámetro natural (lo que no conlleva pérdida de generalidad) fuera fX (x; θ) = eθb(x)+c(θ)+d(x) . El logaritmo de la función de verosimilitud asociada a una muestra de tamaño n es log fX (x; θ) = log

n h Y

eθb(xi )+c(θ)+d(xi )

i=1

= θ

n X i=1

b(xi ) + nc(θ) +

i

n X

d(xi )

i=1

= θT (x) + C(θ) + D(x).

Entonces, la expresión (7.16) se convierte en h i Q(θ|θ (i) ) = E log fX (x; θ)|θ (i) , y h i = E θT (x) + C(θ) + D(x)|θ (i) , y h i = θT (i) + C(θ) + E D(x)|θ (i) , y .

(7.27) (7.28) (7.29)

7.5. EL ALGORITMO EM.

99

Podemos reemplazar esta expresión de Q(θ|θ (i) ) en el lugar correspondiente del Algoritmo 1. Observemos, adicionalmente, que el último término en (7.29) no depende de θ. Por lo tanto, podemos maximizar respecto de θ sólamente la expresión θT (i) + C(θ). Incorporando estos cambios al Algoritmo 1, obtenemos el Algoritmo 2. Algorithm 2 – Algoritmo EM para distribuciones en la familia exponencial 1: 2: 3: 4: 5: 6: 7: 8: 9:

Fijar valor inicial θ (0) de θ. Fijar ǫ {Mínima diferencia entre valores sucesivos de θ para seguir iterando.} i←0 repeat i ← i+1  T (i) ← E T (x)|θ (i−1) , y  θ (i) ← arg m´axθ θT (i) + C(θ)  (i) until |θ − θ (i−1) | < ǫ θˆMV ← θ (i)

Ejemplo 7.2 El siguiente ejemplo, adaptado de Laird (1993), ilustra el funcionamiento del algoritmo EM en una distribución de la familia exponencial. Supongamos observaciones procedentes de uan distribución trinomial con vector de parámetros θ = (θ1 , θ2 , θ3 ) (uno redundante, al estar constreñidos a sumar 1). Poseemos una muestra tomada al azar incompletamente clasificada, como recoge la siguiente tabla:

θ1 21

θ2 9 8

n,1 n,2

θ3 20 n1. = 50 7 n2. = 15 n,3

Hay n1. = 50 observaciones completamente clasificadas; por el contrario, hay n2. = 15 de las que sólo sabemos si pertenecen a la clase tercera o a una de las dos primeras. Es claro que n,1 , n,2 , n,3 son estadísticos suficientes para θ; pero sólo n,3 es conocido. El algoritmo EM procede sustituyendo n,1 y n,2 por sus respectivos valores esperados para obtener una estimación de θ. Obtenida ésta, se utiliza para recalcular los valores esperados de n,1 y n,2 , y se itera hasta convergencia. En el caso que nos ocupa, una estimación inicial de θ podría ser la máximo verosímil con las 50 observaciones completamente clasificadas5 : 9 20 θˆ(0) = ( 21 50 , 50 , 50 ). 5 Podríamos comenzar con un vector arbitrario, pero si tenemos alguna aproximación razonable, como en este caso, ello acelera la convergencia.

100 CAPÍTULO 7. ESTIMACIÓN MÁXIMO VEROSÍMIL EN LA PRÁCTICA. Tenemos ahora que los valores esperados de los estadísticos suficientes n,1 , n,2 y n,3 dado θ = θˆ(0) son: (1)

n,1

(1)

n,2

= 21 + 8 ×

(0) θˆ1 ≃ 26,6 (0) (0) θˆ + θˆ 1

1

(1)

n,3

2

(0) θˆ = 9 + 8 × (0) 2 (0) ≃ 11,4 θˆ + θˆ 2

= 27.

En esencia, hemos “repartido” las 8 observaciones cuya adscripción no consta entre las clases primera y segunda sobre la base de la mejor información disponible acerca de θ. Con los valores esperados (de n,1 y n,2 ) u observados (de n,3 ) de los estadísticos suficientes podemos ahora obtener una estimación 11,4 27 refinada del vector de parámetros, θˆ(1) = ( 26,6 65 , 65 , 65 ), con la que recalcular los valores medios de los estadísticos suficientes que lo precisan, y así hasta convergencia.

Capítulo 8

Contraste de Hipótesis.

8.1. Introducción. Examinaremos en lo que sigue el caso en que existen dos posibles estados de la naturaleza, asociados a sendos conjuntos de valores de un cierto parámetro: así, un estado corresponde a θ ∈ Θ0 y otro a θ ∈ Θa . Un contraste de hipótesis es un procedimiento estadístico δ(X) para escoger entre ambos estados (inobservables) sobre la base de la información muestral proporcionada por una variable aleatoria X con densidad (o cuantía) fX |θ (x |θ). El procedimiento δ(X) puede proporcionar una de dos decisiones: d0 (= “el estado es Θ0 ”) y da (= “el estado es Θa ”). Frecuentemente, ésta es una elección bastante artificial, entre dos alternativas ninguna de las cuales tiene visos de ser “exactamente” cierta. Esto es particularmente cierto cuando se contrastan hipótesis que especifican un único y preciso valor para algún parámetro (como H0 : θ = θ0 ). Sin embargo, como hace notar Garthwaite et al. (1995), pág. 2, el contraste de hipótesis “ . . .es a menudo un modo conveniente de actuar y subyace a una parte importante de la investigación científica.” De que esto es así da testimonio el uso continuo e intenso que se hace del contraste de hipótesis en muchas ramas del saber. Que la metodología habitualmente utilizada para contrastar hipótesis no siempre se emplea debidamente, es también un hecho. Véase al respecto la crítica enérgica y virulenta que del contraste de hipótesis se hace en Wang (1993). Se dice que una clase de distribuciones es simple si contiene una única distribución. Es compuesta en caso contrario. Un contraste de hipótesis será simple si tanto Θ0 como Θa especifican una única distribución. 101

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS.

102

Si disponemos de una función de pérdida completamente especificada, emplearemos la teoría examinada en capítulos anteriores para seleccionar un procedimiento adecuado: procedimiento de Bayes (si disponemos además de una distribución a priori para θ), minimax, etc. Es frecuente, sin embargo, que no haya una función de pérdida bien especificada. El contraste se efectúa entonces de manera convencional minimizando la probabilidad de error, que puede ser de dos clases: el error de tipo I (o de tipo α) consiste en seleccionar da cuando θ ∈ Θ0 , mientras que el error de tipo II (o de tipo β) consiste en seleccionar d0 cuando θ ∈ Θa . Denominamos nivel de significación de un contraste (a veces también llamado tamaño del contraste) al supremo de la probabilidad de error de tipo I: α

def

sup Prob {δ(X) = da }

=

θ∈Θ0

y potencia Π(θ) al complemento a uno de la probabilidad de error de tipo II: Π(θ)

def

=

1 − β(θ)

def

=

1 − Prob {δ(X) = d0 ; θ ∈ Θa }

Siempre es preciso establecer un compromiso entre ambos tipos de error. Es habitual fijar el nivel de significación α en un valor convencional como 0.01, 0.05 ó 0.10 y tratar de encontrar el contraste que minimiza β(θ) (o, lo que es lo mismo, que maximiza la potencia) de entre todos los que tienen el nivel de significación prefijado. En su forma más sencilla, un contraste de hipótesis puede verse como particionando el espacio muestral en dos regiones. Una de ellas, llamada región crítica, S, agrupa los resultados muestrales X cuya observación daría lugar a δ(X) = da , en tanto la otra región S c agrupa los resultados cuya observación daría lugar a δ(X) = d0 . Alternativamente, un contraste quedaría completamente especificado mediante su función crítica λ(x), definida así:  1 si x ∈ S, def λ(x)= (8.1) 0 si x ∈ / S. Si insistimos en obtener un contraste con un α prefijado, puede ser preciso complicar ligeramente las cosas. El siguiente ejemplo muestra un caso muy simple en que no existe una región crítica proporcionando un α = 0,07 (naturalmente, no hay ninguna razón especial por la que en la práctica no hubiéramos de contentarnos con α = 0,05 ó α = 0,08, que sí son accesibles; el ejemplo tiene finalidad exclusivamente ilustrativa). Ejemplo 8.1 Consideremos el caso en que hemos de contrastar H0 : θ = θ0 frente a la alternativa Ha : θ = θa . Las distribuciones asociadas a cada valor del parámetro son las especificadas en la tabla siguiente: x Prob {x; θ0 } Prob {x; θa }

0 0.60 0.10

1 0.26 0.15

2 0.05 0.10

3 0.04 0.25

4 0.04 0.30

5 0.01 0.10

8.2. EL TEOREMA DE NEYMAN–PEARSON.

103

Si tomamos como estadístico de contraste una única observación X y como región crítica S = {4, 5} ó S = {3, 5}, el nivel de significación es α = 0,05. Podemos tomar otros puntos en otras combinaciones para obtener α = 0,06, α = 0,08 y α = 0,09, pero no α = 0,07

El problema se presenta en el ejemplo anterior debido al carácter discreto de la distribución: no podemos incrementar con la suficiente finura la probabilidad bajo θ0 de la región crítica. Tal problema puede sin embargo resolverse recurriendo a procedimientos aleatorizados. Ejemplo 8.2 Supongamos que, en el ejemplo anterior, estamos dispuestos a considerar procedimientos aleatorizados. Entonces podríamos obtener un nivel de significación exacto de 0.07. Podríamos, por ejemplo, tomar una región crítica S = {4, 5}, que totaliza α = 0,05 y añadir “parte” del punto x = 3. Para “despiezar” dicho punto, podemos construir una lotería que con probabilidad 21 proporcione rechazo de H0 y con probabilidad 21 aceptación de H0 . Si adoptamos la regla de rechazar H0 siempre que obtengamos X = 4 ó X = 5 y de jugar a la lotería indicada cuando obtengamos X = 3, la probabilidad total de rechazo cuando θ = θ0 es: α = 0,04 + 0,01 +

1 × Prob {X = 3; θ0 } = 0,07 2

Para recoger el caso en que nos vemos obligados a realizar contrastes aleatorizados debemos considerar funciones críticas algo más complejas que la descrita en (8.1). Un contraste general vendrá así especificado por una función crítica como:  +  1 si x ∈ S , def def λ(x)= (8.2) γ si x ∈ S = = (S + ∪ S − )c ,  0 si x ∈ S − .

S + es la región crítica, y S − la región no crítica. El conjunto de puntos muestrales que no pertenecen ni a una ni a otra da lugar al rechazo con probabilidad γ. En el Ejemplo 8.2, S + = {4, 5}, S − = {0, 1, 2} y (S + ∪ S − )c = {3}. Observemos finalmente que en términos de la función crítica: Potencia = Π(θ) = 1 − β(θ) = Eθ (λ(X)) y para contrastes con nivel de significación α ha de verificarse: Eθ λ(X) ≤ α

∀θ ∈ Θ0

8.2. El Teorema de Neyman–Pearson. La construcción de regiones críticas para el contraste de una hipótesis simple θ = θ0 frente a una alternativa también simple θ = θa resulta sumamente fácil (al menos conceptualmente) gracias al siguiente resultado.

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS.

104

Teorema 8.1 Sea un problema de decisión consistente en escoger entre dos posibles estados de la naturaleza, θ0 y θa . Para cualquier α ∈ [0, 1], existe un contraste λ(x) y una constante k > 0 verificando: (i)   1 cuando fX (x; θa ) > kfX (x; θ0 ), λ(x) = γ cuando fX (x; θa ) = kfX (x; θ0 ), (8.3)  0 cuando fX (x; θa ) < kfX (x; θ0 ). Eθ0 λ(X) = α (8.4) (ii) Las condiciones (8.3)–(8.4) son suficientes para garantizar que el contraste λ(x) es el más potente para la hipótesis θ0 frente a θa al nivel α. (iii) Recíprocamente, si λ(x) es el contraste más potente para el par de hipótesis citadas, entonces verifica (8.3)–(8.4) para algún valor k, a menos que exista un contraste de tamaño menor que α y potencia 1. D EMOSTRACION : Bosquejamos a continuación la demostración. Un mayor detalle puede encontrarse en Lehmann (1959), p. 65. Para α = 0 ó α = 1 el teorema es trivial. Sea: def

α(c) = Prob {fX (x; θa ) > cfX (x; θ0 )|θ0 } Como α(c) es una probabilidad computada cuando θ = θ0 , podemos desentendernos de los puntos x en que fX (x; θ0 ) = 0, y escribir:   fX (X; θa ) > c|θ0 α(c) = Prob fX (X; θ0 )   fX (X; θa ) = 1 − Prob ≤ c|θ0 fX (X; θ0 )   fX (X; θa ) =⇒ 1 − α(c) = Prob ≤ c|θ0 fX (X; θ0 ) Por tanto, 1 − α(c) es una función de distribución, no decreciente y continua por la derecha, y α(c) es no creciente y continua por la derecha, verificando α(−∞) = 1 y α(∞) = 0. Para cualquier α ∈ [0, 1] existirá por tanto un c0 verificando: α(c0 ) ≤ α ≤ α(c− 0) Sea el contraste:  1   

α − α(c0 ) λ(x) = − α(c ) − α(c0 )    0 0

cuando fX (x; θa ) > c0 fX (x; θ0 ), cuando fX (x; θa ) = c0 fX (x; θ0 ), cuando fX (x; θa ) < c0 fX (x; θ0 ).

(8.5)

8.2. EL TEOREMA DE NEYMAN–PEARSON.

105

Es fácil ver que no hay problemas de anulación del denominador en el quebrado que aparece en la definición, pues el conjunto de puntos en que éste se anula tiene probabilidad cero. En consecuencia, (8.5) define casi en todo punto (con respecto a fX (x; θ0 )) el contraste λ(x). El tamaño de dicho contraste es: 

 fX (x; θa ) Eθ0 [λ(X)] = Prob > c0 |θ0 fX (x; θ0 )   fX (x; θa ) α − α(c0 ) = c |θ Prob + 0 0 fX (x; θ0 ) α(c− 0 ) − α(c0 ) = α Esto da cuenta de la existencia. Comprobemos ahora (ii). Sea λ(x) el contraste definido en (8.5) y λ∗ (x) cualquier otro, de tamaño no mayor que α: Eθ0 λ∗ (X) ≤ α. Sean S + , S = , y S − las tres regiones del espacio muestral en que se verifican, respectivamente, cada una de las tres condiciones expresadas en (8.5). Puede verse que sobre cualquiera de dichas regiones: Z (λ(x) − λ∗ (x))(fX (x; θa ) − c0 fX (x; θ0 ))dx ≥ 0 (8.6) En efecto: cuando (fX (x; θa ) − c0 fX (x; θ0 )) > 0, λ(x) = 1, y por tanto (λ(x) − λ∗ (x)) ≥ 0; el integrando es por consiguiente no negativo. Cuando (fX (x; θa ) − c0 fX (x; θ0 )) < 0, λ(x) = 0, (λ(x) − λ∗ (x)) ≤ 0, y el integrando es de nuevo no negativo. Por consiguiente, la integral (8.6) extendida a todo S es no negativa, y realizando el producto en el integrando obtenemos: Z Z ∗ (λ(x) − λ (x))fX (x; θa )dx − (λ(x) − λ∗ (x))c0 fX (x; θ0 ))dx ≥ 0 (8.7) S

S

Potencia(λ(X)) − Potencia(λ∗ (X)) − c0 (α − Eθ0 λ∗ (X)) ≥ 0 (8.8) {z } | ≥0

Por tanto:

Potencia(λ(X)) ≥ Potencia(λ∗ (X)) Comprobemos finalmente (iii). Sea λ∗ (x) el contraste más potente de tamaño α para θ0 frente a θa . Sea por otra parte λ(x) el contraste verificando (8.3)-(8.4). Denominemos C al conjunto de puntos muestrales verificando: C = {x : [λ∗ (x) 6= λ(x)] ∧ [fX (x; θa ) 6= kfX (x; θ0 )]} Vamos a ver que C tiene medida cero, y por tanto ambos contrastes son esencialmente el mismo. Como ya se ha visto en el apartado (ii): Z (λ(x) − λ∗ (x))(fX (x; θa ) − kfX (x; θ0 ))dx ≥ 0 S

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS.

106

Pero basta que integremos en C (pues fuera de C el integrando se anula). Por tanto: Z Z ∗ (λ(x) − λ (x))fX (x; θa )dx > k (λ(x) − λ∗ (x))fX (x; θ0 )dx C

C

= k (α − Eθ0 λ∗ (X))

La integral del lado izquierdo es la diferencia de potencias, y el lado derecho — si λ∗ (x) está constreñido a tener nivel de significación no mayor que α— es no negativo. Por tanto, λ(x) sería más potente que λ∗ (x), contra la hipótesis, a menos que C sea un conjunto de probabilidad cero cuando θ = θ0 .

Observación 8.1 Los contrastes pueden diferir en {x : fX (x; θa ) = kfX (x; θ0 )}. La definición de cualquiera de ambos contrastes en dicha región “frontera” no afecta a sus respectivas potencias, y es por tanto arbitraria. Observación 8.2 La decisión a tomar depende de la muestra sólo a través de fX (x; θa )/fX (x; θ0 ). No es extraño que esto suceda. Vimos (Ejemplo 3.10) que la razón de verosimilitudes es un estadístico suficiente, y (Sección 3.6) que los procedimientos de Bayes pueden siempre hacerse depender de estadísticos suficientes. El empleo del teorema de Neyman-Pearson proporciona pues acceso a todos los procedimientos de Bayes. Como se vio en la Sección 1.10, tal clase completada con sus límites incluye en general la totalidad de los procedimientos que deseamos considerar (admisibles). La relación entre el teorema de Neyman-Pearson y la Teoría de la Decisión esbozada en el Capítulo 1 resulta adicionalmente clarificada en la Sección 8.3. Observación 8.3 Del contenido de la Sección anterior se desprende que la potencia de un contraste varía de acuerdo con la alternativa considerada. De hecho, se ha definido potencia (en (8.1)) como una función de θ. Es claro pues que, en general, el contraste de tamaño α más potente de θ0 frente a θ1 no coincidirá con el de igual tamaño y máxima potencia de θ0 frente a θ2 . Hay casos, sin embargo, en que un mismo contraste es el más potente frente a una clase compuesta de alternativas Θa . Se dice que es uniformemente más potente (UMP) para dicha clase de alternativas. Volveremos sobre esto en la Sección 8.4.

8.3. Teorema de Neyman-Pearson y procedimientos de Bayes. Sea el problema de contrastar una hipótesis simple H0 : θ = θ0 frente a una alternativa también simple, Ha : θ = θa . Supongamos que hay una distribución a priori definida sobre θ, que atribuye probabilidades ξ0 y ξa respectivamente a θ0 y θa .

8.4. CONTRASTES UNIFORMEMENTE MÁS POTENTES (UMP).

107

Designemos por c0 y ca los costes respectivos de tomar equivocadamente las decisiones d0 : θ = θ0 y da : θ = θa . Estudiemos el problema de construir un contraste λ(x) cuyo riesgo de Bayes Rξ (λ) sea mínimo. Tenemos que: Z Z c0 ξa (1 − λ(x))fX (x; θa )dx ca ξ0 λ(x)fX (x; θ0 )dx + Rξ (λ) = n n R R Z λ(x) [ca ξ0 fX (x; θ0 ) − c0 ξa fX (x; θa )] dx = Rn Z c0 ξa fX (x; θa )dx (8.9) + Rn

Como quiera que el segundo sumando de (8.9) no depende de λ(x), basta minimizar el primero; y es claro que para ello debemos tomar: λ(x) = 1 cuando c0 ξa fX (x; θa ) − ca ξ0 fX (x; θ0 ) > 0

λ(x) = 0 cuando c0 ξa fX (x; θa ) − ca ξ0 fX (x; θ0 ) < 0 Es decir, λ(x) = 1 si: fX (x; θ0 ) fX (x; θa )

<

c0 ξa ca ξ0

(8.10)

que es precisamente la condición que establece el teorema de Neyman-Pearson para rechazar θ0 en beneficio de θa . Hay una diferencia, no obstante: el enfoque basado en la Teoría de la Decisión fija el valor que debe tener el umbral a superar por la razón de verosimilitudes para que se produzca el rechazo de θ0 ; analizando (8.10) vemos además que dicho umbral depende de la forma intuitivamente esperable de los parámetros c0 , ca , ξ0 y ξa . El enfoque basado en el Teorema de Neyman-Pearson proporciona una familia de contrastes idéntica, pero el umbral a superar por la razón de verosimilitudes se fija estableciendo (habitualmente de modo un tanto arbitrario) el nivel de significación deseado. Cuando se disponga de una función de pérdida especificada y de una distribución a priori sobre las dos posibles hipótesis competidoras, el uso de (8.10) parece lo indicado. En caso contrario, habrá de hacerse uso del Teorema de Neyman-Pearson, con la precaución de especificar un nivel de significación tanto más pequeño (= un rechazo tanto más difícil) cuanto más grave sea la adopción injustificada de θa , o más fuerte sea la creencia de encontrarnos ante θ0 .

8.4. Contrastes uniformemente más potentes (UMP). Se ha indicado ya que, en general, el contraste más potente proporcionado por el Teorema de Neyman-Pearson depende tanto de la hipótesis nula como de la alternativa. En algunas circunstancias, no obstante, dada una hipótesis nula H0 , el

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS.

108

mismo contraste λ(x) es el más potente de tamaño α para todas las alternativas en una cierta clase. Se dice que es uniformemente más potente (UMP) en dicha clase. Ejemplo 8.3 Consideremos una muestra procedente de una población con distribución exponencial fX (x, θ) = θ−1 e−x/θ , θ > 0, con ayuda de la cual queremos contrastar H0 : θ = θ0 frente a la alternativa (compuesta) Ha : θ > θ0 . Para cualquier θa > θ0 , el teorema de Neyman-Pearson prescribe tomar como región crítica la formada por los x verificando ( n )  n X 1 fX (x; θa ) 1 θ0 xi ≥ c, − = exp − fX (x; θ0 ) θa θa θ0 i=1 o equivalentemente ) ( n X  θ0 − θa  xi exp − θ0 θa i=1 n X

xi

>

c

>



i=1



θa θ0

n

loge c − n log



θ0 θa

 

−1 θa − θ0 (8.11). θ0 θa

Pn Por consiguiente, todo se reduce a calcular el valor del estadístico i=1 xi y compararlo con la constante, Pn k, dada por el lado derecho de (8.11). Dicha k se calcula de modo que i=1 Xi > k bajo HP 0 con la probabilidad α que hayamos prefijado. En el caso que nos ocupa, ni=1 Xi sigue bajo H0 una distribución γ(θ0−1 , n), y k resulta de resolver Z ∞ 1 −x/θ0 n−1 x dx = α. ne Γ(n)θ k 0 Por tanto, k no depende de cuál sea θa (con tal de que θa > θ0 ) y el contraste es uniformemente más potente en la clase indicada.

Hay una caracterización simple que permite detectar la existencia de contrastes UMP cuando existen. Requiere la siguiente definición. Definición 8.1 Sea X una v.a. con distribución {Fx (x; θ), θ ∈ Θ}. Sea fX |θ (x |θ) la función de verosimilitud asociada a una muestra x = (x1 , . . . , xn ). Se dice que {Fx (x; θ), θ ∈ Θ} tiene razón de verosimilitud monótona si para algún estadístico T (x) y cualquier x se verifica fX |θ (x |θ) fX (x; θ0 )

= g(T (x)),

(8.12)

siendo g(.) una función monótona no decreciente y θ0 , θ valores cualesquiera en Θ con θ > θ0 . Ejemplo 8.4 El Ejemplo 8.3 muestra una familia de distribuciones con Pn una razón de verosimilitud monótona. Si hacemos T (x) = i=1 xi , tenemos que    fX |θ (x |θ) θ − θ0 ∝ exp T (x) , fX (x; θ0 ) θ0 θ

8.5. CONTRASTES RAZÓN DE VEROSIMILITUDES GENERALIZADA. 109 que es una función creciente de T (x) para cualesquiera θ, θ0 ∈ Θ con θ > θ0 .

Se deduce con facilidad de (8.12) que si una familia de distribuciones tiene razón de verosimilitud monótona, fX |θ (x |θ) ≥ c ⇐⇒ g(T (x)) ≥ c ⇐⇒ T (x) ≥ g−1 (c). fX (x; θ0 ) Por tanto, el contraste más potente que proporciona el Teorema de Neyman–Pearson es independiente de la alternativa dentro de la familia considerada: es UMP y puede construirse haciendo uso del estadístico T (x). Por otra parte, es fácil identificar T (x) en las distribuciones de la familia exponencial cuando existe un contraste UMP. En efecto, sea θ > θ0 ; para cualquier distribución en la familia exponencial, fX |θ (x |θ) fX (x; θ0 )

P P exp {a(θ) ni=1 b(xi ) + c(θ) + ni=1 d(xi )} P P = exp {a(θ0 ) ni=1 b(xi ) + c(θ0 ) + ni=1 d(xi )} ) ( n X b(xi ) + (c(θ) − c(θ0 )) . = exp (a(θ) − a(θ0 )) i=1

Por consiguiente, si a(θ) es función no decreciente de θ, la distribución considerada tiene razón de verosimilitud monótona, y admite un contraste UMP que puede P expresarse en función del estadístico suficiente T (x) = ni=1 b(xi ).

8.5. Contrastes razón de verosimilitudes generalizada. Con frecuencia tenemos hipótesis anidadas, del tipo: H0 : θ ∈ Θ0 versus Ha : θ ∈ Θa , en que Θa = Θ − Θ0 ; es decir, la hipótesis nula prescribe que θ toma valores en un subconjunto propio de Θ. Típicamente, H0 constriñe θ a un subconjunto de dimensión menor que la de Θ. Cuando esto ocurre, bajo condiciones de regularidad que hagan el estimador MV de θ asintóticamente insesgado y normal, el resultado a continuación permite construir contrastes que son en ocasiones los únicos disponibles. Teorema 8.2 Sea el contraste H0 : θ ∈ Θ0 versus Ha : θ ∈ Θa , en que Θa = Θ − Θ0 , y supongamos que dim(Θa ) = r. Bajo condiciones de regularidad como las requeridas en el Teorema 6.2, pág, 81, Λ = −2 loge D EMOSTRACION :



supθ∈Θ0 fX |θ (x |θ) supθ∈Θ fX |θ (x |θ)



∼ χ2r .

(8.13)

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS.

110

Presentamos, por simplicidad, la demostración para el caso unidimensional en que la hipótesis nula es simple, H0 : θ = θ0 , en tanto la alternativa es Ha : θ ∈ Θ con dim(Θ) = 1 (y, por tanto, r = dim(Θ) − dim(θ0 ) = 1). Sean θˆ = sup fX |θ (x |θ),

(8.14)

θ∈Θ

∂ loge fX (Xi , θ) , ∂θ

Ui (θ) =

(8.15)

Tenemos que h i ˆ − log fX (X; θ0 ) . Λ = 2 loge fX (X; θ) e

(8.16)

Desarrollando en serie el segundo sumando de la derecha de (8.16) en torno al punto θˆ obtenemos   ∂ loge fX (X; θ) ˆ ˆ (θ0 − θ) loge fX (X; θ0 ) = loge fX (X; θ) + ∂θ ˆ θ=θ   1 ∂ 2 loge fX (X; θ) ˆ2 (θ0 − θ) (8.17) + 2! ∂θ 2 θ=θ˜ ˆ es decir, |θ˜ − θ0 | < |θˆ − θ0 |. Sustituyendo (8.17) en que θ˜ es un punto entre θ0 y θ, en (8.16) obtenemos   ∂ loge fX (X; θ) ˆ Λ = −2 (θ0 − θ) ∂θ ˆ θ=θ  2  ∂ loge fX (X; θ) − (θˆ − θ0 )2 (8.18) ∂θ 2 θ=θ˜ n n X X ˜ ˆ − (θˆ − θ0 )2 ˆ Ui′ (θ) (8.19) Ui (θ) = −2(θ0 − θ) i=1

i=1

Ahora bien, bajo las condiciones de regularidad impuestas, el estimador máximo verosímil anula la primera derivada de la función de verosimilitud, y n X



ˆ = Ui (θ)

i=1

∂ loge fX (X; θ) ∂θ



= 0; θ=θˆ

por tanto, (8.19) queda reducida a Λ = −(θˆ − θ0 )

2

n X i=1

!

˜ Ui′ (θ)

= n(θˆ − θ0 )

2



Pn

′ ˜ i=1 Ui (θ)

n

!

. (8.20)

En virtud del Teorema 6.2, L

n(θˆ − θ0 )2 −→ I(θ0 )−1 × χ21 .

(8.21)

8.5. CONTRASTES RAZÓN DE VEROSIMILITUDES GENERALIZADA. 111 c.s. c.s. Por otra parte, θ˜−→ θ0 (ya que θˆ−→ θ0 y |θ˜ − θ0 | < |θˆ − θ0 |), y por consiguiente

−n

−1

n X

˜ Uj′ (θ)

j=1

p

−→

−n

−1

n X

Uj′ (θ0 ).

(8.22)

j=1

La expresión (8.22) converge en probabilidad al valor medio de cada uno de los sumando promediados, Eθ0 [−Uj′ (θ0 )] = I(θ0 ), en virtud de la ley débil de los grandes números (Teorema A.2, pág. 148): −

Pn

′ ˜ i=1 Ui (θ)

n

p

−→

I(θ0 ).

(8.23)

Haciendo uso de (8.21) y (8.23) vemos que la expresión (8.20) converge en distribución a una χ21 .

Observación 8.4 (criterio AIC y verosimilitudes penalizadas) Incidentalmente, hay una conexión interesante entre el contraste razón de verosimilitudes generalizada y el criterio conocido como AIC (An Information Criterion, o Akaike’s Information Criterion). Supongamos que deseamos comparar modelos con diferente número de parámetros. Consideremos, por ejemplo, uno cuyo vector de parámetros θ pertenece a Θ, y otro competidor tal que θ ∈ Θ0 con Θ0 ⊂ Θ y dim(Θ) − dim(Θ0 ) = r. Del Teorema 8.2 deducimos que, bajo H0 ,   supθ∈Θ fX |θ (x |θ) ∼ χ2r . (8.24) 2 loge supθ∈Θ0 fX |θ (x |θ) Numerador y denominador de (8.24) son las verosimilitudes maximizadas bajo Ha y bajo H0 respectivamente. Dado que Θ0 ⊂ Θ, es claro que la verosimilitud bajo H0 nunca será mayor: no tiene pues sentido una comparación directa de ambas verosimilitudes para escoger entre ambos modelos. Si tomamos valor medio en (8.24) y dividimos entre dos vemos que, bajo H0 ,   r (8.25) E loge sup fX |θ (x |θ) − loge sup fX |θ (x |θ) = . 2 θ∈Θ θ∈Θ0 Es decir, incluso cuando H0 es cierta y no tiene objeto seleccionar el modelo alternativo con θ ∈ Θ − Θ0 , la verosimilitud de dicho modelo alternativo será en promedio 2r unidades mayor, siendo r la diferencia de dimensión entre Θ y Θ0 (normalmente coincidente con la diferencia en el número de parámetros ajustados). Podría parecer adecuado corregir las verosimilitudes correspondientes a modelos diferentes, restando al logaritmo de cada una la mitad del número de parámetros utilizado, 2r . Ello las pondría “en pie de igualdad”, rectificando en valor medio el incremento de verosimilitud que se produce por el mero hecho de ajustar un mayor número de parámetros.

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS.

112

Así, en lugar de logaritmos de verosimilitudes, compararíamos logaritmos de verosimilitudes corregidos en valor medio como loge fX (x, θˆMV ∈ Θ0 ) − loge fX (x, θˆMV ∈ Θ) −

r1 2 r2 . 2

(8.26) (8.27)

No obstante, preferir el segundo modelo al primero sobre la base de que r1 loge fX (x, θˆMV ∈ Θ) − 2

>

r2 loge fX (x, θˆMV ∈ Θ0 ) − , 2

o, equivalentemente, fX (x, θˆMV ∈ Θ) 2 loge fX (x, θˆMV ∈ Θ0 )

!

> (r1 − r2 ),

es tanto como hacer un contraste de hipótesis de uno frente a otro tomando como valor crítico de una χ2r1 −r2 su valor medio. Ello daría lugar a un α (error de tipo I) inaceptablemente grande. Parece que se impone una penalización mayor del número de parámetros. La expresión, 2 loge fX (x, θˆMV ) − 2r siendo r el número de parámetros libres en θ que hemos ajustado se conoce como criterio AIC y fue propuesto en Akaike (1972), haciendo uso de un argumento diferente. Obsérvese que penaliza adicionalmente la verosimilitud respecto de la propuesta en (8.26)–(8.27). Discrimina con ello más a favor de modelos “simples.” Es sólo una de las muchas manifestaciones de una idea bastante más general: la de penalizar las verosimilitudes de modo que se tome en consideración su diferente “complejidad”, medida de ordinario por el número de parámetros ajustados o alguna función del número de parámetros y el tamaño de la muestra. Sobre esta cuestión volvemos en el Capítulo 9.

8.6. Contrastes de significación puros 8.6.1. Caso de hipótesis simples En ocasiones, deseamos contrastar una hipótesis sin especificar una alternativa. Típicamente, la hipótesis H0 que se desea contrastar puede describirse como una “hipótesis statu quo” o comúnmente aceptada, que queremos poner a prueba. no tenemos una idea clara de cuales puedan ser las alternativas competidoras. Deseamos simplemente examinar si la evidencia muestral es compatible con H0 . Los ingredientes necesarios para un contraste de esta naturaleza son: La hipótesis nula de interés, H0 . Un estadístico T (X) cuya distribución bajo H0 es conocida, y sobre el que adoptaremos la convención de que valores mayores suponen un mayor alejamiento de la muestra del comportamiento esperable bajo H0 .

8.6. CONTRASTES DE SIGNIFICACIÓN PUROS

113

Procederemos entonces del modo habitual: 1. Realizaremos el muestreo, obteniendo x. 2. Calcularemos el valor del estadístico de contraste, T (X), correspondiente a la muestra x. Sea dicho valor tobs = T (x). 3. Calcularemos, pobs = Prob {T (X) ≥ tobs |H0 } ,

(8.28)

nivel de significación empírico o p-value. Para un nivel de significación (probabilidad de error de tipo I) prefijado, α, rechazaremos H0 si pobs < α, y no rechazaremos en caso contrario. Podemos interpretar pobs como la probabilidad cuando H0 es cierta de obtener una muestra tan o más “rara” que la obtenida. En efecto, valores crecientes de T (x) reflejan discrepancias crecientes de la muestra con el comportamiento previsible bajo H0 . La lógica del contraste de significación consiste pues en rechazar H0 cuando lo que observamos sería “excesivamente raro” en una situación en que H0 prevaleciera. Ejemplo 8.5 El contraste de ajuste χ2 es posiblemente el de más uso (y abuso) de entre todos los contrastes de significación puros. Si particionamos los valores obtenibles de la variable aleatoria en k clases, Pk (ni − ei )2 , (8.29) T (X) = i=1 ei siendo ni el número de observaciones en la clase i-ésima, y ei el número de observaciones que esperaríamos obtener en dicha clase bajo H0 (véase por ej. Trocóniz (1987), p. 245). Valores grandes de T (X) corresponden a discrepancias notables en una o varias clases entre el número de observaciones esperado y el que se ha presentado en la muestra. Si H0 especifica por completo una distribución, T (X) se distribuye aproximadamente (para muestras grandes y clases no muy despobladas) como una χ2k−1 . Obsérvese que estamos contrastando acuerdo de la muestra con H0 sin especificar ninguna alternativa, es decir, sin precisar en qué modo habría de presentarse, de existir, la discrepancia entre la muestra y la distribución prescrita por H0 .

Otros muchos ejemplos pueden darse de contrastes de significación puros: el contraste de ajuste de Kolmogorov-Smirnov (véase Trocóniz (1987), p. 255), contrastes de independencia, etc.

8.6.2. Caso de hipótesis compuestas El problema se hace un poco más complejo cuando la hipótesis de interés no es simple sino compuesta; es decir, H0 no especifica por completo la distribución de la que supuestamente procede la muestra.

114

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS. Ejemplo 8.6 La hipótesis de normalidad sería compuesta: no hay una única distribución normal, sino una familia de ellas.

Cuando esto ocurre, el modo tan simple de operar descrito más arriba ya no es de aplicación. Podemos quizá encontrar todavía un estadístico T (X) que sea buen indicador de la discrepancia entre el comportamiento de la muestra y el esperable bajo H0 . El cálculo de pobs ya no es en general, sin embargo, tan simple como el mostrado en (8.28). Puede ocurrir que la probabilidad en el lado derecho de (8.28 sea diferente, dependiendo de la distribución concreta que consideremos de entre todas las que componen H0 . En general, las hipótesis compuestas suelen prescribir una familia de distribuciones indeterminadas en el valor de uno o varios parámetros de ruido. Así, en el Ejemplo 8.6, H0 prescribía para la muestra una distribución N (µ, σ 2 ) para valores indeterminados de µ y σ. Cuando esto ocurre, hay varias soluciones que podemos adoptar para realizar el contraste de significación deseado. 1. Estimar el o los parámetros de ruido. Esto es tanto como convertir la hipótesis compuesta en una simple “similar”, individualizando una única distribución de entre todas las que componen H0 . Ejemplo 8.7 Supongamos que deseamos contrastar la hipótesis de que una determinada muestra procede del muestreo de una P distribuˆ = N −1 ción de Poisson, P(λ). Podríamos estimar λ por λ i Xi y contrastar la hipótesis simple resultante. Hay que tener presente que, al estimar el o los parámetros haciendo uso de la muestra, estamos seleccionando de entre todas las distribuciones que componen H0 una particularmente “cercana” a los datos analizados. Este efecto deberá de ordinario tenerse en cuenta en la obtención de la distribución del estadístico de contraste T (X). Si hacemos uso de un contraste χ2 como el descrito en el Ejemplo 8.5, deberemos ahora comparar el valor tobs con los cuantiles de una χ2k−2 ; el grado de libertad ˆ es “la más perdido en la χ2 recoge el hecho de que la distribución P(λ) cercana” a los datos de entre todas las P(λ), y por este motivo debemos esperar que el valor de T (X) sea en promedio menor que si λ fuera un valor previamente fijado sin hacer uso de la muestra. Observación 8.5 Puede formalizarse la expresión “la más cercana” empleada en el ejemplo anterior. Si el procedimiento de estimación del o los parámetros de ruido es el de máxima verosimilitud, la distribución seleccionada de entre la familia que componen H0 es la que está a mínima distancia de Kullback-Leibler de la distribución empírica de la muestra. Ejemplo 8.8 (contraste de normalidad) Para hacer un contraste de normalidad —sin especificar la distribución normal concreta—, podríamos estimar µ y σ y emplear un contraste de ajuste de KolmogorovSmirnov. Compararíamos así la distribución empírica de la muestra con la de una N (ˆ µ, σ ˆ ). Siendo el de Kolmogorov-Smirnov un contraste de

8.6. CONTRASTES DE SIGNIFICACIÓN PUROS

115

naturaleza asintótica, que se realiza con muestras de tamaño bastante grande, podríamos en general prescindir del hecho de que hemos estimado dos parámetros. Lo que antecede es una ilustración y no un modo aconsejado de operar: hay contrastes especializados como el de d’Agostino (véase D’Agostino (1971)) o el de Shapiro-Wilk (véase Shapiro y Francia (1972) por ejemplo).

2. Podemos en algunos casos convertir la hipótesis compuesta en simple de un modo ad hoc, como ilustra el ejemplo siguiente. Ejemplo 8.9 Consideremos el caso en que X ∼ N (µ, σ0 ) y deseamos contrastar H0 : µ ≤ µ0 con σ0 conocida. Un estadístico adecuado sería T (X) = X, conduciendo al rechazo de H0 valores convenientemente “grandes”. Necesitamos individualizar una entre todas las distribuciones en {N (µ, σ0 )} para hacer el cálculo de pobs : pobs = Prob {T (X) ≥ tobs |H0 } ;

(8.30)

tiene sentido entonces calcular pobs así: pobs = Prob {T (X) ≥ tobs |N (µ0 , σ0 )} .

(8.31)

Hemos escogido la distribución en la familia H0 más extrema. La lógica de hacerlo así es que el pobs calculado bajo dicha distribución es el máximo de los que calcularíamos bajo cualquiera de las que componen H0 . Estamos así actuando de manera conservadora. La probabilidad de obtener bajo H0 una muestra tan o más “rara” que la observada será como máximo pobs . Si pobs es convenientemente pequeño, podemos rechazar confiadamente H0 .

3. Hay una tercera opción, que cuando es factible es frecuentemente la preferida. En lugar de estimar los parámetros de ruido, podemos eliminarlos considerando la distribución condicional sobre un estadístico suficiente para los mismos. El ejemplo que sigue ilustra el modo de operar. Ejemplo 8.10 Estamos interesados en contrastar ajuste a una distribución de Poisson P(λ), sin precisar λ. Disponemos de una muestra X = (X1 , . . . , Xn ). Sabemos (ver Ejemplo 3.8, p. 36) que S = P n i=1 Xi es un estadístico suficiente para λ, y que la distribución condicionada es s! . (8.32) fX|S (x|s) = s Qn n i=1 xi ! Por consiguiente, condicionalmente en el valor observado s del estadístico suficiente, una muestra como la obtenido tiene una probabilidad dada por el lado derecho de (8.32; llamémosle π. Podemos computar pobs como la probabilidad de encontrar, dado S = s, una muestra tan o más rara que la obtenida: X s! Qn , (8.33) pobs = s n i=1 xi ! x∈C(s)

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS.

116 siendo

 C(s) = x :

n

s! Qn s

i=1

xi !



≤π .

El problema de contrastar si la muestra dada procede de una P(λ) con λ indeterminado, ha quedado convertido en el problema de contrastar si es plausible que la muestra obtenida x proceda de una distribución multinomial de parámetros ( n1 , . . . , n1 ).

Ejemplo 8.11 (contraste exacto de Fisher) Un caso de gran aplicación (y que ya fue discutido por Fisher) es aquél en que estamos interesados en contrastar la independencia entre dos caracteres. Por ejemplo, si deseáramos contrastar la efectividad de un cierto tratamiento preventivo, podríamos administrarlo a un grupo de pacientes en tanto otros homogéneos reciben un placebo. Tras un periodo de tiempo, podríamos ver cuantos enfermaron de uno y otro grupo y compilar una tabla como la siguiente (c1 , c2 , r1 , r2 son los totales de filas y columnas respectivamente):

Placebo Tratamiento

Sano n11 n21 c1

Enfermo n12 n22 c2

r1 r2

A la vista de la misma, desearíamos contrastar independencia entre los sucesos “Tomar el tratamiento” y “Mantenerse sano”. Bajo la hipótesis de independencia entre ambos caracteres, la probabilidad de estar en la casilla ij es pij = pi. p.j , siendo pi. y p.j las probabilidades marginales de estar en la fila i y en la columna j. Las probabilidades de cada casilla bajo la hipótesis de independencia dependen exclusivamente de las probabilidades marginales y c1 , c2 , r1 , r2 son estadísticos suficientes para las mismas (se comprueba fácilmente). La distribución condicionada sobre c1 , c2 , r1 , r2 de un resultado como el recogido en la tabla es, bajo independencia, independiente de los parámetros: puede comprobarse (ver el desarrollo en, por ejemplo, Garín y Tusell (1991), ejercicio 6.16) que dicha probabilidad es  c2  c1 p′ =

n11

n r1

n12 .

Podemos ahora considerar la clase ∆ formada por todas las tablas t que pueden construirse respetando los márgenes c1 , c2 , r1 , r2 y tienen una probabilidad condicional P menor que p′ , y obtener el nivel de significación empírico así: pobs = t∈∆ Prob {t}.

8.6.3. Hay que tener en cuenta que. . . Los contrastes de significación tienen algunas peculiaridades que es preciso considerar.

8.6. CONTRASTES DE SIGNIFICACIÓN PUROS

117

1. Los contrastes de significación evalúan el acuerdo entre una muestra y una determinada hipótesis nula, H0 . No se explicita la alternativa, y ello puede dar lugar a resultados absurdos por falta de cuidado al interpretar los resultados. En particular, una muestra puede ser extremadamente “rara” bajo H0 , y aún serlo más bajo cualquiera de las situaciones que podamos considerar como alternativas. En este caso, es necesario tomar en cuenta explícitamente estas alternativas en el proceso de decisión. Ejemplo 8.12 Si hubiéramos de contrastar la hipótesis H0 : X ∼ N (0, σ 2 = 1) frente a toda alternativa, y contamos con 100 observaciones, parece sensato computar como estadístico de contraste √ X y recha√ zar H0 cuando X no esté incluido en el intervalo (−1,96/ 100, 1,96/ 100); esto daría lugar a una prueba con un α = 0,05. Si, sin embargo, la naturaleza del problema sugiriera que las únicas alternativas posibles son distribuciones normales con varianza unitaria y media mayor que 5, sería claramente inadecuado rechazar H0 con un valor, por ejemplo, de X = 2. Tal valor sería extremadamente raro bajo H0 —estaría a veinte desviaciones típicas de la media—, y sugeriría su rechazo; ¡pero aún sería más raro bajo cualquiera de las alternativas! Aún cuando un contraste de significación no requiera la fijación de alternativas, debemos estar vigilantes ante situaciones como la descrita, que sugieren una insuficiente consideración de los estados de naturaleza posibles. 2. En el caso de contrastes de significación es particularmente importante distinguir entre significación estadística y relevancia práctica de la discrepancia con H0 que el contraste pone de manifiesto. Sobre esta cuestión puede verse Wang (1993), Cap. 1. El siguiente ejemplo ilustra la naturaleza del problema. Ejemplo 8.13 Consideremos de nuevo la situación en el Ejemplo 8.12. A efectos prácticos, puede acontecer que sea indiferente el que la media sea ǫ = 10−8 en lugar de exactamente cero. No obstante, incluso una diferencia tan minúscula sería declarada significativa con probabilidad tan cercana a uno como deseáramos si el tamaño muestral crece √ lo suficiente.√En efecto, si adoptamos una región crítica n, +tα/2 / n)c , un n lo suficientemente grande hará como (−tα/2 / √ que |tα/2 / n| < ǫ, conduciendo por tanto al rechazo de H0 al nivel de significación α. Pensemos ahora que todo modelo es, en la práctica, una aproximación útil, pero no exacta. ¡Si fuéramos estrictos en rechazar un modelo al obtener un resultado estadísticamente significativo contra él, todo modelo sucumbiría ante una acumulación suficiente de evidencia! Esto es claramente absurdo. Deberíamos más bien preguntarnos si una media de ǫ representa a efectos prácticos una desviación suficiente de una media cero como para justificar el rechazo de esta última hipótesis. Sólo en caso de que la respuesta sea afirmativa estaría indicado un contraste estadístico.

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS.

118

3. Una peculiaridad de los contrastes de significación es que la misma evidencia puede dar lugar a interpretaciones diferentes según el procedimiento de muestreo. El siguiente ejemplo lo ilustra. Ejemplo 8.14 Consideremos una moneda cuya regularidad (H0 : Prob {Cara} = Prob {Cruz}) deseamos contrastar. Podemos lanzar cinco veces una moneda y contar el número de “caras” (Experimento 1) o lanzar la moneda hasta obtener una “cruz” y examinar el número total de lanzamientos (Experimento 2). Imaginemos dos experimentadores, haciendo el primero el Experimento 1 y el segundo el Experimento 2. Imaginemos que ambos obtienen cuatro “caras” al comienzo y una “cruz” en el quinto lanzamiento. Tanto uno como otro se inclinarían a considerar el resultado como evidencia de mayor probabilidad de “cara”, pero aquí acabaría el acuerdo. El primero, computaría pobs —la probabilidad de obtener un resultado tanto o más extremo que el obtenido así: pobs

= = =

Prob {4 caras} + Prob {5 caras}    5    5 5 1 5 1 + 2 2 5 4 3 . 16

El segundo, en cambio, calcularía: pobs

= = =

Prob {Primera “cruz” en lugar quinto o posterior}  n−1    4  1  5   1 1 1 1 1 1 + ...+ + ... + 2 2 2 2 2 2 1 1 1 . = 32 1 − 12 16

Ambos experimentadores han obtenido el mismo resultado, y sin embargo uno le otorga más peso que el otro. Es molesto que la interpretación que se hace de una misma evidencia dependa de cosas que podrían haber ocurrido, pero no lo han hecho.

Observación 8.6 Relacionado con el ejemplo precedente: parecería sensato el cálculo anterior de pobs si existiera alguna razón para suponer que la desviación de la regularidad de la moneda, de producirse, lo ha de ser hacía una mayor probabilidad de “cara”. De no ser así, el experimentador que hace uso del Experimento 1 debería doblar su pobs : hay también resultados más “raros” que el obtenido a causa de un anormalmente pequeño número de caras. No es legítimo esperar a ver el resultado para decidir sobre qué tipo de desviaciones de H0 queremos considerar, y en consecuencia sobre el modo en que vamos a computar pobs . 4. En ocasiones, se realizan varios contrastes de significación sobre la misma hipótesis, con muestras distintas y arrojando resultados pobs que pueden verse como variables aleatorias independientes. Supongamos dos experimentos

8.7. CONTRASTES LOCALMENTE MÁS POTENTES

119

que han arrojado sendos p∗obs y p∗∗ obs . Siendo interpretables como probabilidades (de obtener una muestra tanto o más “rara” que la obtenida, cuando H0 es cierta), podría pensarse en pobs = p∗obs × p∗∗ obs como un nivel de significación empírico sumarizando toda la evidencia disponible. Esto es incorrecto: véase Cox y Hinkley (1974), Cap. 4 y Garín y Tusell (1991), ejercicio 9.12.

8.7. Contrastes localmente más potentes En ocasiones, la hipótesis alternativa es compuesta y no hay un contraste uniformemente mas potente. Una táctica que parece sensata podría ser maximizar la potencia frente a una alternativa “próxima”. Por ejemplo, si tenemos H0 : θ = θ0 vs. Ha : θ > θ0 , podríamos plantearnos escoger el contrate que permitiera discriminar óptimamente entre H0 y la alternativa simple “local” Ha′ : θ = θ + δ para un δ pequeño. De acuerdo con el teorema de Neyman-Pearson, la región crítica que da lugar al contraste más potente para un α prefijado, sería:   fX (x; θ0 + δ) ≥ k (8.34) RC = x : α , fX (x; θ0 ) para algún kα ; o, equivalentemente, RC = {x : log fX (x; θ0 + δ) − log fX (x; θ0 ) ≥ cα } .

(8.35)

Consideremos la variable aleatoria log fX (X; θ0 + δ) − log fX (X; θ0 )

(8.36)

y desarrollemos en serie en torno al punto θ0 . Tenemos entonces que log fX (X; θ0 + δ) − log fX (X; θ0 )

  ∂ log fX (X; θ) ∼ − log fX (X; θ0 ) = log fX (X; θ0 ) + δ ∂θ θ=θ0   ∂ log fX (X; θ) = δ ; ∂θ θ=θ0

los términos despreciados en el desarrollo en serie son de orden δ2 y superior, y por tanto despreciables frente al único incluido cuando δ es muy pequeño. Cuando la hipótesis nula es cierta, tenemos (en virtud del Lema 5.1 y (5.5) que # "   ∂ log fX (X; θ) = 0 (8.37) Eθ0 δ ∂θ θ=θ0 "  #    ∂ log fX (X; θ) ∂ log fX (X; θ) 2 2 Var δ (8.38) = δ Eθ0 ∂θ ∂θ θ=θ0 θ=θ0 = nδ2 I(θ0 ).

(8.39)

CAPÍTULO 8. CONTRASTE DE HIPÓTESIS.

120

Por consiguiente,   ∂ log fX (X;θ)   δ ∂θ 1 ∂ log f (X; θ) X θ=θ0 p = (nI(θ0 ))− 2 2 ∂θ nδ I(θ0 ) θ=θ0

(8.40)

es una variable aleatoria tipificada que podemos emplear como estadístico de contraste si conocemos su distribución. Esta última puede ser desconocida, pero para n grande, teniendo en cuenta que cuando tenemos observaciones independientes e idénticamente distribuidas log fX (X; θ) = log

n Y i=1

fX (Xi ; θ) =

n X

log fX (Xi ; θ),

(8.41)

i=1

cabrá esperar un fuerte efecto teorema central del límite, y una distribución de (8.40) aproximadamente normal. Rechazaremos pues la hipótesis nula si   ∂ log fX (X; θ) − 12 (nI(θ )) (8.42) > zα/2 , 0 ∂θ θ=θ0

siendo zα/2 el cuantil adecuado de una distribución N (0, 1). Alternativamente podríamos comparar el cuadrado de (8.42) con el cuantil χ21;α . En el caso en que hay varios parámetros, hemos de sustituir θ por θ y modificar consecuentemente el desarrollo anterior; las ideas son las mismas. El resultado es también similar: si hay k parámetros libres en θ, tenemos que bajo H0 , asintóticamente U (θ0 )′ (nI(θ0 ))−1 U (θ0 ) ∼ χ2k , en que ′

U (θ0 ) =



(8.43)

∂ log fX (X; θ) ∂ log fX (X; θ) ,..., ∂θ(1) ∂θ(k)



(8.44)

y θ(i) es la i-ésima componente de θ. Se conoce a este contraste como score test, o también como contraste multiplicador de Lagrange. A la vista de (8.37) y (8.39) podríamos pensar también en contrastes haciendo uso de: ′ (θˆ − θ0 ) (nI(θ0 ))−1 (θˆ − θ0 ) ′

ˆ −1 (θˆ − θ0 ) (θˆ − θ0 ) (nI(θ))

H0

χ2k

(8.45)

H0

χ2k ;

(8.46)





ambas son versiones asintóticamente equivalentes del contraste de Wald. Véase Garthwaite et al. (1995), p. 89.

Capítulo 9

Máxima verosimilitud, complejidad y selección de modelos

9.1. Introducción William de Ockham (1290?–1349?) propuso como criterio para seleccionar lo que hoy llamaríamos modelos el prescindir de complicaciones innecesarias; el «no multiplicar las entidades sin necesidad.» Entre dos posibles explicaciones de un mismo fenómeno, Ockham sugería así que retuviéramos la más simple. Un principio que se ha popularizado como «la navaja de Ockham.» Es difícil —tal vez imposible— justificar tal recomendación si pretendemos hacerlo con rigor. Se puede ver como una regla de economía intelectual. Pero ha de ser la adecuación entre modelo1 y realidad lo que guíe nuestro esfuerzo, si somos realistas; no nuestra comodidad intelectual. ¿Por qué hemos de preferir explicaciones simples si el mundo real, en muchas de sus manifestaciones, parece extremadamente complejo? Quizá la mejor línea de defensa argumental de la recomendación de Ockham pueda basarse en su extraordinario éxito. La búsqueda de explicaciones «simples» ha sido un criterio que ha guiado la perspicacia de los científicos casi invariablemente hacia «buenos» modelos: modelos con relativa gran capacidad explicativa 1 Siendo acaso muy impreciso con el lenguaje, utilizo «modelo» para designar un mecanismo formalizable en ecuaciones matemáticas que suponemos «explica» un fenómeno.

121

122CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS que frecuentemente se funden armoniosamente con otros en unificaciones progresivamente mejores. Esto ha sucedido en Física y también en otras disciplinas. Pero ¿qué es simple? Porque para seguir el consejo de Ockham necesitamos saber cuando uno de dos modelos es más simple que otro. Hay casos en los que hay poca duda. Entre dos modelos que proporcionen predicciones igualmente buenas, si uno hace uso de todos los supuestos de otro y alguno adicional, preferiremos el primero. Hablaremos en tal caso de modelos anidados. Pero esto es la excepción y no la regla. Más bien se nos presenta con frecuencia el caso de modelos «solapados» o incluso aparentemente «disjuntos.» Se hace mucho más difícil en este caso decidir cuál es el más simple. Y el problema sólo puede complicarse cuando tenemos modelos estadísticos que ofrecen un grado diferente de explicación o ajuste de la evidencia empírica. ¿Qué debemos preferir: un modelo muy simple, que sólo imprecisamente parece dar cuenta del fenómeno de interés, u otro que logra gran precisión al coste de una complejidad mucho mayor? ¿Qué precio debemos pagar por la simplicidad en términos de adecuación de los resultados proporcionados por nuestro modelo a los datos reales? O, alternativamente, ¿qué complejidad adicional está justificada por un mejor ajuste a la evidencia? Ejemplo 9.1 Consideremos el caso en que tratamos de establecer un modelo de regresión relacionando la talla y el peso de un colectivo de personas. Imaginemos N pares de valores (Tallai , Pesoi ). Cabría imaginar una relación lineal entre ambos, o una relación polinómica (que, a la luz de la naturaleza de los datos, presupondríamos fácilmente cúbica). Es decir, podemos pensar, entre otras, en las siguientes dos relaciones entre Talla y Peso: Pesoi Pesoi

= β0 + β1 Tallai + ǫ = β0 + β1 Tallai + β2 (Tallai )2 + β3 (Tallai )3 + ǫ.

(9.1) (9.2)

Los βi son parámetros y ǫ es una perturbación aleatoria inobservable que diluye la relación entre las dos magnitudes objeto de estudio: dos personas de la misma talla no necesariamente tienen el mismo peso. Es claro que (9.2) es un modelo más complejo que (9.1), que puede verse como un caso particular de aquél. No sólo podríamos pensar en dos relaciones como las citadas (la segunda de las cuales siempre proporcionará un mejor ajuste que la primera, si nos dejan escoger los parámetros). Podríamos pensar en una relación funcional ajustando perfectamente los datos. Por ejemplo, un polinomio de grado N −1 (suponemos que no hay abscisas Tallai repetidas). Intuitivamente, parece que tal relación funcional es mucho más compleja, y aunque el ajuste a los N puntos muestrales fuera perfecto, seríamos bastante reticentes a aceptar un polinomio de grado muy elevado como modelo adecuado de una relación subyacente entre talla y peso.

El ejemplo anterior sugiere que el número de parámetros de un modelo es un candidato a medir su complejidad. También que, a mayor numero de parámetros — si trabajamos con modelos anidados—, mejor ajuste del modelo a los datos muestrales. Sin embargo, en una situación como la anterior podríamos acaso preferir una

9.2. LA LÓGICA MÁXIMO-VEROSÍMIL Y LA ELECCIÓN DE MODELOS123 relación cúbica a una lineal —la mejora de ajuste quizá «vale» los dos parámetros adicionales de «complejidad»—, pero seríamos reticentes a admitir como modelo un polinomio de grado N − 1. Este tipo de planteamiento se ha hecho desde largo tiempo, y hay un sin número de criterios de bondad de ajuste que dan orientaciones para dirimir el conflicto ajuste–simplicidad. Volveremos sobre ellos más tarde tras considerar brevemente las ideas de Kolmogorov, Chaitin y Solomonoff. A la luz de su contribución —y a la de la precedente y fundamental de Shannon— se puede ver el trabajo estadístico desde una nueva óptica, que ha encontrado un enérgico y brillante valedor en Rissanen (véase Rissanen (1989)).

9.2. La lógica máximo-verosímil y la elección de modelos 9.2.1. Criterio máximo verosímil y modelos con diferente número de parámetros Es interesante ver el parentesco del principio de máxima verosimilitud con la «navaja de Ockham.» No es la misma cosa, pero sí muestra cierta similitud: evitar el pensar en sucesos infrecuentes cuando hay alternativas más plausibles que dan cuenta de lo que observamos es un modo de buscar simplicidad. Es preciso enfatizar que mientras el método máximo-verosímil no ofrece problemas en la estimación de los parámetros de un modelo, no es utilizable tal cual para escoger entre modelos con diferente número de parámetros: los modelos más parametrizados tenderán a dar valores mayores de la función de verosimilitud, sin que ello suponga que sean mejores. El siguiente ejemplo es ilustrativo. Ejemplo 9.2 Supongamos cien monedas, aparentemente idénticas, cada una de ellas con dos caras que denotamos por «cara» (C) y «cruz» (+). Imaginemos que cada una de ellas tiene probabilidad θ de proporcionar C en un lanzamiento2 y correlativa probabilidad 1 − θ de proporcionar ’+’. Lanzamos las cien monedas y obtenemos el resultado x = (x1 , . . . , x100 ) con sesenta ’C’ y cuarenta ’+’. La Teoría de la Probabilidad indica que si la probabilidad de ’C’ es θ, la probabilidad del suceso considerado3 viene dada por, P (x|θ)

=

θ60 (1 − θ)40 ;

(9.3)

un sencillo cálculo muestra que el estimador máximo verosímil de θ (que 6 . El correspondiente valor de P (x|θ) es ≈ hace máxima (9.3)) es θˆ = 10 −30 5,9085 × 10 . Llamamos verosimilitud de la muestra x = (x1 , . . . , x100 ) a la expresión (9.3) vista como función de θ. El maximizar dicha expresión respecto de θ supone entonces escoger el valor del parámetro (estado de la Naturaleza) que hace más probable un suceso como el observado. 2

Con lo cual, para simplificar, queremos decir que imaginamos que en una sucesión muy larga de lanzamientos tenderíamos a observar un 100θde ’C’ y el resto de ’+’. 3 Es decir, sesenta «caras» y cuarenta «cruces» precisamente en el orden en que ` han ´ aparecido; si prescindiéramos de considerar el orden, la cifra dada habría de multiplicarse por 100 . 60

124CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS Una alternativa sería imaginar que cada moneda, pese a ser aparentemente idéntica a las restantes, tiene su propia probabilidad de proporcionar ’C’ ó ’+’. La expresión (9.3) se transformaría entonces en P (x|θ)

=

Y i

θi

Y (1 − θj ),

(9.4)

j

en que el primer producto consta de sesenta términos y el segundo de cuarenta. Siendo 0 ≤ θ ≤ 1, (9.4) se maximiza dando a θk , k = 1, . . . , 100, valor 1 ó 0, según la moneda correspondiente haya proporcionado cara o cruz. El valor máximo de (9.4) es así 1. Es poco natural atribuir a cada moneda una probabilidad θi de «cara» diferente, habida cuenta de que parecen iguales. Obviamente, al hacerlo maximizamos la probabilidad de observar algo como lo acontecido: ¡con la elección referida de los cien parámetros θ1 , . . . , θ100 el suceso observado pasaría a tener probabilidad 1, lo que hace el suceso casi seguro! Sin embargo, aparte de poco atractivo intuitivamente, el modelo es claramente más complejo que el que usa sólo un parámetro, y difícilmente sería adoptado por nadie. Y ello a pesar de que tendría óptima capacidad generadora de un resultado como el observado.

Observación 9.1 Un fenómeno similar al que el ejemplo anterior muestra en un caso un tanto artificial y extremo se presenta cuando tratamos de seleccionar un modelo de regresión lineal. En presencia de normalidad en las perturbaciones, es fácil ver que el valor de la verosimilitud decrece monótonamente al crecer la suma de cuadrados de los residuos (SSE). Seleccionar el modelo dando lugar al máximo valor de la verosimilitud, sería equivalente a tomar aquél con mínima suma de cuadrados. Esto a su vez implica favorecer los modelos excesivamente parametrizados, porque la inclusión de un nuevo regresor siempre hace disminuir (o por lo menos no aumentar) SSE. Como conclusión provisional de lo anterior, el criterio máximo verosímil es intuitivamente atrayente, aparte de tener propiedades muy deseables en grandes muestras (véase por ejemplo, Lehmann (1983); Cox y Hinkley (1974)); pero no puede tomarse en consideración para comparar modelos cuya complejidad —en un sentido aún por determinar, pero que parece tener mucho que ver con el número de parámetros— es muy disimilar.

9.2.2. El criterio AIC Akaike propuso (ver Akaike (1972), Akaike (1974) reimpreso en Akaike (1991)) un criterio de selección de modelos que toma en cuenta el número de parámetros ajustados en cada uno: busca con ello corregir la tendencia del criterio máximo verosímil a favorecer los modelos más parametrizados. El criterio AIC enlaza con trabajo anterior del mismo autor (ver Akaike (1969), Akaike (1970)) y fue la primera de una larga serie de propuestas similares. Examinaremos en lo que sigue su fundamento siguiendo los trabajos Akaike (1991) y de Leeuw (2000).

9.2. LA LÓGICA MÁXIMO-VEROSÍMIL Y LA ELECCIÓN DE MODELOS125 Consideramos el caso en que con una muestra de tamaño N hemos de seleccionar uno entre m modelos. Cada uno de ellos se caracteriza por pertenecer su vector de parámetros θ a un diferente espacio paramétrico, Θk . Se verifica . . . Θk ⊂ Θk+1 ⊂ . . . Θm ;

(9.5)

denotamos θk ∈ Θk al vector de parámetros correspondiente al modelo k-ésimo, y θˆk a su estimador máximo verosímil. Ejemplo 9.3 Consideremos modelos autorregresivos de órdenes crecientes, Xt = θ1 Xt−1 + . . . + θk Xt−k + ǫ;

(9.6)

tenemos que θ = (θ1 , . . . , θk ) ′ y los vectores de parámetros de los diferentes modelos toman valores en espacios anidados.

Para contrastar la hipótesis H0 : θ ∈ Θk frente a Ha : θ ∈ Θℓ , ℓ > k, podemos recurrir al estadístico razón generalizada de verosimilitudes (Sección 8.5, pág. 109). En efecto, bajo H0 tenemos que   m´axθ∈ Θk fX (x; θ) (9.7) −2 loge ∼ χ2ℓ−k m´axθ∈ Θℓ fX (x; θ) y rechazaremos H0 si el estadístico en el lado izquierdo excede el valor crítico χ2ℓ−k;α. No habría ningún problema si dejáramos ℓ fijo. El problema se presenta cuando al crecer el tamaño muestral N , crecen también k y ℓ. En tal caso, m´axθ∈ Θℓ fX (x; θ) puede llegar a ser una estimación completamente distorsionada —optimista— debido al gran número de parámetros ajustados. El criterio AIC da una respuesta a este problema. Consideremos la expresión: EY

"Z

fX (x; θ0 ) loge

ˆ )) fX (x; θ(Y fX (x; θ0 )

!

#

dx .

(9.8)

ˆ ), la expresión en el corchete es (con Observemos que, para un cierto θˆ = θ(Y ˆ y signo opuesto) la distancia de Kullback-Leibler entre las densidades fX (x; θ) fX (x; θ0 ). Maximizar dicho corchete equivaldría a maximizar Z

n

ˆ fX (x; θ0 ) loge fX (x; θ)dx ≈

1X ˆ loge fX (zi , θ), n

(9.9)

i=1

lo que muestra que θˆ debería ser aproximadamente el estimador máximo verosímil. Limitarse a maximizar el corchete estaría sujeto a los problemas derivados de tomar como modelo el que maximiza la verosimilitud (Ejemplo 9.2 y Observación 9.1 más arriba). Pero la propuesta de Akaike es diferente: propone maximizar toda la expresión (9.8).

126CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS Para convencernos de la razonabilidad de (9.8) como expresión a maximizar podemos reescribirla en términos de Teoría de la Decisión. Tenemos que

ˆ =− L(θ0 , θ)

Z

fX (x; θ0 ) loge

ˆ )) fX (x; θ(Y fX (x; θ0 )

!

dx

(9.10)

es una medida razonable de la pérdida derivada de seleccionar el modelo correspondiente a θˆ en lugar del “correcto”, correspondiente a θ0 . El riesgo h i ˆ )) ˆ = EY L(θ0 , θ(Y rθ0 (θ)

(9.11)

coincide entonces (salvo en el signo) con la expresión propuesta por Akaike, de manera que maximizar (9.8) es equivalente a minimizar el riesgo (9.11). La expresión (9.11) depende de θ0 , y no es por ello directamente minimizable. Pero

2rθ0 (θˆk)

= ≈ def

=

"

fX (x; θˆk(Y )) EY ,X −2 loge fX (x; θ0 ) ! n 2X fX (xi ; θˆk) − loge n fX (xi , θ0 )

!#

(9.12) (9.13)

i=1

Dn (θˆk, θ0 ).

(9.14)

Dado que Dn (θˆk, θ0 ) no es evaluable (depende de θ0 ), podemos tratar de estimar 2rθ0 (θˆk) por Dn (θˆk, θˆℓ); si la parametrización “correcta” θ0 se encuentra entre p las consideradas, entonces, al ajustar el modelo más parametrizado θˆℓ−→ θˆ0 y p podríamos esperar que Dn (θˆk, θˆℓ)−→ Dn (θˆk, θ0 ). Este no tiene por qué ser el caso si ℓ → ∞ cuando n → ∞: en tal caso, Dn (θˆk, θˆℓ) será una estimación optimista de Dn (θˆk, θ0 ), debido al gran número de parámetros empleado en su denominador. El criterio AIC busca corregir este sesgo optimista obteniendo una estimación aproximadamente insesgada de Dn (θˆk, θ0 ). En lugar de utilizar la función de pérdida directamente nos serviremos de aproximaciones de segundo orden como     L(θ0 , θ) ≈ L(θ0 , θ0 )+ L′ (θ0 , θ) θ=θ0 (θ−θ0 )+(θ − θ0 ) ′ L′′ (θ0 , θ) θ=θ0 (θ−θ0 );

9.2. LA LÓGICA MÁXIMO-VEROSÍMIL Y LA ELECCIÓN DE MODELOS127 bajo suficientes condiciones de regularidad,     Z  ′  ∂ fX (x; θ) L (θ0 , θ) θ=θ0 = −fX (x; θ0 ) loge dx ∂θ fX (x; θ0 ) θ=θ0   Z ∂ loge fX (x; θ) = −fX (x; θ0 ) dx ∂θ θ=θ0   Z ∂ 1 dx fX (x; θ) = −fX (x; θ0 ) fX (x; θ0 ) ∂θ θ=θ0  Z  ∂ dx = − fX (x; θ) ∂θ θ=θ0   Z ∂ fX (x; θ)dx = − ∂θ θ=θ0 = 0. En consecuencia, L(θ0 , θ) ≈ (θ − θ0 ) ′ L′′ (θ0 , θ)(θ − θ0 ). Como (véase la Definición 5.1, pág. 62)  ′′  L (θ0 , θ) (θ−θ0 ) = I(θ0 ),

(9.15)

(9.16)

en que I(θ0 ) es la información de Fisher contenida en X, tenemos que L(θ0 , θ) ≈ (θ − θ0 ) ′ I(θ0 )(θ − θ0 ).

(9.17)

Definamos h., .iI(θ0 ) así: ha, biI(θ0 ) = a ′ I(θ0 )b,

(9.18)

y consiguientemente kak2I(θ0 ) = a ′ I(θ0 )a. Sea θ0|k= arg m´ın kθ0 − θk2I(θ0 ) , def

θ

(9.19)

es decir, la proyección de θ0 sobre Θk en la métrica inducida por h., .iI(θ0 ) . Tenemos entonces que: L(θ0 , θˆk) ≈ (θˆk − θ0 ) ′ I(θ0 )(θˆk − θ0 ) = kθˆk − θ0 k2 I(θ0 )

= kθˆk − θ0|kk2I(θ0 ) + kθ0|k − θ0 k2I(θ0 ) +hθˆk − θ0|k, θ0|k − θ0 iI(θ0 ) .

Consideremos ahora ˆ n (θˆ0 , θ0|k) ≈ n(θˆ0 − θ0|k) ′ I(θ0 )(θˆ0 − θ0|k) nD ˆ n (θˆk, θ0|k) ≈ n(θˆk − θ0|k) ′ I(θ0 )(θˆk − θ0|k). nD

(9.20)

128CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS Cuando n → ∞, θˆ0 → θ0 y θˆk → θ0|k. Supongamos que k → ∞ de modo que 1

θ0|k → θ a la velocidad suficiente (basta que n 2 (θ − θ0|k) 6→ ∞.) Entonces, ˆ n (θˆ0 , θ0|k) ≈ nk(θˆ0 − θ0|k)k2 nD I(θ0 )

ˆ n (θˆk, θ0|k) ≈ nk(θˆk − θ0|k)k2 nD I(θ0 ) y tomando la diferencia de ambas expresiones, 2 ˆ n (θˆk, θˆ0 ) ≈ nk(θˆ0 − θ0|k)k2 ˆ nD I(θ0 ) − nk(θ k − θ0|k)kI(θ0 )

= nkθ0|k − θk2I(θ0 ) + nkθˆ0 − θk2I(θ0 )

(9.21)

− 2nhθˆ0 − θ, θ0|k − θ0 iI(θ) − nkθˆk − θ0|kk2I(θ0 )

Haciendo uso de (9.20) y (9.21) y tomando valor medio, los productos internos son aproximadamente cero en comparación con los otros términos y tenemos: h i h 2 ˆ n (θˆk, θˆ0 ) = E nkθˆk − θ0|kk2 E nL(θ, θˆk) − nD I(θ0 ) + nkθ0|k − θkI(θ0 )

− 2nhθˆk − θ0|k, θ0|k − θiI(θ) − nkθ0|k − θk2I(θ0 )

nkθˆ0 − θk2I(θ0 ) + 2nhθˆ0 − θ, θ0|k − θiI(θ) i + nkθˆk − θ0|kk2I(θ0 ) .

(9.22)

Cancelando términos de signo opuesto nos queda: h i 2 ˆ n (θˆk, θˆ0 ) = 2nkθˆk − θ0|kk2 ˆ E nL(θ, θˆk) − nD I(θ0 ) − nkθ0 − θkI(θ0 ) . (9.23)

Por lo tanto, el sesgo en que incurrimos al aproximar E[nL(θ, θˆk)], que es lo ˆ n (θˆk, θˆ0 )], que es lo que podemos utilizar, es que desearíamos utilizar, por E[nD la suma de los dos términos en (9.23). El último de ellos es independiente de k, y podemos prescindir de él. El primero tiene valor medio 2k. Por consiguiente, adoptaremos como modelo el que corresponda a θk minimizando ˆ n (θˆk, θˆ0 ) + 2k, nD

(9.24)

ˆ n (θˆk, θˆ0 ) en (9.12) equivale a minimizar lo que a la vista de la definición de D n

AIC(θk) = −

2X loge fX (xi ; θˆk) + 2k, n i=1

expresión habitualmente utilizada como definición del criterio AIC.

(9.25)

9.3. TEORÍA DE LA INFORMACIÓN

129

9.3. Teoría de la información Precisamos de un último ingrediente antes de introducir la noción de complejidad según Kolmogorov-Chaitin-Solomonoff, y su aplicación, entre otras, estadística. Es la Teoría de la Información, para la que Shannon (1948) (reimpreso en Shannon y Weaver (1949)) continúa siendo una referencia fundamental además de fácilmente accesible a no matemáticos. Otros textos introductorios son Abramson (1966) y Cullman et al. (1967). Supongamos una fuente aleatoria de símbolos a1 , . . . , ak que genera una sucesión de los mismos con probabilidades respectivas p1 , . . . , pk . Supongamos que símbolos sucesivos se generan de modo independiente4 . Nos planteamos el problema de codificar (por ejemplo, binariamente) el flujo de símbolos, de tal modo que la transmisión de los mismos pueda hacerse con el mínimo número de dígitos binarios en promedio. La solución es bastante obvia, y no se separa de la que Samuel Morse adoptó sobre base intuitiva al diseñar el código que lleva su nombre: reservaremos palabras de código (dígitos binarios, o combinaciones de ellos) «cortas» a los símbolos que se presenten con gran probabilidad, y asignaremos las de mayor longitud a los símbolos más improbables. De este modo, gran parte del tiempo estaremos transmitiendo palabras de código cortas5 . Shannon dio base matemática a esta intuición, obteniendo algunos resultados de gran interés. En lo que sigue, sólo se proporcionan versiones simplificadas de algunos de ellos, que no obstante retienen bastante de su interés y evitan complicaciones formales. Pero bastantes enunciados podrían ser más generales6 . Central a la Teoría de la Información es el concepto de entropía. Si tenemos una fuente aleatoria como la aludida al comienzo de la sección, generando k símbolos independientemente unos de otros con probabilidades respectivas (p1 , . . . , pk ), la entropía de la fuente (o de la distribución asociada a ella) viene dada por H(p)

def

=



k X

pi log2 pi ,

i=1

con el convenio de que p log2 p = 0 si p = 0. La función H(p) tiene bastantes propiedades interesantes. Una de ellas, inmediata, es que se anula cuando la distribución de símbolos se hace causal —es decir, cuando un símbolo se genera con probabilidad 1 y el resto con probabilidad cero—. Alcanza su máximo cuando la distribución es lo más difusa posible —en el caso de una distribución discreta que puede dar lugar a k símbolos, cuando cada uno de ellos tiene probabilidad k1 de aparecer—. 4 Es decir, que la fuente es de memoria nula. Se puede extender la teoría a fuentes markovianas en que este supuesto está ausente. 5 Morse reservó el . para la letra e, muy frecuente en inglés, reservando para símbolos bastante más infrecuentes los códigos más largos (por ejemplo el cero, 0, codificado mediante -----). 6 En particular, las distribuciones utilizadas podrían ser continuas en vez de discretas, y los logaritmos en cualquier base, en lugar de binarios.

130CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS

Cuadro 9.1: Ejemplo de construcción de código de Fano-Shannon.

Símbolo a1 a2 a3 a4

pi 0,500 0,250 0,125 0,125

Pi =

P

j
0 0,500 0,750 0,875

Pi 0.000000. . . 0.100000. . . 0.110000. . . 0.111000. . .

L(i) = ⌈− log2 pi ⌉ 1 2 3 3

Código 0 10 110 111

Un resultado muy fácil de demostrar7 es el siguiente: Teorema 9.1 Para cualesquiera distribuciones discretas asignando respectivamente probabilidades (p1 , . . . , pk ) y (q1 , . . . , qk ) a k símbolos (a1 , . . . , ak ), se tiene: −

k X i=1

pi log2 qi ≥ −

k X

pi log2 pi .

(9.26)

i=1

Hay otros interesantes hechos en los que la entropía juega un papel central. Por ejemplo, la mejor codificación que podemos hacer de los símbolos (a1 , . . . , ak ) requiere en promedio un número de dígitos binarios por símbolo acotado inferiormente por H(p). Esto es intuitivamente coherente con la interpretación ya aludida de la entropía: H(p) muy baja, significaría distribución de las probabilidades de los símbolos muy concentrada (dando gran probabilidad a uno o unos pocos símbolos, y poca al resto). Ello permitiría codificar los pocos símbolos muy probables con palabras de código muy cortas, y sólo raramente hacer uso de palabras más largas (para los símbolos más improbables). Ejemplo 9.4 (código de Fano-Shannon) Veamos un modo de hacerlo. Supongamos una fuente generando cuatro símbolos a1 , a2 , a3 , a4 ordenados de acuerdo a sus probabilidades respectivas p1 , p2 , p3 , p4 . Supongamos que éstas son P las que se recogen en la segunda columna del Cuadro 9.1. Sea Pi = j
Véase por ejemplo Abramson (1966), p. 30.

9.3. TEORÍA DE LA INFORMACIÓN

131

Figura 9.1: Arbol binario completo de profundidad tres

0

1

00

000

01

001

010

10

011

100

11

101

110

111 2−L(i) =

codifica por 10 que no es comienzo de ninguna de las dos palabras de código de longitud tres (110 y 111). Esta propiedad —la de ser un código libre de prefijos o instantáneo permite decodificar «al vuelo». Cuando observamos 10, sabemos que hemos llegado al final de una palabra, que podemos decodificar como a2 ; esto no ocurriría si nuestro código incluyera palabras como 101. Los códigos libres de prefijos tienen longitudes de palabra L(i) verificando la llamada desigualdad de Kraft, recogida en el siguiente Teorema 9.2 La condición necesaria y suficiente para que exista un código libre de prefijos con longitudes de palabra L(1), . . . , L(k) es que X 2−L(i) ≤ 1 (9.27) i

D EMOSTRACIÓN∗ : La demostración es muy simple. Pensemos en todas las posibles palabras de todas las longitudes dispuestas en un árbol binario como el recogido en el Gráfico 9.1 (truncado a la profundidad 3). Si utilizáramos como palabras de código todas las de longitud 3, tendríamos L(i) = 3 y 2−l(i) = 81 para i = 1, . . . , 8 y la inecuación (9.27) se verificaría con igualdad. Si escogemos una de las palabras de longitud inferior (uno de los nodos que no son «hojas» en el Gráfico 9.1), el requerimiento de ausencia de prefijos nos obliga a prescindir de todas las palabras correspondientes a nodos «hijos». El Gráfico 9.2

1 8

132CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS

Figura 9.2: Arbol binario truncado

0

1

2−L(i) = 2−1 =

1 2

10

11 2−L(i) = 2−2 =

100

1 4

101

2−L(i) = 2−3 =

1 8

2−L(i) = 2−3 =

1 8

representa un árbol truncado con cuatro nodos terminales u «hojas», junto a las que se ha escrito 2−L(i) . Vemos que el tomar en 0 obliga a prescindir de 01, 00, y todos sus descendientes; pero 2−1 —contribución de 0 al lado izquierdo de (9.27)— es igual a la suma de las contribuciones a dicha expresión de todos los descendientes de los que hemos de prescindir. Por tanto, trunquemos como trunquemos el árbol binario, la suma de 2−L(i) extendida a sus «hojas» o nodos terminales será siempre 1. La desigualdad (9.27) sólo es estricta cuando despreciamos algún nodo terminal al construir nuestro código.

Podemos ya bosquejar la demostración del siguiente resultado: P Teorema 9.3 Dada una fuente aleatoria con entropía H(p) = − i pi log2 pi cualquier código instantáneo precisa un promedio de al menos H(p) dígitos binarios de código por símbolo. Es decir, si la palabra codificando ai tiene longitud L(i), se verifica: X X pi L(i) ≥ − pi log2 pi (9.28) i

i

D EMOSTRACIÓN : Definamos qi =

2−L(i) P −L(i) , i2

(9.29)

9.4. COMPLEJIDAD EN EL SENTIDO DE KOLMOGOROV

133

con lo que log2 qi = −L(i) − log2

X i

−L(i)

2

!

≥ −L(i).

(9.30)

La desigualdad anterior junto con el Teorema 9.1 proporcionan entonces de inmediato (9.28).

Obsérvese que el código de Fano-Shannon hacía L(i) ≈ − log2 pi (redondeaba a la unidad superior): aproximadamente lo correcto. Verificaría (9.28) con igualdad si − log2 pi (i = 1, . . . , k) resultaran ser siempre números enteros. En cualquier caso, el resultado que nos interesa es que para codificar un evento de probabilidad pi , el código libre de prefijos óptimo requiere del orden de − log2 pi dígitos binarios.

9.4. Complejidad en el sentido de Kolmogorov 9.4.1. Información y complejidad Estamos ya en condiciones de abordar la noción de complejidad según KolmogorovChaitin-Solomonoff. De cuanto se ha visto en la Sección 9.3 se deduce que log2 pi mide aproximadamente la información contenida en ai . Se da sin embargo una paradoja, ya puesta de manifiesto por Laplace (véase por ejemplo Cover et al. (1989)), que sugiere emplear como medida de la complejidad de ai algo diferente (aunque íntimamente relacionado con lo anterior). Imaginemos las dos siguientes cadenas de dígitos binarios: 0000000000000000000000000000000 0011010001011101010001010111011 Ambas tienen el mismo número de dígitos binarios, 31. Si imaginamos el conjunto de todas las cadenas de 31 dígitos binarios —hay 231 diferentes— y tomamos de ellas una al azar, cualquiera de las dos exhibidas tiene la misma probabilidad de aparecer: 2−31 . Sin embargo, desearíamos asignar a la primera una complejidad menor que a la segunda. Un modo de racionalizar esto es que podemos transmitir la primera a un tercero mediante una descripción muy parca: «treinta y un ceros.» La segunda requiere una descripción más verbosa, que a duras penas podría ser más escueta que la cadena misma8 . 8

Esto es lo que caracteriza a las cadenas binarias «típicas»; véase por ejemplo Li y Vitányi (1993).

134CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS

9.4.2. Complejidad de Kolmogorov∗ Una idea prometedora en línea con la discusión anterior fue propuesta en los años sesenta por Solomonoff, Kolmogorov y Chaitin, de manera independiente unos de otros y con ligeras variantes9 . La complejidad de Kolmogorov de una cadena binaria x es la longitud del mínimo programa p capaz de computarla. Formalmente, Cf (x) = m´ın {l(p) : f (p) = x} .

(9.31)

Por razones técnicas, f en (9.31) debe ser una función recursiva —el tipo de función que puede computar una máquina de Turing—. Naturalmente, el «programa» p que, al ser ejecutado por el «computador» f , produce la cadena x, depende de f . Sea cual fuere x, podríamos imaginar un «computador» especializado que tan pronto se pone en marcha imprime x —es decir, que requiere un programa de longitud l(p) = 0 para computar x. ¿Implicaría esto que la complejidad de x es cero? No. La complejidad de x relativa a la máquina de Turing que computa f vendría dada por (9.31). Relativa a otra máquina de Turing computando la función g sería Cg (x), definida análogamente a Cf (x). Definiremos la complejidad de Kolmogorov en relación a una máquina de Turing universal —una máquina que con el programa adecuado puede emular cualquier otra—. No hay una única máquina universal, pero para dos máquinas universales de Turing computando las funciones u y v y para cualquier cadena x se verifica |Cu (x) − Cv (x)| ≤ cu,v ,

(9.32)

en que cu,v es una constante que depende de u y de v, pero no de x. Ejemplo 9.5 En Li y Vitányi (1993) se propone una ilustración de lo anterior que ayuda a la intuición a ver el sentido de (9.32). Hay lenguajes de alto nivel especializados en cálculo numérico y en cálculo simbólico: FORTRAN y LISP serían dos buenos ejemplos. Cierto tipo de problemas pueden programarse muy fácilmente en FORTRAN y son considerablemente más farragosos en LISP; en otros ocurre lo contrario. Pero podríamos imaginar programar en FORTRAN un intérprete de LISP (requiriendo un programa de c1 bits de longitud) y en LISP uno de FORTRAN (requiriendo a su vez una longitud de c2 bits). Entonces, la diferencia de longitudes de programa para resolver un mismo problema en FORTRAN o LISP nunca excedería de cF,L = m´ax c1 , c2 ; CF,L sería el máximo «precio» a pagar para implementar el lenguage más favorable al problema a mano en el otro lenguaje. Este precio es independiente del programa que se desea ejecutar: una vez programado en FORTRAN un interprete de LISP podemos emplear éste para ejecutar programas en LISP de cualquier longitud. 9

La precedencia en el tiempo parece corresponder a Solomonoff: como en tantas otras ocasiones, la escena estaba preparadas en los años cincuenta para que investigadores trabajando de modo independiente llegarán a resultados similares. Véase una historia somera en Li y Vitányi (1993), Sección 1.6.

9.4. COMPLEJIDAD EN EL SENTIDO DE KOLMOGOROV

135

Todas las máquinas de Turing universales (o, alternativamente, las funciones recursivas que computan) se agrupan en clases de equivalencia en que cada pareja de funciones verifica (9.32), para una constante que sólo depende de la pareja considerada. Se puede demostrar que existe una «clase mínima», en el sentido de que (9.32) no se verifica para ninguna constante cu,v si u pertenece a la clase mínima y v no. Entonces, Cu (x) define (salvo una constante) la complejidad de una cadena binaria x.

9.4.3. Cu (x) no es computable∗ El desarrollo anterior es útil por su poder clarificador, pero no directamente aplicable para computar un número que sea complejidad de una cierta cadena binaria. No existe un algoritmo con garantía de término que, al ser ejecutado por una máquina de Turing y alimentado con una cadena binaria, proporcione su complejidad. No este el lugar para una discusión detallada de la no computabilidad de la complejidad de Kolmogorov, pero si puede intentarse una percepción intuitiva del motivo10 . Imaginemos una cadena binaria x de n bits. Su complejidad no puede exceder mucho de n bits, ya que x es una descripción de sí misma. El programa más corto generando x no puede ser más largo que «print x», o su equivalente en la máquina de Turing de referencia que estemos empleando. Supongamos que la longitud de dicho programa es (n + c) bits. Podríamos ingenuamente pensar en formar una tabla con las cadenas binarias de longitud menor o igual que (n + c), y ejecutarlas sucesivamente como programas en nuestra máquina de Turing, anotando si el resultado es x o no. Cada vez que obtuviéramos x, anotaríamos la longitud de la cadena binaria que hubiera servido como programa. Al final, la menor de las longitudes así anotadas, sería la complejidad de x. Pero nada garantiza que haya final, porque nada garantiza que la máquina de Turing que empleamos se detenga al ejecutar como programa una cualquiera de las cadenas que le pasamos; mucho menos que lo haga con todas. La no computabilidad de Cu (x) deriva del halting problem, o imposibilidad de determinar anticipadamente si una máquina de Turing se detendrá o proseguirá indefinidamente ejecutando un programa determinado. Sobre la no computabilidad de Cu (x), y su relación con el teorema de Gödel y la indecidibilidad de proposiciones puede verse Li y Vitányi (1993) y Chaitin (1987).

10 Que sigue el razonamiento en el último capítulo de Ruelle (1991), una introducción muy legible y diáfana al tratar esta cuestión, aunque sólo lo haga tangencialmente al final.

136CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS

9.5. De la complejidad de Kolmogorov a la Longitud de Descripción Mínima (MDL) Si bien no podemos hacer uso directamente de la complejidad de Kolmogorov para escoger entre distintos modelos, las ideas expuestas son de forma limitada aplicables. Veremos el modo de hacerlo sobre un ejemplo que, aunque artificialmente simple, ilustra la aproximación propuesta por Rissanen (véase Rissanen (1989)), Ejemplo 9.6 (continuación del 9.2) Regresemos al Ejemplo 9.2. Describir llanamente el resultado de un experimento como el allí realizado al lanzar cien monedas al aire requiere 100 bits, si aceptamos el convenio de utilizar el dígito binario 0 para codificar el resultado ’+’ y el 1 para codificar el resultado ’C’. Obsérvese que 100 bits es exactamente la cantidad de información necesaria para singularizar una cadena binaria de longitud 100 de entre las 2100 posibles cuando no hay nada que haga unas de ellas más plausibles que otras. ¿Lo podemos hacer mejor? Quizá sí. En lo que sigue veremos cómo.. En lo que sigue formalizaremos algo esta idea.

9.5.1. Modelos como generadores de códigos Consideremos una fuente aleatoria que ha generado x. Si tenemos un modelo probabilístico, en general dependiente de parámetros θ, que describe el modo en que se genera x, podemos calcular P (x|θ) para los distintos resultados experimentales. Resultados con P (x|θ) «grande» corresponderán a resultados esperables, que desearíamos claramente codificar mediante palabras de código cortas. Lo contrario ocurre con aquéllos en que P (x|θ) es pequeño. Estamos pensando como si θ fuera fijo y conocido, pero no lo es: lo hemos de escoger (estimar). Si lo hacemos maximizando P (x|θ) (aplicando por tanto el principio de máxima verosimilitud), estamos atribuyendo al resultado x observado la máxima probabilidad. Pero no debemos olvidar que, para que sea posible la decodificación, hemos de facilitar también el valor θ codificado (y la forma de nuestro modelo). El uso de máxima verosimilitud minimiza ⌈− log2 P (x|θ)⌉, pero hace caso omiso de la longitud de código necesaria para θ.

9.5.2. Descripción de longitud mínima (MDL) El agregar a ⌈− log2 P (x|θ)⌉ el número de bits necesario para codificar los parámetros da lugar a la versión más cruda del llamado criterio MDL o de «mínima longitud de descripción.» A efectos de codificar los parámetros hemos de considerar dos cosas. En primer lugar, podemos tener información a priori sobre los mismos, de cualquier procedencia, traducible a una distribución a priori sobre los mismos con densidad π(θ).

9.5. DE LA COMPLEJIDAD DE KOLMOGOROV A LA LONGITUD DE DESCRIPCIÓN MÍNIMA (MDL)137 En segundo lugar, típicamente θ es un número real que requeriría infinitos bits fijar con exactitud. Por ello trabajaremos con una versión truncada de él. Si para el parámetro θ deseamos utilizar q dígitos binarios, llamaremos precisión a δ = 2−q . Suponiendo una densidad a priori π(θ), tendríamos los posibles valores de θ clasificados en intervalos de probabilidad aproximada π(θ)δ, especificar uno de los cuales requiere aproximadamente − log2 π(θ)δ bits. Si hay k parámetros, se tiene la generalización inmediata, − log2 π(θ)

k Y

δi .

(9.33)

i=1

El criterio MDL propone tomar el modelo que minimiza la longitud total de código, la necesaria para los datos x más la necesaria para los parámetros: M DL = − log2 P (x|θ) + l(θ) = − log2 P (x|θ) − log2 π(θ) −

(9.34) k X

log2 δi .

(9.35)

i=1

en que l(θ) es la longitud de código necesaria para transmitir el o los parámetros empleados. Un ejemplo, de nuevo artificialmente simple, ilustra esto. Ejemplo 9.7 (continuación del Ejemplo 9.2) Imaginemos que decidimos truncar el valor de θ en el Ejemplo 9.2 a 8 bits —por tanto sólo consideramos valores con una resolución de δ = 2−8 ≈ 0,003906—. Llamemos Θ∗ al conjunto de valores que puede adoptar el parámetro así truncado. Imaginemos también que tenemos una distribución a priori uniforme π(θ) sobre los valores de θ; como 0 ≤ θ ≤ 1, π(θ) = 1. El criterio MDL para el modelo considerado en el Ejemplo 9.2 tomaría el valor:  M DL = m´ın − log2 θ60 (1 − θ)40 − log2 π(θ) − log2 δ (9.36) θ∈Θ∗

Si suponemos δ constante, sólo nos hemos de preocupar de minimizar el primer término. De poder escoger θ libremente, tomaríamos θ = 0,60. Como estamos truncando los valores, 0.60 no es alcanzable, pero sí lo son (153 + 1 1 2 )/256 = 0,599609 y (154 + 2 )/256 = 0,603516, puntos medios de intervalos de longitud 1/256 en que se subdivide [0, 1] cuando se emplea precisión δ = 2−8 = 1/256. El primero de ellos proporciona el mínimo valor de − log2 P (x|θ), que resulta ser 97,0951. Requerimos un total de 97,0951 + 8 = 105,0951 bits como longitud de descripción. Una alternativa (tal y como se discutió a continuación del Ejemplo 9.2) sería considerar cien parámetros, uno para cada moneda. Ello haría «casi seguro» el suceso observado, y el primer sumando de (9.36) sería cero — especificados los parámetros, no haría falta ningún código para especificar el resultado—. Pero el tercer sumando sería, para la misma precisión, mucho mayor: ¡800 bits! Aunque el modelo binomial haciendo uso de cien parámetros hace casi seguro el resultado observado, es inferior al que sólo hace uso de sólo un parámetro, debido al coste de codificar noventa y nueve parámetros adicionales.

138CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS Cuadro 9.2: Longitud de descripción para diferentes valores de δ. q 1 2 3 4

δ 0.50000 0.25000 0.12500 0.06250

θˆM V 0.90 0.90 0.90 0.90

θˆ 0.75 0.875 0.9375 0.90625

ˆ 10 θˆ90 (1 − θ) 5,4314 × 10−18 5,6211 × 10−15 2,7303 × 10−15 7,447911 × 10−15

ˆ 10 − log2 θˆ90 (1 − θ) 57.35 47.34 48.38 46.93

MDL 58.35 49,34∗ 51.38 50.93

El ejemplo anterior suponía δ fijo a efectos puramente ilustrativos: pero en la práctica se minimiza MDL en (9.35) sobre θ y sobre δ. Es fácil ver que mientras disminuir la precisión (incrementar δ) disminuye el tercer sumando, hace en general crecer el primero (el «mejor» θ en Θ∗ estará en general más lejos del óptimo θ cuanto más tosca sea la discretización de θ). Un último ejemplo permitirá ver el efecto de optimizar la longitud de descripción sobre δ, precisión del parámetro. Ejemplo 9.8 (continuación de los Ejemplos 9.2, 9.6 y 9.7) Consideremos la misma situación del Ejemplo 9.2, pero supongamos —para mostrar un caso en que se obtiene una reducción apreciable de la longitud de descripción— que se han obtenido noventa «caras» ’C’ y diez ’+’. Optimizaremos sobre δ = 2−q dejando variar q sobre los enteros. El estimador máximo verosímil de θ es θˆMV = 0,9. El Cuadro 9.2 muestra el valor de θ entre los posibles que minimiza MDL para cada q. Con un asterisco se señala la descripción más escueta de los datos a que se llega. Obsérvese que cuando consideramos una precisión de δ = 2−q estamos dividiendo [0, 1] en 2q intervalos del la forma [n2−q , (n + 1)2−q ) (n = 0, 2q − 1), cuyo punto medio ˆ es n2−q + 2−q−1 ; éstos son los valores que se recogen en la columna θ. Obsérvese que aquí la longitud de descripción es acusadamente menor que los 100 bits que requeriría describir el resultado de nuestro experimento. Al ser uno de los resultados (’C’) considerablemente más frecuente, podemos diseñar un código que tenga esto en consideración. No ocurría lo mismo en el Ejemplo 9.7, en que la ligera mayor probabilidad de ’C’ dejaba poco margen a la optimización del código; como se vio, la ventaja obtenida no alcanzaba a «pagar» la especificación del parámetro necesario.

9.5.3. De la MDL a la complejidad estocástica∗ La discusión en el apartado anterior no hace sino introducir algunas ideas esenciales; pero en modo alguno hace justicia a la potencia del método. La mínima longitud de descripción (MDL), en cierto sentido, es más de lo que buscábamos. Deseábamos una codificación compacta de x y hemos acabado con una codificación de x y adicionalmente de θ. La complejidad estocástica se obtiene integrando P (x|θ)π(θ) sobre los parámetros. En otras palabras, tenemos una distribución P (x|θ) de los datos dados los parámetros y el modelo, y una

9.5. DE LA COMPLEJIDAD DE KOLMOGOROV A LA LONGITUD DE DESCRIPCIÓN MÍNIMA (MDL)139 densidad a priori π(θ) sobre los parámetros. La complejidad estocástica de los datos x relativa al modelo considerado se define como Z P (x|θ)π(θ) (9.37) I(~x) = Θ

(véase Rissanen (1989) para más detalles). Además, en el caso de que no tengamos una distribución a priori sobre los parámetros, podemos emplear la distribución a priori universal. Supongamos que deseamos una codificación que asigne una palabra de código a todos los números naturales n, sobre los que hay definida una distribución P (n). Bajo condiciones muy generales, existe una codificación asignando longitud de palabra L∗ (n) a n y que verifica PN

n=0 l´ım PN

N →∞

P (n)L∗ (n)

n=0 P (n) log 2 n

= 1

(9.38)

Merece la pena examinar la igualdad anterior: ¡hay una codificación que es asintóticamente óptima sobre los enteros y que es «todo terreno»! ¡Vale sea cual fuere la distribución definida sobre ellos, con tal de que sea monótona decreciente a partir de algún n dado! La función L∗ (n) viene dada aproximadamente por L∗ (n) = log2 c + log2 log2 n + log2 log2 log2 n + . . . ;

(9.39)

con c = 2,865, verifica la desigualdad de Kraft y a partir de ella puede obtener∗ se una distribución a priori universal: P (n) = 2−L (i) . Esta es la que Rissanen propone utilizar en la definición de complejidad estocástica11 . En el caso en que tenemos parámetros que no toman valores enteros, se puede también definir una distribución a priori universal del modo descrito en Rissanen (1983).

9.5.4. Ideas relacionadas y conexas Aunque en el Ejemplo 9.8 se ha buscado la longitud de descripción minimizando explícitamente sobre la precisión (en el Cuadro 9.2), en la práctica no es preciso recorrer un camino similar con cada modelo que se prueba. Argumentos de tipo asintótico dan un resultado similar en forma mucho más simple. Habitualmente sólo se requiere computar una función que da aproximadamente la longitud de descripción, y que típicamente consta de una parte que disminuye al mejorar el ajuste a los datos (término de fidelidad o ajuste) y otra que crece con el número de parámetros (término de penalización de la complejidad del modelo). Por ejemplo, de modo bastante general (véase Rissanen (1989) para las condiciones necesarias) la mínima longitud de descripción de x = (x1 , . . . , xN ) utilizando un modelo con p parámetros viene dada por:   ˆ θ) ˆ + p log N + O(p). (9.40) MDL(p) = − log P (x|θ)π( 2 11

En el Ejemplo 9.7 hemos empleado una densidad π(θ) uniforme por simplicidad.

140CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS Puede verse un primer término que disminuye al mejorar el ajuste y un segundo término (la penalización) que crece con el número de parámetros p y está dominado por p2 log N . A la vista de una expresión como (9.40) es forzoso pensar en los muchos criterios que se han propuesto para evaluar la adecuación de un modelo, muchas veces sobre bases puramente heurísticas. En el caso de modelos de regresión lineal tenemos por ejemplo el estadístico conocido como Cp de Mallows, Cp =

PN

ǫ2 i=1 ˆ σ ˆ2

+ 2p

(9.41)

en que ǫˆ son los residuos de la regresión y σ 2 la varianza del término de error: véase Mallows (1973). El primer término de (9.41) disminuye al mejorar el ajuste o fidelidad del modelo a los datos; el segundo, crece con el número de parámetros. El criterio de información de Akaike introducido en la Sección 9.2.2 y definido por o n (9.42) AIC(p) = −2 loge (Prob x|θˆMV ) + 2p,

también de la misma forma que (9.40), aunque penalizando asintóticamente menos la introducción de parámetros. Los ejemplos podrían multiplicarse; una recopilación reciente de trabajos incorporando ideas como las mencionadas a múltiples campos es Dowe et al. (1996). La búsqueda de longitudes de descripción mínimas o mínimas complejidades no se separa pues, por lo menos asintóticamente, de algunos criterios que han sido utilizados con asiduidad. La novedad está más bien en la justificación de resultados antes obtenidos para problemas concretos y de forma bastante ad-hoc desde una perspectiva unificadora.

9.6. ¿Tiene sentido esto? Se han esbozado ideas que basan la elección de modelos en un criterio de simplificación de la información. Apoyándose en el trabajo pionero que sobre la noción de complejidad y sobre Teoría de la Información se realizó en los años cincuenta y sesenta, estas ideas pueden verse como una navaja de Ockham sofisticada, de posible utilización en el trabajo estadístico. Importa ahora no obstante regresar al origen y preguntarse sobre el alcance, pertinencia y solidez de este modo de actuar. ¿Es la noción de complejidad de Kolmogorov —o versiones menos ambiciosas de la misma idea, como la de Rissanen— el anclaje al que deseamos asirnos para hacer inferencia? No parece evidente. Es un planteamiento no exento de belleza, y que, como se ha indicado, da en su aplicación práctica resultados satisfactorios. ¿Debemos entender por complejidad sólo esto, o algo más? ¿Es la longitud de descripción tal como la hemos presentado una buena medida de la complejidad de un modelo más los datos, haciendo abstracción —por ejemplo— del coste de

9.6. ¿TIENE SENTIDO ESTO?

141

llegar a obtenerlo? Murray Gell-Mann (véase Gell-Mann (1994), p. 117) menciona, haciéndose eco de trabajo de Charles Bennet, que la complejidad tiene facetas como la profundidad y cripticidad. En relación a esta última, por ejemplo, una serie muy larga de números pseudo-aleatorios generados en un ordenador mediante el conocido método multiplicativo, puede tener una complejidad muy baja: se puede describir dando la semilla o valor inicial y los valores de tan sólo dos números. Sin embargo, adivinar cuáles son estos números es muy costoso. ¿Diríamos que esta serie es de baja complejidad? Un modelo es un modo de especificar regularidades. Decimos que «explica» la realidad cuando lo que observamos se adecúa a las predicciones que obtendríamos con ayuda de dicho modelo. En el caso de un modelo estadístico, ni siquiera exigimos una concordancia perfecta entre predicciones y observaciones, porque la esencia de un modelo de tal naturaleza es no fijar unívocamente las relaciones entre observables. Es precisamente la existencia de regularidad en la evidencia lo que permite su descripción escueta. Servirse de un criterio como el de mínima longitud de descripción es aceptar como buena la «explicación» que más regularidades encuentra en nuestros datos —o mejor las explota—. Tiene al menos la ventaja sobre la modelización usual de que explicita el coste a pagar por la complejidad añadida. Queda a medio camino entre la inferencia bayesiana y la convencional, y sortea algunos de los aspectos más criticables en esta última —la fijación arbitraria de niveles de significación, por ejemplo—. Pero, en su raíz, el minimizar la complejidad es un criterio que prioriza la reducción de los datos observados. ¿Es esto sensato? ¿Válido como criterio de inferencia? B. Russell (véase Russell (1912), p. 35) obliga a responder que no. Un pollo que observara al granjero llevarle grano todos los días —dice Russell—, podría llegar a la conclusión de que el granjero le ama y busca su bien. Tal «modelo» explicaría las repetidas visitas al corral del granjero y su solicitud con el animal. Pero esta «explicación», tan repetidamente apoyada por la evidencia durante la vida del pollo, se ve bruscamente sin valor el día que el granjero decide que el pollo está lo suficientemente gordo como para retorcerle el pescuezo. Enfrentados al mundo, querríamos saber porqué, y ni tan solo sabemos si nuestra noción de causalidad tiene sentido; si cabe hablar de un porqué. Querríamos conocer el fin último, si lo hay, de las idas y venidas del granjero: conformarnos con la explicación menos compleja de su conducta nos coloca en situación no mejor que la del pollo. Sin embargo, frecuentemente no podemos hacer más. Enfrentados a este hecho, nuestra pertinaz tentativa de entender encuentra en el criterio de minimizar la longitud de descripción un sucedáneo útil: la vieja navaja de Ockham con un nuevo filo. El éxito que alcancemos con su empleo no debiera hacernos olvidar lo endeble de nuestra posición. Quizá el mayor valor de las ideas expuestas más arriba no esté en las respuestas que proporcionan sino en las preguntas que suscitan.

142CAPÍTULO 9. MÁXIMA VEROSIMILITUD, COMPLEJIDAD Y SELECCIÓN DE MODELOS

Apéndice A

Convergencias estocásticas

A.1. Sucesiones de variables aleatorias Podemos considerar una sucesión aleatoria como la generalización del concepto de variable aleatoria. Una v.a. real es una aplicación X : Ω −→ R (ó X : Ω −→ Rn si se trata de una v.a. multivariante)1 . Una sucesión aleatoria real es una aplicación X : Ω −→ R∞ , que a cada ω ∈ Ω hace corresponder una sucesión de números reales {Xn }. Es importante notar que, fijado ω, {Xn } es una sucesión ordinaria de números reales; la aleatoriedad radica precisamente en la dependencia de ω.

Ejemplo A.1 Las sucesiones aleatorias aparecen de modo natural en multitud de contextos. Imaginemos el caso en que deseamos estimar la probabilidad de que una determinada moneda produzca “cara” al efectuar un lanzamiento. Podríamos, al menos conceptualmente, realizar infinidad de lanzamientos. Si el i-ésimo lanzamiento produce el resultado Xi (ω) = 1 (“cara”)

1

Véase cualquier texto introductorio de Probabilidad y Estadística, por ejemplo Trocóniz (1987), Cap. 5, para una definición precisa. Se requiere que X sea una función medible de Borel, lo que daremos por supuesto. En lo que sigue obviamos también detalles técnicos de similar naturaleza.

143

APÉNDICE A. CONVERGENCIAS ESTOCÁSTICAS

144

ó Xi (ω) = 0 (“cruz”), tendríamos la siguiente sucesión de estimadores: X 1 (ω) X 2 (ω) X 3 (ω)

= X1 (ω) X1 (ω) + X2 (ω) = 2 X1 (ω) + X2 (ω) + X3 (ω) = 3

.. . X n (ω)

=

X1 (ω) + X2 (ω) + . . . + Xn (ω) n

.. .

Podemos ver {X n (ω)} como una sucesión de variables aleatorias. Su estudio cuando n → ∞ proporcionará información sobre el comportamiento esperable de nuestro estimador al dejar crecer sin límite el número de lanzamientos.

Nos interesarán dos cuestiones al estudiar una sucesión aleatoria: ¿Se “aproxima” a alguna distribución concreta la de Xn (ω) cuando n → ∞? ¿Se “aproxima” Xn (ω) a alguna variable aleatoria cuando n → ∞? Para responder a ambas necesitamos nociones adecuadas de “aproximación”.

A.2.

Convergencia en ley

Definición A.1 La sucesión de funciones de distribución FXn (x) converge en distribución (o en ley) a la función de distribución FX (x) si l´ımn→∞ FXn (x) = FX (x) en todo punto de continuidad de ésta última. Por extensión, diremos que la sucesión de v.a. {Xn } converge a X, y lo denotareL

mos así: Xn −→ X.

Observación A.1 Esta notación, sin embargo, no debe crear la falsa impresión de que Xn “se aproxima” a X (en el sentido de tomar valores muy próximos con elevada probabilidad). Nada más lejos de la verdad. Por ejemplo, podríamos tener una sucesión aleatoria {Xn } todos cuyos términos fueran idénticos entre sí, e iguales a una v.a. X con distribución uniforme L U (0, 1). Entonces, Xn −→ Y = 1 − X. La distribución de X (y por tanto de cualquier Xn ) es igual que la de Y (si X ∼ U (0, 1), entonces Y = (1 − X) también se distribuye como U (0, 1)). Sin embargo, el valor de Xn no hay razón para esperar que esté en las cercanías del de Y .

A.3. CONVERGENCIAS EN PROBABILIDAD, MEDIA CUADRÁTICA Y CASI SEGURA145

A.3. Convergencias en probabilidad, media cuadrática y casi segura La intuición sugiere que en el Ejemplo A.1 X n se aproxima a la probabilidad p de “cara”. En Análisis Matemático, decimos que an −→ a si, prefijado un número ǫ > 0, es posible encontrar N (ǫ) tal que para n > N (ǫ) se verifica necesariamente que: |an − a| < ǫ. No podemos decir que X n en el Ejemplo A.1 converja a p en este sentido: sea cual fuere n, podría ocurrir que todos los lanzamientos hubieran proporcionado “cara” (o todos “cruz”). No podemos asegurar, para ningún n, que X n estará a distancia menor de p que un ǫ > 0 prefijado. Sin embargo, en el ejemplo citado, existe elevada probabilidad de que X n ≃ p. Ello sugiere el modo de formalizar la percepción intuitiva de que X n “tenderá” a p diciendo que X n converge en probabilidad a p. La definición precisa de convergencia en probabilidad es la siguiente: Definición A.2 La sucesión {Xn } converge en probabilidad a la variable aleatoria X si ∀ǫ > 0 y ∀δ > 0, ∃N (ǫ, δ) tal que n > N (ǫ, δ) implica Prob {ω : |Xn (ω) − X(ω)| < ǫ} ≥ 1 − δ

(A.1)

o, equivalentemente, si para cualquier ǫ > 0 prefijado l´ım Prob {ω : |Xn (ω) − X(ω)| < ǫ} = 1.

n→∞

(A.2)

Es decir, si podemos lograr que Xn esté en un entorno de X de radio ǫ > 0 prefijado con probabilidad tan cercana a 1 como deseemos, tomando n lo suficientep mente grande. Denotaremos la convergencia en probabilidad mediante Xn −→ X o plimXn = X. p p Es fácil ver que es equivalente escribir Xn −→ X ó (Xn − X)−→ 0. Ejemplo A.2 Definamos una sucesión de variables aleatorias así: Xn =



a con probabilidad 1 − bn con probabilidad n1 .

1 n

Es inmediato comprobar que converge en probabilidad a a. Observemos, sin embargo, que l´ım E[Xn ] = (a + b) 6= a. Una variable puede converger en probabilidad a otra (en este caso, una variable degenerada o causal), que siempre toma el valor a y por tanto tiene valor medio a. Los momentos, sin embargo, no necesitan converger.

En ocasiones, Xn converge a X de un modo aún más estricto, con probabilidad 1 ó casi seguramente.

APÉNDICE A. CONVERGENCIAS ESTOCÁSTICAS

146

Definición A.3 La sucesión {Xn } converge casi seguramente a la variable aleatoria X si: n o Prob ω : l´ım Xn (ω) = X(ω) = 1 (A.3) n→∞

p

c.s.

L

Fácilmente se comprueba que Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X. Es útil examinar ejemplos en que se presenta un tipo de convergencia y no otro, para adquirir intuición sobre su naturaleza y respectivas implicaciones; pueden verse, entre otros muchos, Billingsley (1986), Garín y Tusell (1991), Romano y Siegel (1986). La comparación de las expresiones (A.1) y (A.3) muestra de inmediato que p c.s. Xn −→ X ⇒ Xn −→ X. La implicación recíproca, por el contrario, no se verifica, como el siguiente ejemplo pone de manifiesto. Ejemplo A.3 Ejemplo ondas cuadradas. Definición A.4 Decimos que {Xn } converge en media r a la variable aleatoria X si: l´ım E |Xn − X|r = 0.

n→∞

(A.4)

Con diferencia, el caso más común es el de r = 2; cuando una sucesión verifica (A.4) con r = 2 se dice que converge en media cuadrática a X. Es fácil comprobar (véase Ejercicio A.2) que la convergencia en media cuadrática implica la convergencia en probabilidad. No hay, en cambio, relación entre la convergencia en media cuadrática y casi segura: ninguna implica la otra. L

Teorema A.1 Si Xn −→ X y An , Bn son sucesiones aleatorias convergen en probabilidad a (respectivamente) a, b se verifica: L

An Xn + Bn −→ aX + b

A.4.

Ordenes de convergencia en probabilidad

En Análisis Matemático, se distinguen órdenes de convergencia. Por ejemplo, cuando n → ∞ se dice que an = n2 (1/n) tiende a infinito con orden O(n), o “es O(n)”. Ello significa que existe alguna constante M > 0 para la cuál l´ım an = M n

n→∞

(“la sucesión {an } va a infinito a la misma velocidad que n”). Una sucesión sería de orden o(n) si en la expresión anterior M fuera 0. En general podemos emplear cualquier función f (n) conveniente como patrón de comparación y decir que una sucesión es O(f (n)) o o(f (n)).

A.4. ORDENES DE CONVERGENCIA EN PROBABILIDAD

147

Esto puede generalizarse al caso de sucesiones aleatorias del siguiente modo: decimos que Xn es Op (f (n)) si para todo ǫ > 0 existe Mǫ < ∞ tal que, Prob {|Xn | ≤ Mǫ f (n)} ≥ 1 − ǫ

(A.5)

(“tomando términos lo suficientemente avanzados de la sucesión, la probabilidad de que queden acotados por Mǫ f (n) puede hacerse tan cercana a uno como deseemos”.) De manera análoga se define que {Xn } es op (f (n)) si plimn→∞

Xn = 0. f (n)

(A.6)

Ejemplo A.4 Sea {Xn } una sucesión de observaciones independientes e idénticamente distribuidas, procedentes de una distribución con media m y varianza σ 2 . Construyamos la sucesión {Zn } de medias aritméticas, Zn = (X1 + · · · + Xn )/n. Entonces, E[Zn ] = m y Var(Zn ) = n−1 σ 2 . De acuerdo con la desigualdad de Tchebichev, o n 1 1 Prob |Zn − m| < kσn− 2 ≥ 1 − 2 . k

(A.7)

Es decir, con probabilidad tan grande como queramos —k es arbitraria— la variable aleatoria (Zn − m) queda acotada superiormente por el producto de una constante (kσ, jugando el papel de Mǫ en (A.5)) y una función 1 (n− 2 , jugando el papel de f (n)). Podemos decir entonces que (Zn − m) es 1 Op (n− 2 ). Observese que si una sucesion {Xn } es Op (nk ), también es Op (nk+δ ) para todo δ > 0. La función f (n) en la definición (A.5) es una función que, multiplicada por la constante, Mǫ basta para acotar con probabilidad 1 − ǫ. No se requiere que f (n) en (A.5) sea la más ajustada de las posibles.

Ejemplo A.5 Sea una sucesión {Xn } que converge en probabilidad a X. Entonces la sucesión aleatoria cuyo término general es (Xn − X) es op (1). En efecto, plimXn = X ⇐⇒ plim

(Xn − X) = 0 ⇐⇒ (Xn − X) = op (1) 1

Obsérvese que todas las sucesiones que convergen en probabilidad son cuando menos op (1), pero algunas tendrán un orden de convergencia más rápido. En el ejemplo anterior vimos que en la situación habitual de una distribución que posee momentos de primer y segundo orden, la media aritmética de un número creciente de observaciones converge en probabilidad a la media poblacional y (Zn − m) converge en probabilidad a cero. Vimos que 1 1 (Zn − m) es Op (n− 2 ). No es en cambio op (n− 2 ); Es fácil ver que (Zn − m) 1 es op (n− 2 +δ ) para cualquier δ positivo. Esta es la situación√habitual con sucesiones estimadoras paramétricas; se denominan por ello n-consistentes. Ocasionalmente se presentan convergencias más rápidas. En estimación no paramétrica, en cambio, son la regla convergencias más lentas.

APÉNDICE A. CONVERGENCIAS ESTOCÁSTICAS

148

Las notaciones Op () y op () funcionan de modo enteramente similar a sus correspendientes O() y o() no aleatorias. Por ejemplo, si dos sucesiones aleatorias 1 son respectivamente de órdenes op (n−1 ) y Op (n 2 ), la sucesión obtenida multipli1 cando ambas elemento a elemento sería op (n− 2 ). p Análogamente, si g() es una función continua y {Xn }−→ X de suerte que (Xn − X) es op (f (n)), entonces (g(Xn ) − g(X)) es op (f (n)). Pueden verse los resultados al respecto y más detalles en Mann y Wald (1943).

A.5.

Leyes de grandes números

Dada una sucesión {Xn } de v.a., no necesariamente equidistribuídas, pero con media común, las leyes de grandes números prescriben, bajo diferentes conjuntos de condiciones, la convergencia de X n definida como en el Ejemplo A.1 a la media común m = E[Xi ]. Esta convergencia puede ser de varios tipos: en probabilidad —y entonces decimos hallarnos ante una ley débil de grandes números— o casi seguramente —y entonces hablamos de una ley fuerte de grandes números2 —. Enunciaremos en lo que sigue varios teoremas que establecen convergencias fuertes y débiles en diferentes circunstancias.

A.5.1. Leyes débiles de grandes números. Una de las versiones más simples (y también más frecuentemente utilizadas) de ley débil de grandes números es la siguiente: Teorema A.2 Si la sucesión {Xn } esta formada por v.a. independientes e idénticamente distribuídas, con media común m y varianza común σ 2 , entonces: p

X n −→ m D EMOSTRACION : Sea, Xn =

X1 + . . . + Xn n

Entonces: E[X n ] = m σ2 2 σX = n n y de acuerdo con la desigualdad de Tchebychev:   1 σ ≥1− 2 Prob |X n − m| < k √ n k 2 También se considera a veces convergencia en media cuadrática, que no hemos examinado aquí. Véase cualquiera de los textos citados más arriba.

A.5. LEYES DE GRANDES NÚMEROS

149

Fácilmente se ve que la anterior desigualdad implica (A.1) para ǫ > 0, δ > 0 prefijados. Basta tomar k > δ−1/2 , y N (ǫ, δ) lo suficientemente grande como para que: σ kp <ǫ N (ǫ, δ) Las condiciones anteriores pueden ser considerablemente relajadas; no es imprescindible que las v.a. en la sucesión sean independientes, tengan la misma P ni que 2 < ∞). varianza (sería suficiente que se verificase l´ımn→∞ n−2 ni=1 σX i

A.5.2. Leyes fuertes de grandes números No sólo las condiciones en el Teorema A.2 pueden relajarse, sino que la conclusión puede a su vez reforzarse, dando lugar a una ley fuerte de grandes números. Antes de enunciarla, demostraremos algunos resultados que precisamos3 .

Teorema A.3 (primera desigualdad de Kolmogorov) Sea {Xn } una sucesión de v.a. independientes con media 0 y varianzas (no necesariamente iguales) finitas. Sea, Sn = X1 + . . . + Xn Para cualquier ǫ > 0 se verifica:

Prob



m´ax |Sk | ≥ ǫ

1≤k≤n





E[Sn2 ] ǫ2

(A.8)

D EMOSTRACION : Definamos para 1 ≤ k ≤ n los sucesos Ak = {ω : (|Sk (ω)| ≥ ǫ) ∩ (|Si (ω)| < ǫ, 1 ≤ i < k)} (“la suma parcial formada por k sumandos es la primera que excede en valor absoluto de ǫ”). Sea A0 = {ω : (|Sk (ω)| < ǫ, 1 ≤ k < n)} (“la suma parcial formada por k sumandos nunca excede de ǫ”). 3 El desarrollo sigue el efectuado por Fourgeaud y Fuchs (1967), pág. 45 y ss. y Billingsley (1986), pág. 296.

APÉNDICE A. CONVERGENCIAS ESTOCÁSTICAS

150

Los sucesos A0 , . . . , An son disjuntos, y podemos calcular E[Sn2 ] así (fX (x) es la función de densidad marginal que proceda): E[Sn2 ]

= ≥ = ≥

n Z X

k=0 Ak n Z X k=1 Ak n Z X

k=1 Ak n Z X

k=1 Ak

Sn2 fX (x)dx [Sk + (Sn − Sk )]2 fX (x)dx [Sk2 + (Sn − Sk )2 + 2Sk (Sn − Sk )]fX (x)dx [Sk2 + 2Sk (Sn − Sk )]fX (x)dx

Pero Sk y (Sn − Sk ) son v.a. independientes y de media 0, y por tanto: n Z X

Ak

k=1

2Sk (Sn − Sk )fX (x)dx = 0

En consecuencia: E[Sn2 ]



n Z X k=1

Ak

Sk2 fX (x)dx



n X k=1

ǫ2 Prob {Ak }

desigualdad equivalente a (A.8). Teorema A.4 (Kintchine-Kolmogorov) Si {Xn } es una sucesión de v.a. centradas, y con momento P∞ independientes Pn de orden dos finito, y se verifica además que 2 < ∞, entonces S = σ n i=1 Xi converge casi seguramente. i=1 i D EMOSTRACION : Si Sn converge casi seguramente, quiere decir que casi seguramente verifica la c.s. condición de convergencia de Cauchy. Es decir, |Sn+k −Sn |−→ 0, para n, k → ∞. Para que no hubiera convergencia de Sn (ω), debería ocurrir que existiera ǫ > 0 tal que ∀n ≥ 1 hubiera algún k ≥ 1 para el que |Sn+k − Sn | ≥ ǫ. Vamos a comprobar que el conjunto D = {ω} para el que se verifica lo anterior tiene probabilidad cero. Tenemos que:

D =

[

ǫ>0

 

\ [

n≥1 k≥1



{ω : |Sn+k − Sn | > ǫ} =

[

ǫ>0

L(ǫ)

A.5. LEYES DE GRANDES NÚMEROS

151

en que L(ǫ) es el suceso entre corchetes. Entonces,   \ [  Prob {L(ǫ)} = Prob [ω : |Sn+k − Sn | > ǫ]   n≥1 k≥1    ≤ m´ın Prob ω : m´ax |Sn+k − Sn | > ǫ n k≥1   X 1 σℓ2  . ≤ m´ın  2 n ǫ

(A.9) (A.10) (A.11)

ℓ≥n+1

En el último se ha hecho uso de la primera desigualdad de Kolmogorov. P∞ paso 2 < ∞, (A.11) es cero, Prob {L(ǫ)} = 0 y por consiguiente D = Como σ i=1 i S ǫ>0 L(ǫ) tiene también probabilidad cero. El siguiente lema no tiene ningún contenido probabilístico, y se limita a establecer una relación entre la convergencia (en el sentido habitual del Análisis Matemático) de dos diferentes series.

Lema A.1 Si {ai } es una sucesión de números reales y P límite finito ℓ, entonces n−1 ni=1 ai converge a cero.

Pn

i=1 ai /i

converge a un

D EMOSTRACION : P Sea vn = ni=1 ai /i, y v0 = 0. Entonces, ai = i(vi − vi−1 ) y: n X

ai =

n X i=1

i=1

n X

ivi −

i=1

ivi−1 = nvn −

n−1 X

vi

i=0

Por tanto: n

n−1

n−1

i=1

i=0

i=0

1X n−1 1 X 1X ai = vn − vi = vn − vi n n n n−1 y si vn → ℓ, (n − 1)−1

Pn−1 i=0

vi → ℓ y n−1

Pn

i=1 ai

→ 0.

Podemos ya, con ayuda de los resultados precedentes, establecer la siguiente ley fuerte de grandes números: Teorema A.5 (ley fuerte de grandes números) Sea {Xn } una sucesión de v.a. indeP 2 2 pendientes centradas, con momento de segundo orden finito, y ∞ σ i=1 i /i < ∞. Entonces: n 1X c.s. Xn = Xi −→ 0 n i=1

152

APÉNDICE A. CONVERGENCIAS ESTOCÁSTICAS

P c.s. Demostraremos que ni=1 Xi /i−→ ℓ, pues esto, en virtud del lema precedente, P c.s. implica n−1 ni=1 Xn −→ 0. Que serie converge c.s. es inmediato, pues P∞la primera 2 2 2 2 como Var(Xi /i) = σi /i y i=1 σi /i < ∞, su convergencia es resultado del Teorema A.4 CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER A.1 Demuéstrese que, en el caso particular en que una sucesión aleaL

toria converge en distribución a una constante, es decir Xn −→ c, entonces p Xn −→ c. m.c.

p

A.2 Compruébese que Xn −→ X ⇒ Xn −→ X. (Ayuda: Hágase uso

de la desigualdad de Tchebichev.)

Apéndice B

Soluciones a problemas seleccionados

3.2

La función de verosimilitud es fX (x; θ) = H(x(1) − 1)H(x(n) + 1)

en que H(.) es una función que toma el valor cero si su argumento es negativo y valor 1 si su argumento es no negativo (función “escalón” o de Heaviside). Por tanto, el teorema de factorización (ver (3.8)) se verifica con g(s, θ) = H(x(1) −1)H(x(n) +1) y (x(1) , x(n) ) forman un estadístico suficiente. Sin embargo, este estadístico no es completo: es fácil ver que (por ej.) (x(n) − x(1) ) tiene una distribución que no depende de θ y es por tanto ancilar.

3.5

En efecto,

fX (x; θ)

=

n Y

i=1

( n ) n n o X X θxj exp{θxj } exp −e yj = exp − exp{θxj }yj + θ xj , i=1

i=1

que no es de rango completo.

4.5

Es fácil encontrar un estadístico suficiente empleando el teorema de facto-

rización: fX (x; θ) =

n Y

θx

θ−1



i=1

vemos que

Qn

i=1

xi (o alternativamente

n

n Y

i=1

Pn

i=1

153

xi

!θ−1

;

log xi ) es un estadístico suficiente.

154

APÉNDICE B. SOLUCIONES A PROBLEMAS SELECCIONADOS Para comprobar que Z = − log X1 es insesgado para θ−1 , veamos cual es su distribución. La de X es FX|θ (x |θ) = xθ . Entonces, Prob {Z ≤ z}

= = = = =

Prob {− log(X) ≤ z}

Prob {log(X) > −z} ˘ ¯ Prob X > e−z ˘ ¯ 1 − Prob X ≤ e−z

1 − e−zθ ;

derivando, fX|θ (x |θ) = θe−zθ , en la que reconocemos una exponencial de media θ−1 . Por tanto, Z = − log X1 es efectivamente insesgado. P Vemos además que T = −n−1 n i=1 log Xi será también insesgado, y es función de un estadístico suficiente. Es claro entonces que T será insesgado de varianza mínima.

5.5 Calculemos en primer lugar la cota de Cramér-Rao para el estimador proporcionado. En los cálculos que siguen, θ = (µ, σ 2 ) y tratamos a σ 2 como un parámetro respecto del cual derivamos. fX|θ (x |θ)

=

log fX|θ (x |θ)

=

∂ log fX|θ (x |θ) ∂σ 2 » –2 ∂ E log fX|θ (x |θ) ∂σ 2

= = =

2 2 1 √ e−(x−µ) /2σ σ 2π √ 1 − log σ 2 − log 2π − (x − µ)2 /2σ 2 2 1 (x − µ)2 − 2 + 2σ 2σ 4 "„ # «2 „ «2 1 (x − µ)2 1 1 2 + (x − µ) −2 E 2σ 4 2σ 2 2 2σ 4

µ4 1 1 + − 4 4σ 8 4σ 4 2σ

(B.1)

Teniendo en cuenta que µ2k , el momento centrado de orden 2k, en una distribución normal toma el valor σ 2k (2k)!2−k (k!)−1 , tenemos sustituyendo µ4 en (B.1) que: –2 » 1 1 1 σ 4 4! ∂ log f (x |θ) + − = . (B.2) = E X|θ 2 ∂σ 4 · 4 · 2! · σ 8 4σ 4 2σ 4 2σ 4 La cota de Cramér-Rao es por tanto 1/nIX (θ) = 2σ 4 /n. Calculemos ahora la varianza del estimador. Para ello requerimos los momentos E[S 2 ] y E[(S 2 )2 ]. Sabemos que E[S 2 ] = σ 2 —el S 2 proporcionado es el habitual P 2 estimador insesgado de la varianza—. Por otra parte, viendo n i=1 (Xi − X) como la suma de cuadrados de los residuos cuando regresamos X sobre la columna de “unos”, por teoría básica de regresión lineal sabemos que se distribuye como σ 2 χ2n−1 . Entonces, E[S 2 ]

= = =

σ4 E[χ2n−1 ]2 (n − 1)2

σ4 2 E[Z12 + . . . Zn−1 ]2 (n − 1)2 3 2 XX 2 2 σ4 4 4 E 4Z1 + . . . Zn−1 + Zi Zj 5 , (n − 1)2 i j6=i

(B.3)

en que Z1 , . . . , Zn−1 son variables aleatorias N (0, 1). Sabiendo que el momento de orden cuatro de tal distribución tiene la expresión indicada antes y sustituyendo en

155 (B.3) obtenemos: E[S 2 ]

= = =

σ4 [(n − 1) · 3 + (n − 1)(n − 2)] (n − 1)2 σ 4 (n + 1)(n − 1) (n − 1)2 σ 4 (n + 1) . (n − 1)

Por consiguiente, la varianza buscada es: Var(S 2 ) = E[(S 2 )2 ] − [E(S 2 )]2 =

2σ 4 σ 4 (n + 1) − σ4 = . (n − 1) n−1

(B.4)

Comparando ahora las expresiones (B.4) y (B.2) llegamos a la conclusión de que la varianza del estimador no alcanza la cota de Cramér-Rao, pero la diferencia tiende a cero al crecer n.

156

APÉNDICE B. SOLUCIONES A PROBLEMAS SELECCIONADOS

Bibliografía Abramson, N. (1966). Teoría de la Información y Codificación. Paraninfo, Madrid, 1973a edón. Akaike, H. (1969). Fitting Autoregressive Models for Prediction. Annals of the Institute of Statistical Mathematics, vol. 21, págs. 243–247. Akaike, H. (1970). Statistical Predictor Identification. Annals of the Institute of Statistical Mathematics, vol. 22, págs. 203–217. Akaike, H. (1972). Use of an Information Theoretic Quantity for Statistical Model Identification. En Proc. 5th. Hawai Int. Conf. on System Sciences, págs. 249– 250. Akaike, H. (1974). Information Theroy and an Extension of the Maximum Likelihood Principle. En Second International Symposium on Information Theory (eds. B. Petrov y F. Csaki), págs. 267–281. Akademia Kiado, Budapest. Reimpreso en Johnson-Kotz(1991), vol. 1, p. 610 y ss. Akaike, H. (1991). Information Theory and an Extension of the Maximum Likelihood Principle. En Breakthroughs in Statistics (eds. Johnson y Kotz), vol. 1, pág. 610 y ss. Springer Verlag. Berkson, J. (1980). Minimum chi.square, not maximum likelihood! Annals of Statistics, vol. 8, págs. 457–487. Billingsley, P. (1986). Probability and Measure. John Wiley and Sons, New York, 2a edón. Chaitin, G. (1987). Algorithmic Information Theory. Cambridge University Press, Cambridge, 1992a edón. Cover, T., P. Gacs, y R. Gray (1989). Kolmogorov’s contributions to information theory and algorithmic complexity. Annals of Probability, vol. 17(3), págs. 840– 865. 157

158

BIBLIOGRAFÍA

Cox, D. R. y D. V. Hinkley (1974). Theoretical Statistics. Chapman and Hall, London, 1979a edón. Cramér, H. (1960). Métodos Matemáticos de Estadística. Ed. Aguilar, Madrid, 1970a edón. Cullman, G., M. Denis-Papin, y A. Kaufmann (1967). Elementos de Cálculo Informacional. Ed. Urmo, Bilbao, 1967a edón. D’Agostino, R. (1971). An Omnibus Test of Normality for Moderate and Large Sample Sizes. Biometrika, vol. 58, págs. 341–348. de Leeuw, J. (2000). Information Theroy and an Extension of the Maximum Likelihood Principle by Hirotugu Akaike. Disponible en http://www.stat.ucla.edu/˜deleeuw/work/research.phtml. Dempster, A., N. Laird, y D. Rubin (1976). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Ser. B, vol. 39, págs. 1–38. Dowe, D., K. Korb, y J. Oliver (eds.) (1996). Information, Statistics and Induction in Science – ISIS’96, Melbourne, Australia. World Scientific, Singapore. Fourgeaud, C. y A. Fuchs (1967). Statistique. Dunod, Paris. Garín, A. y F. Tusell (1991). Problemas de Probabilidad e Inferencia Estadística. Ed. Tébar-Flores, Madrid. Garthwaite, P., I. Jolliffe, y B. Jones (1995). Statistical Inference. Prentice Hall, London. Gell-Mann, M. (1994). El quark y el jaguar. Tusquets, Barcelona, 1995a edón. G.J.McLachlan y T. Krishnan (1997). The EM Algorithm and Extensions. Wiley. Jeffreys, H. (1961). The Theory of Probability. Oxford University Press, Oxford. Kiefer, J. C. (1983). Introduction to Statistical Inference. Springer-Verlag, New York, 1987a edón. (ed. Gary Lorden). Laird, N. (1993). The EM algorithm. En Handbook of Statistics, vol. IX, págs. 509–520. Lange, K. (1998). Numerical Analysis for Statisticians. Springer. Signatura: 519.6 LAN. Lehmann, E. L. (1959). Testing Statistical Hypothesis. Wiley, New York. Lehmann, E. L. (1983). Theory of Point Estimation. Wiley, New York.

BIBLIOGRAFÍA

159

Levy, M. (1985). A note on nonunique MLEs and sufficient statistics. Annals of Mathematical Statistics, vol. 39, págs. 66. Li, M. y P. Vitányi (1993). An introduction to Kolmogorov complexity and its applications. Springer-Verlag, New York. Mallows, C. (1973). Some comments on Cp . Technometrics, vol. 15, págs. 661– 675. Mann, H. y A. Wald (1943). On stochastic limit and order relationships. Annals of Mathematica Statistics, vol. 14, págs. 217–226. Meeden, G. y S. Varderman (1985). Bayes and admissible set estimation. Journal of the American Statistical Association, vol. 80, págs. 465–471. Navidi, W. (1997). A Graphical Illustration of the EM Algorithm. Annals of Mathematical Statistics, vol. 51(1), págs. 29–31. Quenouille, M. (1956). Notes on bias estimation. Biometrika, vol. 43, págs. 353– 360. Rao, C. R. (1962). Efficient Estimates and Optimum Inference Procedures in Large Samples. Journal of the Royal Statistical Society, Ser. B, vol. 24, págs. 46–72. Rao, C. R. (1965). Linear Statistical Inference and its Applications. Wiley, New York. Rissanen, J. (1983). A Universal Prior for Integers and Estimation by Minimum Description Length. Annals of Statistics, vol. 11(2), págs. 416–431. Rissanen, J. (1989). Stochastic Complexity in Statistical Inquiry. World Scientific, Singapore. Romano, J. P. y A. F. Siegel (1986). Counterexamples in Probability and Statistics. Wadsworth and Brooks/Cole, Monterrey, California. Ruelle, D. (1991). Chance and Chaos. Penguin, London. Russell, B. (1912). The problems of philosophy. Oxford University Press, 1989a edón. Shannon, C. (1948). The mathematical theory of communication. Bell System Tech. Journal, vol. 27, págs. 379–423, 623–656. Shannon, C. y W. Weaver (1949). The mathematical theory of communication. University of Illinois Press, Urbana. Eight reprint, 1980. Shapiro, S. y R. Francia (1972). An Approximate Analysis of Variance Test for Normality. Journal of the American Statistical Association, vol. 67, págs. 215– 216.

160

BIBLIOGRAFÍA

Trocóniz, A. F. (1987). Probabilidades. Estadística. Muestreo. Tebar-Flores, Madrid. Wang, C. (1993). Sense and Nonsense of Statistical Inference. Marcel Dekker, New York. Young, G. y R. Smith (2005). Essentials of Statistical Inference. Cambridge Univ. Press. Signatura: 519.22 YOU.

Índice alfabético

H(p) entropía, 129 Op (), 146 op (), 146 AIC criterio, 124 relación con MDL, 140 relación con razón de verosimilitudes, 111 ancilaridad definición, 39 de primer orden, 39 Bahadur eficiencia, 67 Bayes criterio de, 6 procedimientos Bayes relativos a ξ(θ), 6 riesgo de, 6 código de Fano-Shannon, 130 libre de prefijos, 131 canónico estadístico, 31 Cauchy, distribución no reducción por suficiencia, 38 complejidad de Kolmogovor-Chaitin-Solomonoff, 129 completa clase de procedimientos, 15 clase mínima, 15 esencialmente, 15 compuesta clase de distribuciones, 101 hipótesis, 113 conjugadas familias, 11 consistencia definición, 77

del estimador máximo-verosímil, 77 fuerte, 77 contraste razón de verosimilitudes generalizada distribución asintótica, 109 uniformemente más potente, 106 uniformemente más potente razón monótona de verosimilitudes, 108 uniformemente más potente (UMP), 108 contraste de hipótesis exacto de Fisher, 116 contraste de hipótesis definición, 101 contraste de hipótesis score, 120 de ajuste a una Poisson, 115 de normalidad contrastes específicos, 114 estimando parámetros de ruido, 114 estadístico de Wald, 120 localmente más potente, 120 convergencia casi segura, 146 en distribución, 144 en media r, 146 en media cuadrática, 146 en probabilidad, 145 órdenes Op (), op (), 146 convexa estrictamente, definición, 49 función, definición, 49 cota de Cramér-Frechet-Rao, 64 crítica función crítica, 102 región, 102 Cramér cota de Cramér-Frechet-Rao, 64 Cramér-Rao

161

ÍNDICE ALFABÉTICO

162 y estimadores supereficientes, 81 criterio AIC, 124 de Bayes, 6 curvada distribución, 41

puede ser sesgado, 86 puede ser inadmisible, 85 relación con suficiencia, 76 experimento, 1 exponencial familia, 29

decisión espacio de, 1 desigualdad de Jensen, 49, 77 de Kraft, 131, 139 difusa distribución a priori , 6 función a priori , 6 distribución a priori difusa, 6 impropia, 6, 63 más desfavorable, 23 no informativa, 63 universal, 139 curvada, 41 empírica, 79 multinomial, 36 Weibull, 30

familia exponencial, 29 familia exponencial, 29 y algoritmo EM, 98 Fano-Shannon código, 130 Fisher contraste exacto, 116 información, 62 función convexa, 49 crítica, 102 de pérdida, 1 estrictamente convexa, 49

eficiencia de Bahadur, 67 definición, 79 estimadores supereficientes, 81 relativa, 69 de varios estimadores en una U (0, 2θ), 69 entropía definición, 129 espacio de decisión, 1 del parámetro natural, 31 muestral, 2 estadístico acotado completo, 39 ancilar, 39 canónico, 31 completo, 39 de orden, 34 mínimo suficiente, 34 en una U (θ − 12 , θ + 12 ), 153 estados de la naturaleza, 1 estimador máximo-verosímil consistencia, 77 definición, 76 inviable cómputo en una Cauchy C(θ), 84 no unicidad en una U (θ − 12 , θ + 21 ), 86

hipótesis simple, 113 impropia distribución a priori , 6 función a priori, 7 información de Fisher, 62 de Kullback-Leibler, 78 desigualdad de, 64 Teoria de la, 129 insesgado inexistencia de procedimiento insesgado, 49 procedimiento, 47 procedimiento inadmisible, 48 Jeffreys distribución a priori de, 63 Jensen desigualdad, 49, 77 Kraft desigualdad, 131 desigualdad de, 139 Kullback-Leibler distancia a la distribución empírica, 114 información de, 78, 79 relación con MV, 78 máxima verosimilitud consistencia, 77 mínima clase completa, 15

ÍNDICE ALFABÉTICO minimal suficiencia de X(n) en una U (0, θ)., 43 de la razón de verosimilitudes, 36 estadísticos mínimos suficientes, 34 minimax condición suficiente, 24 muestral espacio, 2 multinomial al condicionar en una P(λ), 36 natural parámetro, 31 espacio del, 31 Neyman-Pearson teorema, 103 y procedimientos de Bayes, 106 nivel de significación, 102 nivel de significación empírico, 113 Ockham navaja de, 121 orden de convergencia estocástica, 146 estadísticos de, 34 p-value, 113 pérdida función, 1 parámetro de ruido, 114 natural definición, 31 espacio, 31 partición suficiente, 33, 42 suficiente mínima, 42 penalizada verosimilitud, 111 potencia contraste uniformemente más potente, 106 de un contraste, 102 máxima uniforme, 106 relación con función crítica, 103 procedimiento estadístico Bayes relativo a ξ(θ), 6 equivalente, 4 procedimiento estadístico, 1 procedimiento estadístico admisible, 4 aleatorizado, 14 clase completa, 15 clase esencialmente completa, 15

163 comparable, 4 inadmisible, 4 inadmisible aunque insesgado, 48 mejor, 4 minimax, condición suficiente, 22 minimax, definición, 22 Rao cota de Cramér-Frechet-Rao, 64 razón de verosimilitud monótona, 108 razón de verosimilitudes generalizada distribución asintótica, 109 relación con AIC, 111 región crítica, 102 regularidad condiciones, 61 quiebra en una U (0, 2θ), 70 riesgo de Bayes, 6 definición, 3 ruido parámetro, 114 significación nivel de, 102 simple clase de distribuciones, 101 hipótesis, 101, 113 suficiencia, 32 de X en una P (λ), 36 de X(n) en una U (0, θ), 34 de X(n) en una U (0, θ)., 43 de la muestra ordenada en m.a.s., 36 de la razón de verosimilitudes, 36 minimal, 34 suficiente partición, 33, 42 suficiente mínima partición, 42 supereficiencia ejemplo de, 81 tamaño de un contraste, 102 UMP contrastes uniformemente más potentes, 108 verosimilitud definición, 74 no acotada, 85 penalizada

ÍNDICE ALFABÉTICO

164 relación con AIC, 111 Wald estadístico de contraste, 120 Weibull distribución, 30

Loading...

Estadística Matemática - del Departamento de Economía Aplicada III

Estadística Matemática Fernando Tusell1 19 de septiembre de 2007 1 Bastantes errores menos en esta versión son consecuencia de los comentarios recib...

971KB Sizes 1 Downloads 0 Views

Recommend Documents

Departamento de Lingüística Aplicada - CELE
Capítulos en Libros. AKERBERG, M. (2005). “La percepción auditiva como factor en la adquisición de sonidos de L2”. Adqui

departamento de economía departamento de economía departamento
http://www.pucp.edu.pe/departamento/economia/images/documentos/DDD353.pdf .... 2 divided in sections. Section 1 describe

Jesús Martínez Mateo - Departamento de Matemática Aplicada a las
Áreas de interés general: teoría de la información y las comunicaciones, criptografía cuántica. En particular: rec

departamento de economía departamento de economía departamento
http://www.pucp.edu.pe/departamento/economia/images/documentos/DDD353.pdf .... me in the STI policy section and Carla So

Redalyc.Peces del departamento de Caldas, Colombia
Feb 14, 2011 - El departamento de Caldas posee una gran riqueza ambiental. ... estandarizadas como la pesca eléctrica (

monografía del departamento del cesar - Misión de Observación
Monografía Político Electoral. DEPARTAMENTO DE CESAR. 1997 a 2007. I. CONTEXTO DE ... MONOGRAFÍA DEL DEPARTAMENTO DEL

departamento de bioquímica y biología molecular iii e inmunología
la diferenciación gránulo-monocítica intervienen los siguientes factores de crecimiento GM-CSF, G-CSF,. M-CSF, así c

programación del departamento de inglés - Gobierno de Canarias
trabajo en grupo o cooperativo, ya que desarrolla la autonomía del alumno, mejora su autoestima, y supone la ..... Dise

Estado de Florida Departamento de Salud Oficina del Registro Civil
Lea el FRENTE Y el DORSO de esta solicitud: Toda persona puede solicitar un certificado de defunción. Siempre que tambi

programación del departamento de inglés - Gobierno de Canarias
español como lengua extranjera, chino, japonés, ruso y árabe en la Comunidad Autónoma de. Canarias; y el Real Decreto ..