Capítulo 4

Polígonos de frequência

As descontinuidades no histograma limitam sua utilidade como ferramenta gráfica para dados multivariados. O polígono de frequência (PF) é um estimador de densidade contínua baseado no histograma, com alguma forma de interpolação linear. Por exemplo, o rootgrama dos dados de comprimento da raiz lateral (LRL) na Figura 3.22 é, na verdade, um histograma interpolado linearmente. Com 172 intervalos nos dados, as linhas verticais que representam o histograma bruto se sobrepõem, uma característica indesejável que pode ser vista no histograma de 200 intervalos dos dados de renda alemã na Figura 3.18. Scott (1985b) examinou as propriedades teóricas dos polígonos de frequência univariados e bivariados e descobriu que eles apresentam melhorias surpreendentes em relação aos histogramas.

Fisher (1932) desaprovou o polígono de frequência, ironicamente por razões gráficas:

A vantagem é ilusória, pois não só a forma da curva assim indicada é um tanto enganosa, como também deve-se sempre ter o máximo cuidado para distinguir a população hipotética infinitamente grande da qual nossa amostra de observações é extraída, da amostra real de observações que possuímos; a concepção de uma curva de frequência contínua aplica-se apenas à primeira, e ao ilustrar a segunda não se deve tentar obscurecer essa distinção.

Fisher desconhecia quaisquer diferenças teóricas entre histogramas e polígonos de frequência e estava pensando apenas em histogramas univariados quando escreveu essa passagem. Sua objeção ao uso de um estimador de densidade não paramétrico contínuo não se justifica mais, mas sua preocupação com o uso de técnicas que obscurecem totalmente o ruído estatístico com sofisticação matemática merece ser reiterada.

Finalmente, em termos de terminologia, a distinção entre histograma e polígono de frequência na literatura científica está se tornando menos nítida, com o termo histograma sendo aplicado a ambos.

4.1 Polígonos de fequência univariados

4.1.1 Erro quadrático médio integrado
4.1.2 Regras práticas para a largura dos intervalos em polígonos de frequência
4.1.3 Malhas adaptativas ótimas
4.1.4 Modas e protuberâncias em um polígono de frequência

4.2 Polígonos de frequência multivariados
4.3 Problemas de bordas de intervalos
4.4 Outras modificações dos histrogramas

4.4.1 Ajustes na contagem de intervalos

4.4.1.1 Agrupamento linear
4.4.1.2 Ajustando as contagens de intervalos de um FP para corresponder às áreas do histograma

4.4.2 Histogramas polinomiais
4.4.3 Quanta informação existe em poucos intervalos?

4.5 Exercícios
4.6 Bibliografia

4.1 Polígonos de fequência univariados

Em uma dimensão, o polígono de frequência é o interpolador linear dos pontos médios de um histograma equidistante. Como tal, o polígono de frequência se estende além do histograma, ocupando um espaço vazio em cada extremidade. Verifica-se que o polígono de frequência é uma função de densidade legítima, ou seja, não negativa e com integral igual a 1 (ver Exercício 1).

4.1.1 Erro quadrático médio integrado

O \(\mbox{MISE}\) assintótico (\(\mbox{AMISE}\)) é calculado para cada intervalo de histograma, considerando um par típico de intervalos, conforme mostrado na Figura 4.1. O polígono de frequência conecta os dois valores adjacentes do histograma, \(\widehat{f}_0\) e \(\widehat{f}_1\), entre os centros dos compartimentos, conforme mostrado.

Figura 4.1: O polígono de frequência em um intervalo típico, \((-h/2, h/2)\), que é derivado de dois intervalos de histograma adjacentes \(B_0\) e \(B_1\).

O polígono de frequência (FP) é descrito pela equação \[ \tag{4.1} \widehat{f}(x)=\left(\dfrac{1}{2}-\dfrac{x}{h} \right)\widehat{f}_0+\left(\dfrac{1}{2}+\dfrac{x}{h} \right)\widehat{f}_1, \qquad -\dfrac{h}{2}\leq x<\dfrac{h}{2}\cdot \] A aleatoriedade no polígono de frequência provém inteiramente da aleatoriedade nos níveis do histograma \(\widehat{f}_i=\nu_i/(nh)\). O “x” em \(\widehat{f}(x)\) não é aleatório mas é fixo.

Como antes, utilizando a expansão em série de Taylor \[ \tag{4.2} f(x)=f(0)+x\, f'(x)+\dfrac{1}{2}x^2 \, f''(x)+\cdots \, , \] é possível obter aproximações para \(p_0\) e \(p_1\): \[ \tag{4.3} \begin{array}{rcl} p_0 & = & \displaystyle \int_{-h}^0 f(s)\mbox{d}s \approx h\, f(0)-h^2 f'(0)/2 +h^3 f''(0)/6 \\[0.8em] p_1 & = & \displaystyle \int_0^h f(s)\mbox{d}s \approx h\, f(0)+h^2 f'(0)/2 +h^3 f''(0)/6 \end{array}\cdot \]

O viés é calculado observando-se que a expectativa pontual do polígono de frequência (FP) é uma combinação linear das esperanças dos dois valores do histograma. Como \(\mbox{E}\big(\widehat{f}_i \big)=p_i/h\), então de (4.1) e (4.3) e, observando novamente que “x” não é aleatório, temos \[ \mbox{E}\big(\widehat{f}(x) \big)=\left(\dfrac{1}{2}-\dfrac{x}{h} \right)\dfrac{p_0}{h}+\left(\dfrac{1}{2}+\dfrac{x}{h} \right)\dfrac{p_1}{h}\approx f(0)+x\, f'(0)+h^2 f''(0)/6\cdot \] Subtraindo (4.2), obtemos o \[ \mbox{Viés}\big(\widehat{f}(x) \big)\approx (h^2-3x^2) f''(0)/6\cdot \] A integral do quadrado do viés (\(\mbox{ISB}\)) sobre o intervalo FP \((-h/2, h/2)\) é igual a \[ \big(49\, h^4 f''(0)^2/2880\big)\times h, \] com uma expressão semelhante para outros intervalos FP.

Somando sobre todos os intervalos e usando a aproximação Riemanniana padrão, obtemos \[ \mbox{ISB}\approx \sum_x \dfrac{49}{2880}h^4 f''(kh)\times h = \dfrac{49}{2880}h^4 R(f'')+O(h^6)\cdot \] Evidentemente, o viés quadrático do polígono de frequência é de ordem significativamente maior do que a ordem \(O(h^2)\) do histograma. Para fins de validação cruzada, o viés é determinado pela rugosidade desconhecida \(R(f'')\) em vez de \(R(f')\).

Relembrando a equação (3.12), o plígono de frequência (FP) estende a boa propriedade do histograma em seus centros de intervalo, a eliminação de efeitos \(O(h)\), para todo o estimador. O viés é uma função da curvatura na função de densidade, em vez da inclinação, como no histograma.

O cálculo da variância é semelhante. A partir da definição de FP em (4.1), a variância de \(\widehat{f}(x)\) igual a \[ \tag{4.4} \left(\dfrac{1}{2}-\dfrac{x}{h} \right)^2\mbox{Var}\big(\widehat{f}_0\big)+\left(\dfrac{1}{2}+\dfrac{x}{h} \right)^2\mbox{Var}\big(\widehat{f}_1\big)+2\left(\dfrac{1}{4}-\dfrac{x^2}{h^2} \right)\mbox{Cov}\big(\widehat{f}_0,\widehat{f}_1\big)\cdot \]

Para os termos de variância e covariância, apenas a aproximação mais trivial \(hf(0)\) é necessário para \(p_0\) e \(p_1\). Como as contagens dos intervalos são variáveis aleatórias binomiais, \[ \mbox{Var}\big(\widehat{f}_i\big)=\dfrac{np_i(1-p_i)}{(nh)^2}\approx \dfrac{f(0)(1-h\, f(0))}{nh} \] e \[ \mbox{Cov}\big(\widehat{f}_0,\widehat{f}_1\big)=-\dfrac{np_0p_1}{(nh)^2}\approx -\dfrac{f(0)^2}{n}\cdot \] Substituindo essas aproximações em (4.4), obtemos: \[ \mbox{Var}\big(\widehat{f}(x) \big)=\left(\dfrac{2x^2}{nh^3}+\dfrac{1}{2nh} \right)f(0)-\dfrac{f(0)^2}{n}+o(n^{-1})\cdot \] Integrando sobre o intervalo FP \((-h/2, h/2)\), obtemos \[ \left(\dfrac{2f(0)}{3nh}-\dfrac{f(0)^2}{n}\right)\times h\cdot \] Somando a expressão correspondente para todos os intervalos e observando que \(\displaystyle \int f = 1\), obtemos \[ \mbox{IV}\approx \sum_k \left(\dfrac{2f(kh)}{3nh}-\dfrac{f(kh)^2}{n}\right)\times h = \dfrac{2}{3nh}-\dfrac{1}{n}R(f)+o(n^{-1})\cdot \]

Se a largura ideal dos intervalos do histograma fosse usada com um polígono de frequência, o efeito assintótico seria eliminar completamente o viés em relação à variância no \(\mbox{MISE}\), com ordens de \(O(n^{-4/3})\) e \(O(n^{-2/3})\), respectivamente.

Como o \(\mbox{ISB}\) compreende um terço do \(\mbox{MISE}\) para um histograma, a redução seria substancial. Mas um FP melhor pode ser construído. A melhoria na ordem do viés sugere que uma largura de intervalo maior poderia ser usada para reduzir a variância, mas ainda com um viés menor do que o do histograma. De fato, a largura de intervalo \(h = O(n^{-1/5})\) acaba sendo ideal. A melhoria é substancial, como revela o seguinte teorema.

Teorema 4.1:

Suonha que \(f''\) seja absolutamente contínua e \(R(f''')<\infty\). Então \[ \tag{4.5} \mbox{AMISE}(h) = \dfrac{2}{3nh}+\dfrac{49}{2880}h^4 F(f''); \] então \[ h^*=2\left( \dfrac{15}{49 R(f'')}\right)^{1/5} n^{-1/5} \] e \[ \tag{4.6} \mbox{AMISE}^* = \dfrac{5}{12}\left(\dfrac{49 R(f'')}{15}\right)^{1/5} n^{-4/5}\cdot \]

Demonstração Scott (1985b).

Por exemplo, com 800 pontos de dados normais, a largura ideal do intervalo para o polígono de frequência (FP) é 50% maior do que a largura do intervalo do histograma correspondente, conforme o Teorema 3.1. Aparentemente, para que o histograma descontínuo aproxime uma densidade contínua, ele precisa ser bastante irregular para acompanhar a função de densidade em regiões onde seu nível varia rapidamente.

O FP é inerentemente contínuo e pode aproximar melhor a densidade contínua com ajustes lineares por partes em intervalos mais amplos. O FP apresenta pior desempenho próximo a picos, onde a segunda derivada e a densidade são ambas de grande magnitude. A melhoria no \(\mbox{MISE}\) se reflete não apenas na diminuição da constante em frente a \(n^{-2/3}\), mas também em uma redução real do expoente.

A única situação em que os polígonos de frequência (FPs) estão em desvantagem ocorre quando a densidade subjacente é descontínua. Um histograma não é afetado por tais pontos se eles forem conhecidos e posicionados nos limites dos intervalos. Um FP não pode evitar a sobreposição com esses pontos, e a teoria assintótica acima não se aplica (veja o Exercício 3).

Finalmente, como mostrado na Tabela 3.3, na coluna com \(p = 2\), os polígonos de frequência são mais sensíveis do que os histogramas em relação a erros na escolha da largura do intervalo, particularmente quando \(h > h^∗\). Por outro lado, um erro bastante grande na largura do intervalo para o FP é necessário para que seu \(\mbox{MISE}\) seja pior do que o \(\mbox{MISE}\) do melhor histograma (veja a Figura 4.2).

Figura 4.2: \(\mbox{AMISE}\) para histograma e polígono de frequência para densidade normal padrão.

Exemplo 4.2:

Para a densidade normal, \(R(\phi'')=3/\big(8\sqrt{\pi}\sigma^5 \big)\), portanto, a partir do Teorema 4.1, \[ \tag{4.7} h^* = 2.15 \, \sigma \, n^{-1/5} \qquad \mbox{e} \qquad \mbox{AMISE}^*=0.387 \, \sigma^{-1} n^{-4/5}\cdot \]

Para entender as consequências práticas e ver onde o polígono de frequência (FP) se encaixa entre os estimadores paramétricos e o histograma em relação ao tamanho da amostra, examine a Tabela 4.1, que amplia a Tabela 3.2. Claramente, o polígono de frequência não é apenas uma curiosidade teórica.

O PF é ainda mais eficiente em termos de dados em relação ao histograma à medida que o tamanho da amostra aumenta. É claro que ambas as estimativas não paramétricas serão cada vez mais inferiores ao ajuste paramétrico correto.

Tabela 4.1: Tamanhos de amostra necessários para dados \(N(0,1)\) de modo que \(\mbox{AMISE}^∗\approx 1/400\) e \(1/4000\).

Outra maneira de visualizar a diferença entre o histograma e o FP para dados normais é mostrada na Figura 4.2. Em uma escala log-log, não apenas as diferentes taxas de convergência são facilmente observadas, mas também as diferenças nas larguras ótimas dos intervalos. Continuando para um milhão de pontos normais, as larguras ótimas dos intervalos para o histograma e o FP são 0.035 e 0.136, respectivamente.

Essas larguras estão na proporção de 4:1, um exemplo da qual aparece na Figura 3.7 rotulado como \(h = 4h^*\). A estabilidade (baixa variância) do histograma com \(h = 4h^∗\) é evidente; contudo, o viés resultante do formato em escada também é evidente.

O FP mantém a estabilidade deste histograma, enquanto a interpolação linear reduz drasticamente o viés. O \(\mbox{ISE}\) do FP na Figura 3.7 é aproximadamente igual a \(5.40\times 10^{-6}\), o que corresponde a 14% do \(\mbox{ISE}\) do melhor histograma.

4.1.2 Regras práticas para a largura dos intervalos em polígonos de frequência

Para destacar as diferenças com os resultados correspondentes do histograma, serão apresentadas algumas regras para a largura dos intervalos de confiança em polígonos de frequência (FP). A regra de encaixe baseada em (4.7) é \[ \tag{4.8} \mbox{Regra de referência FP Normal: } \widehat{h}=2.15\, \widehat{\sigma} \, n^{-1/5}, \] aqui \(\widehat{\sigma}\) é uma estimativa, talvez robusta, do desvio padrão. Uma escolha robusta apropriada com base no intervalo interquartil é \(\widehat{\sigma} = \mbox{IQR}/1.348\), onde 1.348 é \(\Phi^{-1}(0.75)-\Phi^{-1}(0.25)\).

Os fatores que modificam a regra (4.8) com base na assimetria e curtose amostrais foram mostrados na Figura 3.5. Os fatores são baseados na relação \[ \dfrac{h_y^*}{h_N}=\left( \dfrac{R\big(\phi''\, | \, 0,\sigma_y^2\big)}{R\big(g''(y)\big)}\right)^{1/5}, \] correspondente a (3.19) e ao Teorema 4.1.

Agora \(R(\phi'')=3/\big(8\sqrt{\pi}\sigma_y^5 \big)\) e a rugosidade \(R(g'')\) da distribuição Lognormal e da densidade \(t_\nu\) são \[ \dfrac{(9\sigma^4+20\sigma^2+12)e^{25\sigma^2/4}}{32\sqrt{\pi}\sigma^5} \qquad \mbox{e} \qquad \dfrac{12\Gamma(\nu+5/2)\Gamma\big((\nu+5)/2\big)^2}{\sqrt{\pi}\nu^{5/2}\Gamma(\nu+5)\Gamma(\nu/2)^2}, \] respectivamente.

Conforme a notação da Seção 3.2.3, \[ \mbox{Fator de assimetria}\big(\beta_1(\sigma) \big) = \dfrac{12^{1/5}\sigma}{e^{7\sigma^2/4}(e^{\sigma^2}-1)^{1/2}(9\sigma^4+20\sigma^2+12)^{1/5}} \] e \[ \mbox{Fator de curtose}\big( \widetilde{\beta_2}(\nu) \big)=\dfrac{\sqrt{\nu-2}}{2}\left( \dfrac{\Gamma(\nu+5)\Gamma(\nu/2)^2}{\Gamma(\nu+5/2)\Gamma\big((\nu+5)/2\big)}\right)^{1/5}, \] onde \(\widetilde{\beta}_2=6/(\nu-4)\) que são representadas graficamente na Figura 3.5 (ver Exercício 5).

Os algoritmos de validação cruzada enviesada e não enviesada são apenas ligeiramente mais complicados de implementar para o polígono de frequência. Para a validação cruzada enviesada, a seguinte estimativa de \(R(f'')\) foi proposta por Scott and Terrell (1987): \[ \tag{4.9} \widehat{R}(f'')=\dfrac{1}{n^2h^5}\sum_k \big(\nu_{k+1}-2\nu_k+\nu_{k-1} \big)^2-\dfrac{6}{nh^5}\cdot \] Ao inserir essa estimativa na expressão do \(\mbox{AMISE}\) (4.6), obtemos: \[ \mbox{BCV}(h)=\dfrac{271}{480\, nh}+\dfrac{49}{2880 \, n^2h}\sum_k \big( \nu_{k+1}-2\nu_k+\nu_{k+1}\big)^2\cdot \] A fórmula de validação cruzada não enviesada fica como exercício (ver Exercício 7).

Como exemplo, considere os dados de renda da Alemanha apresentados nas Figuras 3.18 e 3.19. As estimativas \(\mbox{BCV}(h)\) para o histograma e o polígono de frequência são mostradas na Figura 4.3.

A estimativa \(\mbox{BCV}\) do \(\mbox{MISE}\) para o FP é 71% menor do que a do histograma. O FP com \(\mbox{BCV}\) ótimo é construído a partir de um histograma com 51 classes, apresentado na Figura 3.18. Examine mais atentamente os formatos das duas curvas \(\mbox{BCV}\). Para pequenas larguras de classe, as curvas são paralelas com inclinação -1 na escala log-log, uma vez que a integral das variâncias para o histograma e o FP são \(1/(nh)\) e \(2/(3nh)\), respectivamente. Para grandes larguras de classe, a diferença nas inclinações reflete as diferentes ordens do viés.

Figura 4.3: \(\mbox{BCV}\) para histograma e polígono de frequência para dados de renda alemães.

Limites superiores para a largura do intervalo de um polígono de frequência podem ser obtidos por métodos variacionais semelhantes aos usados com o histograma Terrell (1990). Examinando a expressão para o \(\mbox{AMISE}^*\) no Teorema 4.1, a função objetivo torna-se \(R(f'')\), em vez de \(R(f')\) como no histograma.

Sujeito à restrição de que o intervalo seja \([-0.5, 0.5]\), a densidade mais suave é \[ f_3(x)=\dfrac{15}{8}(1-4x^2)^2 \pmb{I}_{[-0.5,0.5]}(x) \qquad \mbox{de maneira que} \qquad R(f'')\geq \dfrac{720}{(b-a)^5} \] quando o intervalo de suporte é o mais geral \((a, b)\).

Substituindo \(R(f'')\) na equação (4.6) por \(h^*\) leva a \[ \tag{4.10} \mbox{Número de intervalos } = \dfrac{b-a}{h^*}\geq \Bigg(\dfrac{147}{2}n \Bigg)^{1/5}\cdot \]

Por exemplo, com o grande conjunto de dados LRL de 25.752 pontos, o FP ideal requer pelo menos 18 intervalos, enquanto o histograma ideal requer pelo menos 37 intervalos. Dada a quantidade de estrutura nos dados LRL, esses são limites conservadores.

Uma versão diferente do problema de suavização excessiva leva a uma regra de largura de intervalo. Entre todas as densidades com variância \(\sigma^2\), a densidade mais suave é \[ f_4(x)=\dfrac{35}{96\sigma}\Bigg(1-\dfrac{x^2}{9\sigma^2} \Bigg)^3 \pmb{I}_{[-3\sigma,3\sigma]}(x) \qquad \mbox{de maneira que} \qquad R(f'')\geq \dfrac{35}{343\sigma^5}\cdot \]

Substituindo essa desigualdade na expressão para \(h^*\) no Teorema 4.1, obtemos a regra de largura de intervalo supersuavizada: \[ \tag{4.11} h\leq \Bigg(\dfrac{23328}{343} \Bigg)^{1/5} \sigma \, n^{-1/5} = 2.33 \, \sigma \, n^{-1/5} = h_{OS}\cdot \]

Essa largura de intervalo é apenas 108% da regra normal, o que sugere que o uso da regra baseada na normal na equação (4.8) também resultará em suavização excessiva na maioria das situações práticas de dados. Em geral, uma regra normal pode ser substituída por uma regra com suavização excessiva sempre que o problema variacional for muito difícil de resolver explicitamente.

4.1.3 Malhas adaptativas ótimas

Considere a melhoria teórica possível ao aplicar polígonos de frequência a malhas adaptativas de histograma. Observe, no entanto, que conectar os pontos médios do histograma em uma malha adaptativa não leva a uma estimativa que integre 1, exceto assintoticamente. Com essa ressalva, os resultados a seguir são uma consequência da equação (4.6).

Teorema 4.2:

As propriedades assintóticas do polígono de frequência adaptativa ótimo construído pela conexão dos pontos médios de um histograma adaptativo são \[ \tag{4.12} \mbox{AMSE}(x)=\dfrac{2f(x)}{3\, n \,h}+\dfrac{49}{2880}h^4 f''(x)^2 \] do que se conclui que \[ \tag{4.13} \begin{array}{rcl} h^*(x) & = & \displaystyle 2\Bigg(\dfrac{15 f(x)}{49f''(x)^2} \Bigg)^{1/5}n^{-1/5}, \\[0.8em] \mbox{AMSE}^*(x) & = & \displaystyle \dfrac{5}{12}\Bigg(\dfrac{49}{15} \Bigg)^{1/5} \Big( f''(x)^2 f(x)^4\Big)^{1/5}n^{-4/5}, \\[0.8em] \mbox{AAMISE}^* & = & \displaystyle \dfrac{5}{12}\Bigg(\dfrac{49}{15} \Bigg)^{1/5} \Bigg(\int \Big( f''(x)^2 f(x)^4\Big)^{1/5}\mbox{d}x\Bigg)n^{-4/5}\cdot \end{array} \]

Demonstração Scott (2015).

Comparando as equações (4.6) e (4.13), vemos que \[ \mbox{AAMISE}^* \leq \mbox{AMISE}^* \] isto porque \[ \int \Big( f''(x)^2 f(x)^4\Big)^{1/5}\mbox{d}x \leq \Bigg( \int f''(x)^2 \mbox{d}x\Bigg)^{1/5}, \] o que é equivalente à seguinte desigualdade, que é verdadeira pela desigualdade de Jensen: \[ \mbox{E}\Bigg( \dfrac{f''(x)^2}{f(x)}\Bigg)^{1/5}\leq \Bigg( \mbox{E}\Bigg(\dfrac{f''(x)^2}{f(x)}\Bigg)\Bigg)^{1/5}\cdot \]

Assim, assintoticamente, o \(\mbox{MISE}\) de um FP adaptativo é apenas 91.5% e 76.7% do \(\mbox{MISE}\) de um FP com largura de intervalo fixa para dados normais e de Cauchy, respectivamente, ver Exercício 8.

O \(\mbox{MISE}\) para o FP de um histograma adaptativo pode ser calculado exatamente. Como o FP adaptativo resultante não integra 1, seu valor prático é questionável; no entanto, há muito o que examinar na estrutura da malha ótima. Observe que, assintoticamente, o FP adaptativo ótimo integrará 1, uma vez que o histograma adaptativo subjacente integra exatamente 1. O padrão geral em uma malha de FP adaptativa pode ser inferido do Teorema 4.2.

A malha de FP parece estar fora de fase com a malha do histograma adaptativo ótimo em pontos críticos. Os intervalos do FP são mais largos onde a segunda derivada é pequena, o que ocorre em pontos de inflexão e, em menor grau, nas caudas da distribuição. Entre esses extremos, os intervalos podem ser bastante estreitos, dependendo da magnitude de \(f''(x)\). Considere a malha adaptativa ótima da densidade \(Beta(5,5)\) normalizada escalonada na Figura 4.4. Nas caudas, os intervalos ótimos não são muito mais amplos. Na verdade, o padrão é relativamente difícil de observar, exceto para o maior tamanho de amostra.

Figura 4.4: Malhas poligonais de frequência adaptativa otimizadas para a densidade \(Beta(5,5)\) escalonada. O histograma é apresentado a partir do qual o FP (linha pontilhada) é derivado. As marcas de escala para a malha adaptativa são mostradas acima de cada figura.

Dada não apenas a complexidade de uma malha adaptativa ótima, mas também a redução relativamente modesta no \(\mbox{MISE}\), algoritmos adaptativos práticos têm surgido lentamente. Uma estratégia intermediária seria realizar transformações de dados para minimizar a assimetria ou lidar individualmente com clusters amplamente separados.

4.1.4 Modas e protuberâncias em um polígono de frequência

No Capítulo 3, observou-se que o alisamento \(\mbox{MISE}\) ótimo para um histograma não conseguia fornecer uma estimativa confiável de modas ou protuberâncias. Como as larguras ótimas dos intervalos FP são maiores e da ordem de \(O(n^{-1/5})\), a discussão na Seção 3.5 mostra que os modas e protuberâncias amostrais em um polígono de frequência ótimo são mais confiáveis do que aqueles encontrados em um histograma ótimo.

Continuando a análise da Seção 3.5 e assumindo que \(x = 0\) é uma moda, escreva \[ \tag{4.14} h^*=c\, n^{-1/5} \qquad \mbox{e definamos} \qquad \beta = -\dfrac{1}{2}c^{5/2} \dfrac{f''(0)}{\sqrt{f(0)}}\cdot \] Usando este \(h^*\) e observando que \((h^*)^{5/2} \sqrt{n} = c^{5/2}\) na equação (3.76), temos que \[ \tag{4.15} \lim_{n\to\infty} P\Big( \nu_0 = \arg\max_{|j|\leq k}\nu_j \Big)=\int_y \prod_{j=-k \\ j\neq 0}^k \Phi(y+j^2\beta) \phi(y)\mbox{d}y\cdot \]

Essa probabilidade é uma constante que depende apenas de \(\beta\), e um pouco de \(k\), mas não do tamanho da amostra. Um gráfico é mostrado na Figura 4.5 para a escolha \(k = 4\). Quando \(\beta = 0\), ou seja, \(f''(0) = f'(0) = 0\), de modo que a função de densidade seja muito plana, então a probabilidade de \(\nu_0\) ser a moda é \(1/(2k + 1)\), uma vez que a densidade é localmente uniforme e todos os \(2k + 1\) intervalos têm a mesma probabilidade de conter a maior contagem.

À medida que \(\beta\) aumenta, a probabilidade de \(\nu_0\) ser a maior contagem aumenta para 1. \(\beta\), que é adimensional, mede a “força” da moda em \(x = 0\). Uma expressão semelhante pode ser calculada para a probabilidade de cada um dos \(\{\nu_\ell \, , \, 1\leq |\ell|\leq k\}\) ser a maior contagem do intervalo, um “erro”, já que a moda está no centro de \(B_0\). As probabilidade são simétricas em \(\ell\). Cada uma também é uma função apenas de \(\beta\) (ver Figura 4.5).

Figura 4.5: Distribuição de probabilidade da localização da moda amostral em função de \(\beta\) para a escolha \(k = 4\). Os valores de \(\beta\) para as distribuições Normal e Cauchy são 2.15 e 3.6, respectivamente, e são indicados pelas letras \(N\) e \(C\).

Um “intervalo de confiança” para a moda verdadeira pode ser derivado deste gráfico, dada uma estimativa de \(\beta\). Por exemplo, se \(\beta = 2.7\), então a probabilidade de \(\nu_0\) ser a maior contagem é de 95%. Assim, o intervalo de classes da amostra \((-h/2, h/2)\) é um intervalo de confiança de 95% para a moda. Se \(\beta = 0.46\), então a probabilidade é de 95% de que a moda da amostra esteja em \((-3h/2, 3h/2)\), ou seja, nas classes \(B_{-1}\), \(B_0\) e \(B_1\). No entanto, a derivação assumiu que a moda verdadeiro estava no centro de um intervalo.

Portanto, para usar esse resultado na prática, a malha deve ser deslocada de modo que os valores do FP nos intervalos adjacentes à moda da amostra tenham alturas aproximadamente iguais. Isso garante que a moda da amostra esteja aproximadamente no centro de um intervalo. A estimativa da amostra de \(\beta\) certamente será subestimada devido ao viés para baixo nas modas, portanto, o intervalo de confiança é conservador.

As estimativas são consistentes se as probabilidades não estiverem mudando? A resposta é sim, porque os intervalos de confiança são expressos em termos de múltiplos da largura do intervalo, que está diminuindo em direção a zero na taxa \(n^{-1/5}\). Observe que o cálculo não exclui outras modas amostrais menores, por exemplo, \(\nu_3 > \nu_2\) nessa vizinhança, mas a interpretação deve ser aceitável na maioria das situações. Uma figura semelhante à Figura 4.5, mas com um valor maior de \(k\), é praticamente idêntica, exceto próximo a \(\beta = 0\). Para dados Normais e de Cauchy, \(\beta ≈ 2.15\) e 3.6, respectivamente. Há 89% de probabilidade de que a moda da amostra para dados normais esteja no intervalo \(B_0\), 99% para dados de Cauchy. Localizar as modas para essas densidades é relativamente fácil.

4.2 Polígonos de frequência multivariados

Existem duas maneiras importantes de definir um interpolador linear de um histograma multivariado com intervalos hiper-retangulares, onde \(\pmb{x}\in\mathbb{R}^d\). A primeira, considerada por Scott (1985b), Scott (1985a), consiste em interpolar os valores nos centros de \(d+1\) intervalos adjacentes do histograma em uma configuração “triangular” ou, mais geralmente, em uma configuração semelhante a um simplex.

O conjunto resultante de segmentos triangulares de um hiperplano define uma superfície contínua, mas não diferenciável, em \(d+1\). A definição não é única, visto que diversas reflexões do padrão básico funcionam (ver Figura 4.6).

Figura 4.6: Um exemplo da construção de um polígono de frequência (FP) bivariado usando malhas triangulares (à esquerda) e elementos de mistura linear (à direita).

A segunda definição para um FP multivariado, que foi investigada independentemente por Terrell and Scott (1983) e Hjort (1986), é conhecida como mistura linear na literatura de computação gráfica. Por exemplo, em duas dimensões, a fórmula para uma mistura linear no quadrado unitário é simplesmente \[ f(x,y)=a+b\, x+c\, y+d\, xy, \] que contém quatro dos seis termos de um modelo quadrático completo, omitindo os dois termos quadráticos puros envolvendo \(x^2\) e \(y^2\). Para \(x = x_0\) fixo, a mistura linear é \[ f(x_0, y) = (a + b\, x_0) + (c + d\, x_0)y, \] que é linear em \(y\).

Da mesma forma, para \(y = y_0\) fixo, a mistura linear é \(f(x_0, y) = (a + c\, y_0) + (b + d\, y_0)x\), que é linear em \(x\). Assim, a superfície é linear paralela aos eixos coordenados. No entanto, ao longo da diagonal \(x = y\), \(f(x,y)=a+(b+c)x+dx^2\), que é quadrática.

Em dimensões gerais, uma única porção de uma mistura linear se estende sobre um hiper-retângulo com \(2^d\) vértices, definidos pelos centros dos intervalos dos \(2^d\) histogramas adjacentes. Qualquer corte da superfície paralelo a um eixo de coordenadas resulta em um ajuste linear, veja o quadro à direita na Figura 4.6. Certamente, essa definição de um FP multivariado é mais suave do que a primeira, mas a principal vantagem dessa formulação é o resultado no \(\mbox{AMISE}\), de simplicidade notável.

O polígono de frequência de mistura linear (LBFP) é apenas ligeiramente mais complicado de definir do que a malha triangular. Considere um compartimento LBFP típico, \[ B_{k_1,\cdots,k_d}=\prod_{i=1}^d [t_k,t_{k_{i}}+h_i)\cdot \]

Então, para \(\pmb{x}\in B_{k_1,\cdots,k_d}\), o LBFP é definido como \[ \tag{4.16} \widehat{f}(\pmb{x})=\dfrac{1}{n\, h_1\cdots h_d}\sum_{j_1,\cdots,j_d\in \{0,1\}^d} c_{j_1,\cdots,j_d} \nu_{k_1+j_1,\cdots,k_d+j_d}, \] onde \[ c_{j_1,\cdots,j_d}=\prod_{i=1}^d u_i^{j_i} (1-u_i)^{1-j_i} \qquad \mbox{e} \qquad u_i=\dfrac{x_i-t_{k_i}}{h_i}\cdot \] Hjort (1986) mostrou que o LBFP integra 1 e que \[ \mbox{AMISE}(\pmb{h})=\dfrac{2^d}{3^d n \, h_1\cdots h_d}+\dfrac{49}{2880}\sum_{i=1}^d h_i^4 R(f_{ii})+\dfrac{1}{32}\sum_{i<j} h_i^2 h_j^2 R\big(\sqrt{f_{ii}f_{jj}} \big), \] onde \(f_{ij}\) é a derivada parcial mista de segunda ordem.

Embora isso não possa ser otimizado de forma fechada, exceto em casos especiais, pode-se mostrar que \[ \tag{4.17} h_i^*O\big(n^{-1/(4+d)}\big) \qquad \mbox{e} \qquad \mbox{AMISE}^* = O\big(n^{-4/(4+d)} \big)\cdot \]

Os polígonos de frequência não apenas são mais eficientes que os histogramas, como também a diferença na ordem das taxas de convergência entre as dimensões é significativa. Se a noção de que os histogramas bivariados “funcionam” estiver correta, então a Tabela 4.2 sugere que os polígonos de frequência quadrivariados deveriam funcionar igualmente bem.

Tabela 4.2: Ordem assintótica do \(\mbox{MISE}\) para histograma multivariados e estimadores de densidade polígono de frequência.

Alguns autores afirmaram ter obtido bons resultados com histogramas quadrivariados, o que corresponderia a um polígono de frequência de oito dimensões em termos de ordem exponencial. Por outro lado, o nível de detalhe exigido em dimensões mais altas deve diminuir. Trabalhar com mais de quatro ou cinco dimensões geralmente é feito por conveniência de interpretação, e não por razões estruturais, como interações em dimensões mais altas.

Por razões gráficas, a primeira definição de um polígono de frequência (PF) é mais simples de usar, pois os contornos resultantes são compostos por seções poligonais segmentadas, que podem ser representadas com muitos softwares CAD/CAM. Há pouca diferença prática na qualidade da aproximação dos dois estimadores, e a estrutura de agrupamento é facilmente perceptível no primeiro, mas não no segundo.

Algoritmos avançados de visualização de superfícies requerem o valor da função em uma malha 3D. A ideia simplificadora aqui é que a malha de visualização pode ser idêntica à malha do PF. Usualmente, existem várias opções de interpolação em programas de visualização, incluindo interpolações lineares e triangulares segmentadas. Assim, a escolha da interpolação pode ser considerada principalmente como uma questão estética de suavidade da visualização e, secundariamente, como uma escolha de qualidade de densidade.

Utilizando a malha triangular com dados normais bivariados, Scott (1985b) mostrou que as larguras ótimas dos intervalos são aproximadamente iguais a \[ h_i^* = 2.105\Bigg(1-\dfrac{107}{208}\rho^2+\cdots \Bigg)\sigma_i n^{-1/6}, \qquad i=1,2\cdot \]

Para dados normais multivariados com \(\Sigma = \pmb{I}_d\), os parâmetros de suavização ótimos em cada dimensão são iguais, com a constante próxima de 2. Assim, Scott também propôs usar \[ \tag{4.18} \mbox{Regra de referência FP normal aproximada: } \; h_i=2\, \widehat{\sigma}_i \,n^{-1/(4+d)}\cdot \]

4.3 Problemas de bordas de intervalos

Como mencionado no Capítulo 3, a malha é completamente determinada pelo par \((h,t_0)\). A teoria assintótica indica que a escolha da origem do intervalo é assintoticamente desprezível. Considere o conjunto de dados de queda de neve de Buffalo, arquivo de dados snow no Exemplo 3.2. A queda de neve anual durante 63 invernos foi registrada de 1910/1911 a 1972/1973. Alguns argumentaram (Scott 1980) que os dados parecem ser trimodais, mas Parzen (1979) sugeriu que as evidências apontam para uma densidade unimodal.

Pode-se imaginar que a escolha da largura do intervalo, e não da origem do intervalo, seria crucial para a compreensão dessa questão. De fato, na Figura 4.7, o histograma com 15 intervalos de largura 10 polegadas sugere trimodalidade, enquanto o histograma com 10 intervalos de largura 15 polegadas sugere unimodalidade.

Figura 4.7: Histogramas dos dados de queda de neve de Buffalo (arquivo de dados snow no Exemplo 3.2) com origem do intervalo \(t_0 = 0\) e larguras de intervalo de 30, 15, 10, 7,5, 6 e 5 polegadas no intervalo (0, 150).

Mas na Figura 4.8, o efeito da escolha da origem do intervalo se revela claramente não ser desprezível. O primeiro histograma é quase unimodal. Quatro histogramas são bimodais, mas com moda secundária à esquerda ou à direita. E, notavelmente, apenas um histograma é trimodal. Continuando para o cenário multivariado, o efeito da origem do intervalo é mais pronunciado.

Figura 4.8: Seis histogramas deslocados dos dados de queda de neve de Buffalo. Todos têm uma largura de intervalo de 12.5 polegadas, mas origens de intervalo diferentes \(t_0 = h/m\), \(m = 1,\cdots, 6\).

A afirmação de que a escolha de \(t_0\) é assintoticamente desprezível em relação ao \(\mbox{MISE}\) também é verdadeira para o polígono de frequência. No entanto, as larguras de intervalo ótimas para um polígono de frequência são substancialmente maiores do que para o histograma. Assim, existem muito mais opções possíveis para a origem do intervalo. Para uma determinada escolha de largura de intervalo, uma recomendação possível é escolher a origem do intervalo de forma que a estimativa seja a mais “suave” possível. Se isso sempre pudesse ser feito, então o grau de irregularidade na estimativa seria sempre determinado pela largura do intervalo, tanto quanto possível, e não pela origem do intervalo \(t_0\), que pode ser considerada um parâmetro de incômodo. O próximo capítulo apresenta um dispositivo engenhoso que elimina completamente o efeito desse parâmetro de incômodo.

4.4 Outras modificações dos histrogramas

Existem outros algoritmos baseados no histograma que possuem propriedades teóricas interessantes e vantagens computacionais para big data. As próximas seções destacam alguns deles.

4.4.1 Ajustes na contagem de intervalos

Nesta seção, consideramos modificações na definição da contagem de intervalos e analisamos o comportamento resultante.

4.4.1.1 Agrupamento linear

O agrupamento simples localiza o compartimento \(B_k\), no qual um ponto de dados \(x_i\), está localizado e incrementa a contagem do compartimento \(\nu_k\) em 1. Hall and Wand (1996) mostraram que a melhoria resultava se a contribuição de \(x_i\) fosse dividida entre dois compartimentos adjacentes. Por exemplo, se \(x_i\) estiver localizado na metade direita do compartimento \(B_k\), então a contagem do compartimento é dividida entre \(B_k\) e \(B_{k+1}\).

Concentre-se nos intervalos \(B_0 = (-h,0)\) e \(B_1 = (0,h)\), conforme mostrado na Figura 4.1. Sejam os três intervalos sobrepostos deslocados \((-3h/2,-h/2)\), \((-h/2,h/2)\) e \((h/2,3h/2)\) denotados por \(J_{-1}\), \(J_0\) e \(J_1\), respectivamente. Se \(x_i\in J_1\), então a “contagem” do intervalo em \(B_1\) é incrementada, respectivamente em \((3/2-x_i/h)\). Observe que o incremento é 1, \(\frac{1}{2}\) ou 0 se \(x_i=\frac{h}{2}\) ou \(\frac{3h}{2}\), respectivamente.

Sejam \(\widetilde{\nu}_0\) e \(\widetilde{\nu}_1\) as contagens de agrupamento linear. Então \[ \widetilde{\nu}_0=\sum_{i=1}^n \Bigg( \Big(\frac{3}{2}+\frac{x_i}{h} \Big)\pmb{I}_{(x_i\in J_{-1})} +\Big(\frac{1}{2}-\frac{x_i}{h} \Big)\pmb{I}_{(x_i\in J_{0})}\Bigg) \] e \[ \widetilde{\nu}_1=\sum_{i=1}^n \Bigg( \Big(\frac{1}{2}+\frac{x_i}{h} \Big)\pmb{I}_{(x_i\in J_{0})} +\Big(\frac{3}{2}-\frac{x_i}{h} \Big)\pmb{I}_{(x_i\in J_{1})}\Bigg)\cdot \]

Observe que o polígono de frequência definido na equação (4.1) agora usa essas contagens ajustadas nos intervalos para \(x\in J_0\). Seja \(LB\) a discretização linear. Então, a esperança é \[ \mbox{E}\big(\widehat{f}_{LB}(x) \big)=\Big(\frac{1}{2}+\frac{x}{h}\Big)\dfrac{\mbox{E}\big(\widetilde{\nu}_0\big)}{nh} +\Big(\frac{1}{2}+\frac{x}{h} \Big)\dfrac{\mbox{E}\big(\widetilde{\nu}_1\big)}{nh} \] onde \[ \mbox{E}\big(\widetilde{\nu}_0\big) = n\Bigg( \int_{J_{-1}} \Big(\frac{3}{2}+\frac{x}{h}\Big) f(x)\mbox{d}x+ \int_{J_0} \Big(\frac{1}{2}-\frac{x}{h} \Big)f(x)\mbox{d}x\Bigg) \] e \[ \mbox{E}\big(\widetilde{\nu}_1\big) = n\Bigg( \int_{J_{0}} \Big(\frac{1}{2}+\frac{x}{h}\Big) f(x)\mbox{d}x+ \int_{J_1} \Big(\frac{3}{2}-\frac{x}{h} \Big)f(x)\mbox{d}x\Bigg)\cdot \]

Utilizando a série de Taylor na equação (4.2) no Mathematica, encontramos \[ \tag{4.19} \mbox{E}\big(\widehat{f}_{LB}(x) \big)= f(0)+x\, f'(0) +\dfrac{5}{24}h^2 f''(0)+O(h^3)\cdot \]

Subtraindo a equação (4.2) da equação (4.19), o termo principal no viés é \[ \dfrac{5}{24} h^2 f''(0)-\dfrac{1}{2}x^2 f''(0)\cdot \] Integrando o viés ao quadrado no intervalo \(J_0 = \big(-\frac{h}{2},\frac{h}{2}\big)\) obtém-se \[ \dfrac{7}{240}h^4 f''(0)^2 \times h\cdot \] Para \(x\in J_k\), substitua \(f''(0)^2\) por \(f''(kh)^2\). Assim, o \(\mbox{ISB}\) assintótico é dado pela soma desses termos em todos os intervalos \(\{J_k\}\), resultando em \[ \tag{4.20} \mbox{AISB}(h)=\sum_{k=-\infty}^\infty \dfrac{7}{240}h^4 f''(kh)^2 \times h = \dfrac{7}{240}h^4 R(f'')\cdot \]

O cálculo da variância de \(\widehat{f}_{LB}(x)\) é muito mais desafiador. Reescreva \(\widehat{f}_{LB}(x)\) como \[ \Big(\frac{1}{2}-\frac{x}{h}\Big)\dfrac{1}{nh}\sum_{i=1}^n \Bigg(\Big(\frac{3}{2}+\frac{x_i}{h}\Big)\pmb{I}_{(x_i\in J_{-1})}+\Big(\frac{1}{2}-\frac{x_i}{h}\Big)\pmb{I}_{(x_i\in J_{0})} \Bigg) \\ + \Big(\frac{1}{2}+\frac{x}{h}\Big)\dfrac{1}{nh}\sum_{i=1}^n \Bigg(\Big(\frac{1}{2}+\frac{x_i}{h}\Big)\pmb{I}_{(x_i\in J_{0})}+\Big(\frac{3}{2}-\frac{x_i}{h}\Big)\pmb{I}_{(x_i\in J_{1})}\Bigg)\cdot \] Seja \(\pmb{I}_k(x_i)\) a expressão que denota \(\pmb{I}_{(x_i\in J_k)}\). Reunindo todos os termos em uma única soma e definindo \[ a_{-1}=\dfrac{3h-6x}{4h^2}, \quad b_{-1}=\dfrac{h-2x}{2h^3}, \quad a_0=\dfrac{1}{2h}, \quad b_0=\dfrac{2x}{h^3}, \quad a_1=\dfrac{3h+6x}{4h^2}, \quad b_1=-\dfrac{h+2x}{2h^3}, \] temos que \(\widehat{f}_{LB}(x)\) pode ser escrito como \[ \dfrac{1}{n}\sum_{i=1}^n \Big(\big(a_{-1}+b_{-1} x_i \big)\pmb{I}_{-1}(x_i)+\big(a_0+b_0 x_i\big)\pmb{I}_0(x_i)+\big(a_1+b_1 x_i\big)\pmb{I}_1(x_i) \Big)\cdot \]

Como esta é a média de um conjunto de variáveis aleatórias independentes e identicamente distribuídas (i.i.d.), a variância de \(\widehat{f}_{LB}(x)\) será a variância do primeiro termo da parcela, ou seja, quando \(i = 1\), dividida por \(n\).

Isso resulta em seis termos, três dos quais da forma \[ \mbox{Var}\Big( \big(a_k+b_k X_1 \big) \pmb{I}_{(X_i\in J_k)}\Big), \qquad k=0,1,2, \] e três da forma, duas vezes \[ \mbox{Cov}\Big(\big(a_k+b_kX_1 \big)\pmb{I}_{(X_1\in J_k)},\big(a_j+b_j X_1 \big)\pmb{I}_{(X_1\in J_j)} \Big), \] onde \((k,j)=\{(-1,0),(-1,1),(0,1)\}\).

Defina os “momentos” locais \[ m_\ell(k) = \int_{J_k} x^\ell f(x)\mbox{d}x; \] observe que a probabilidade do compartimento é \(p_k = m_0 (k)\).

Um pequeno cálculo mostra que os três termos de variância são dados por \[ a_k^2 \, p_k (1-p_k)+b_k^2 \, \big(m_2(k)-m_1(k)^2\big)+ 2a_k b_k \, m_1(k)(1-p_k), \] e os três termos de covariância são dados por \[ -\big(a_k p_k + b_k m_1(k) \big)\times \big(a_j p_j+b_j m_1(j) \big)\cdot \] Substituindo todos esses valores, basta usar a Série de Taylor de um termo \(f(x) = f(0) + \cdots\) e integrando a variância no intervalo \(J_0 = \big(-\frac{h}{2},\frac{h}{2}\big)\), obtemos \[ \dfrac{f(0)}{2nh}\times h - \dfrac{f(0)^2}{n}\times h + \cdots \; \cdot \] Assim, a variância integrada assintótica é dada por \[ \mbox{AIV}=\sum_{k=-\infty}^\infty \Bigg( \dfrac{f(kh)}{2nh}\times h-\dfrac{f(kh)^2}{n}\times h \Bigg)=\dfrac{1}{2nh}-\dfrac{R(f)}{n}\cdot \]

Teorema 4.3:

Suponha que \(f''\) seja absolutamente contínua e \(R(f''') < \infty\). Então, para o estimador de densidade de polígonos de frequência de agrupamento linea \(\widehat{f}_{LB}(x)\), \[ \tag{4.21} \mbox{AMISE}(h)=\dfrac{1}{2nh}+\dfrac{7}{240}h^4 R(f'') \] por isso, \[ h^* = \left(\dfrac{30}{7} \right)^{1/5} R(f'')^{-1/5} n^{-1/5} \] e \[ \tag{4.22} \mbox{AMISE}^*=\dfrac{5^{4/7} 7^{1/5}}{8\times 6^{1/5}} R(f'')^{1/5} n^{-4/5}\cdot \]

Demonstração. Scott (2015).

As constantes \(\mbox{AMISE}^*\) principais nos Teoremas 4.1 e 4.3 são 0.5280 e 0.4672, respectivamente. Assim, o agrupamento linear reduz o \(\mbox{AMISE}\) do polígono de frequência para qualquer densidade \(f\) em 11.5%. As constantes \(h^*\) principais são 1.578 e 1.338, respectivamente. Portanto, a largura de banda do agrupamento linear é sempre 15.2% menor. Isso é esperado, visto que a contagem ajustada de intervalos inclui dados de intervalos mais amplos.

Embora o ganho universal de 11.5% seja impressionante, deve-se observar que uma limitação prática é que a largura do intervalo \(h\) deve ser conhecida antes que o agrupamento linear possa ser aplicado. Frequentemente, as contagens de intervalos usuais são calculadas usando uma malha muito mais fina e, em seguida, essas contagens são agregadas em uma escolha apropriada para \(h\) por meio de validação cruzada.

Na aplicação idealizada pelos autores para estimadores kernel, discutida posteriormente na Seção 6.7.2.2, \(h\) pode ser calculado a posteriori usando discretização linear em uma malha muito mais fina.

4.4.1.2 Ajustando as contagens de intervalos de um FP para corresponder às áreas do histograma

Minnotte (1996) observou que o polígono de frequência comum não preserva as áreas do histograma nos intervalos. Ele observou que, se as contagens brutas dos intervalos \(\{\nu_k\}\), fossem perturbadas pela fórmula \[ \widetilde{\nu}_k=\sum_{j=-\infty}^\infty c_j \nu_{k+j}, \qquad \mbox{onde} \qquad c_j=2^\frac{1}{2}\big(2^\frac{3}{2}-3 \big)^{|j|}=2^\frac{1}{2}(-0.1716)^{|j|}, \] então, o polígono de frequência construído usando \(\{\widetilde{\nu}_k\}\) teria áreas de compartimento exatamente correspondentes às do histograma. O polígono de frequência (FP) resultante reduz o \(\mbox{AIMSE}^*\) em 4.4%.

Em um artigo subsequente, Minnotte (1998) investigou o uso de estimativas de densidade spline de ordem superior que também correspondiam às áreas de compartimento do histograma. O resultado foi que aproximações de alta ordem poderiam ser obtidas. Por exemplo, os splines de ordem 0 e 1 são o histograma e o polígono de frequência ajustado com taxas de convergência de ordens \(O(n^{-2/3})\) e \(O(n^{-4/5})\), respectivamente.

Os splines de ordem 2 e 3 têm taxas de convergência de \(O(n^{-6/7})\) e \(O(n^{-8/9})\), aproximando-se do limite superior teórico de \(O(\log(n) n^{-1})\). Minnotte observa que todas as estimativas de ordem superior não serão não negativas em geral, mas argumenta que isso não é uma deficiência grave.

4.4.2 Histogramas polinomiais

Uma abordagem completamente diferente consiste em calcular não apenas a contagem de classes em \(B_k\), mas também a média dos pontos em cada classe, e talvez a variância, etc.. Intuitivamente, se a média da classe estiver à direita do centro da classe, então a densidade deve estar aumentando na classe, e vice-versa. Em uma série de artigos, Scott and Sagae (1997), Sagae, Scott, and Kusano (2006), Sagae, Noro, and Scott (2009), Papkov and Scott (2010) e Jing, Koch, and Naito (2012) consideraram essa ideia formalmente.

Considere ajustar uma equação linear por partes para a densidade, como no polígono de frequência, mas dentro do intervalo do histograma. Por conveniência, seja o intervalo zero \(B_0 = \big(-\frac{h}{2},\frac{h}{2}\big)\) e escreva para o histograma polinomial linear (LPH) \[ \tag{4.23} \widehat{f}(x)=\widehat{f}_{LPH}(x)=a+b\, x, \qquad \mbox{para} \qquad x\in B_0\cdot \]

Agora, a área de \(\widehat{f}(x)\) sobre \(B_0\) é simplesmente \(\displaystyle \int_{{B_0}} f(x)\mbox{d}x = a\,h\); portanto, a densidade condicional é dada por \[ \widehat{f}_{{B_0}}(x)=\widehat{f}(x \, | \, x\in B_0)=\dfrac{a+b\, x}{a\, h}, \qquad x\in B_0\cdot \]

Observe que \(\displaystyle \int_{{B_0}} \widehat{f}_{{B_0}}(x)\mbox{d}x = 1\). A ideia é escolher as duas constantes \(a\) e \(b\) em \(\widehat{f}(x)\) para corresponder às duas primeiras restrições de momento, área e média condicional: \[ \int_{{B_0}} \widehat{f}_{{B_0}}(x)\mbox{d}x =\dfrac{\nu_0}{n} \] e \[ \int_{{B_0}} x\, \widehat{f}_{{B_0}}(x)\mbox{d}x=\overline{x}_0, \] onde \(\displaystyle \overline{x}=\dfrac{1}{\nu_0}\sum_{{i\in B_0}} x_i\).

A solução única para essas restrições é \[ a=\dfrac{\nu_0}{n\, h} \qquad \mbox{e} \qquad b=\dfrac{12\, \nu_0 \overline{x}_0}{n\, h^3}\cdot \]

Seja \(I_i=\pmb{I}_{\{X_i\in B_0\}}\) o evento em que a amostra aleatória \(X_i\) pertence a \(B_0\). Então, podemos escrever a solução explícita para \(\widehat{f}(x)\) na forma conveniente para análise como: \[ \tag{4.24} \widehat{f}_{LPH}(x) = \dfrac{1}{nh} \sum_{i=1}^n \pmb{I}_i +\dfrac{12x}{nh^3}\sum_{i=1}^n \pmb{I}_i X_i = \dfrac{1}{n}\sum_{i=1}^n \Bigg( \dfrac{1}{h}\pmb{I}_i+\dfrac{12x}{h^3}\pmb{I}_i X_i \Bigg)\cdot \]

Defina os momentos locais \[ m_\ell =\mbox{E}\big(\pmb{I}_i X_i^\ell \big) =\int_{{B_0}} x^\ell f(x)\mbox{d}x, \] usando a Série de Taylor (4.2). Novamente, \(p_0 = m_0\). Então, o valor esperado do histograma polinomial linear é \[ \begin{array}{rcl} \mbox{E}\big(\widehat{f}_{LPH} \big)(x) & = & \displaystyle \dfrac{1}{h}\mbox{E}(\pmb{I}_1)+\dfrac{12x}{h^3}\mbox{E}\big(\pmb{I}_1 X_1\big) = \dfrac{1}{h}m_0+\dfrac{12x}{h^3}m_1\\[0.8em] & = & f(0)+x \, f'(0)+\dfrac{1}{24}h^2 f''(0)+O(h^3)\cdot \end{array} \]

Subtraindo a Série de Taylor da equação (4.2), obtemos o viés. \[ \mbox{Viés}(x)=\mbox{E}\big(\widehat{f}(x)\big)-f(x)=\Bigg(\dfrac{h^2}{24}-\dfrac{x^2}{2} \Bigg)f''(0)+O(h^3) \] portanto \[ \int_{{B_0}} \mbox{Viés}(x)^2\mbox{d}x=\dfrac{1}{720}h^4 f''(0)^2 \times h+O(h^7) \] e \[ \mbox{AISB}(h)=\sum_{k=-\infty}^\infty \dfrac{1}{720}h^4 f''(kh)^2\times h =\dfrac{1}{720}h^4 R(f'')\cdot \]

A variância de \(\widehat{f}_{LPH}(x)\) na equação (4.24) é \[ \begin{array}{rcl} \mbox{Var}\big(\widehat{f}(x) \big) & = & \displaystyle \dfrac{1}{n}\left( \dfrac{1}{h^2}\mbox{Var}\big(\pmb{I}_1\big)+\dfrac{24x}{h^4}\mbox{Cov}\big(\pmb{I}_1,\pmb{I}_1 X_1\big)+\dfrac{144x^2}{h^6}\mbox{Var}\big(\pmb{I}_1X_1\big) \right) \\[0.8em] & = & \displaystyle \dfrac{1}{n}\left( \dfrac{1}{h^2} p_0(1-p_0)+\dfrac{24x}{h^4}m_1(1-p_0)+\dfrac{144x^2}{h^6}(m_2-m_1^2) \right) \\[0.8em] & = & \displaystyle \dfrac{f(0)}{nh}+\dfrac{12x^2 f(0)}{nh^3}-\dfrac{f(0)^2}{n}+\cdots \, \cdot \end{array} \]

A integração sobre \(B_0\) resulta em \(\displaystyle \dfrac{2f(0)}{nh}\times h-\dfrac{f(0)^2}{n}\times h\), portanto, a variância integrada assintótica é \[ \mbox{AIV}(h)=\sum_{k=-\infty}^\infty \dfrac{2f(kh)}{nh}\times h -\dfrac{f(0)^2}{n}\times h=\dfrac{2}{nh}-\dfrac{R(f)}{n}\cdot \]

Teorema 4.4

Suponha que \(f''\) seja absolutamente contínua e \(R(f''') < \infty\). Então para o estimador de histograma polinomial linear \(\widehat{f}_{LPH}(x)\) temos, \[ \tag{4.25} \mbox{AMISE}(h) = \dfrac{2}{nh}+\dfrac{1}{720}h^4 R(f'') \] portanto \[ h^*= 360^{1/5} R(f'')^{-1/5} n^{-1/5} \] e \[ \tag{4.26} \mbox{AMISE}^* = (625/2304)^{1/5} R(f'')^{1/5} n^{-4/5}\cdot \]

Demonstração. Scott (2015).

Agora, o coeficiente principal do \(\mbox{AMISE}^*\) é 0.565, o que representa um aumento de 45.9% em relação ao polígono de frequência. No entanto, a largura ideal do intervalo é mais que o dobro (2.056).

Uma grande vantagem desse método é sua adequação para a análise de grandes volumes de dados em fluxo contínuo, visto que as contagens e os momentos dos intervalos são facilmente atualizados sem a necessidade de reter os dados brutos. Além disso, para estimativas locais e situações de fronteira, essa abordagem evita a necessidade de cruzar os limites dos intervalos.

Na primeira coluna da Figura 4.9, são exibidas três estimativas do LPH com amostras da densidade da mistura (3.78) para \(n = 10^4\), \(10^5\) e \(10^6\), utilizando a largura ideal do intervalo. Como o LPH é calculado intervalo por intervalo, a estimativa não é contínua, embora, para amostras suficientemente grandes, pareça quase contínua.

Figura 4.9: Para três tamanhos de amostra da densidade da mistura, exemplos das estimativas LPH por partes, LPH contínua e QPH por partes.

A segunda coluna da Figura 4.9 exibe uma estimativa contínua do LPH por spline. A spline é restringida para corresponder à área e à média condicional em cada intervalo e para ter uma segunda derivada contínua em todos os pontos. Os parâmetros extras são determinados minimizando a rugosidade da spline, como em \(R(f'')\). A restrição de positividade não é imposta, mas as estimativas parecem muito boas.

Finalmente, a terceira coluna da Figura 4.9 exibe o histograma polinomial quadrático por partes (QPH), que adiciona a restrição de que a variância condicional seja igualada. A estimativa para \(x\in B_0\) é quadrática, \[ \widehat{f}_{QPH}(x)= a+b \, x+ c\, x^2 \] e a restrição adicional exige \[ \int_{{B_0}} x^2 \widehat{f}_{{B_0}}(x)\mbox{d}x=\int_{{B_0}} x^2 \dfrac{a+bx+cx^2}{ah+ch^3/12}\mbox{d}x=\dfrac{1}{n}\sum_{x_i\in B_0} x_i^2\cdot \]

Um pouco de álgebra revela que \[ \begin{array}{rcl} a & = & \displaystyle \dfrac{9\nu_0}{4nh}-\dfrac{15}{nh^3}\sum_{i=1}^n \pmb{I}_i X_i^2, \\[0.8em] b & = & \displaystyle \dfrac{12}{nh^3}\sum_{i=1}^n \pmb{I}_i X_i, \\[0.8em] c & = & \displaystyle -\dfrac{15\nu_0}{nh^3}+\dfrac{180}{nh^5} \sum_{i=1}^n \pmb{I}_i X_i^2\cdot \end{array} \]

Pode-se demonstrar que essa estimativa é de ordem superior \(O(n^{-6/7})\), mas apresenta mais ruído para tamanhos de amostra pequenos.

Em resumo, o histograma pode ser aprimorado pela construção de um interpolador linear por partes, pelo ajuste da contagem de intervalos ou pela coleta de informações sobre os momentos locais em cada intervalo.

4.4.3 Quanta informação existe em poucos intervalos?

Nesta seção, revisamos uma reanálise de um conjunto de dados de uma pesquisa telefônica \((n = 1207)\) de um histograma com apenas quatro intervalos espaçados irregularmente, mas de precisão relativamente alta.

Um gráfico de barras com os dados foi publicado em 13 de outubro de 2006, na seção de infográficos diários da primeira página do USA TODAY Snaphots ®. Os homens foram questionados sobre a duração de seus relacionamentos românticos antes do casamento.

O gráfico de barras básico que apareceu é reproduzido na Figura 4.10. Para um gráfico tão simples, baseado em apenas quatro contagens, é surpreendente que haja dois erros significativos. Do ponto de vista estatístico, as larguras dos intervalos não são iguais; portanto, representar as porcentagens brutas como retângulos de largura igual é um erro gráfico grave, pois enfatiza excessivamente as contagens em intervalos mais amplos.

Figura 4.10: (Esquerda) Gráfico de barras com dados brutos de uma pesquisa sobre casamentos, agrupados em intervalos e normalizados incorretamente. (Meio) Exemplo de um gráfico de barras normalizado corretamente. (Direita) Histograma penalizado dos dados correspondentes às quatro proporções de intervalos.

Mas um erro mais fundamental é que as porcentagens somam apenas 90,0%. Uma verificação da fonte de dados (Glenn 2005) revela que o primeiro intervalo corresponde, na verdade, a 15.0%, já que as contagens dos intervalos são 181, 147, 651 e 228.

O quarto intervalo é desconhecido sem os dados brutos; no entanto, se definirmos arbitrariamente o intervalo como 3-5 anos, todos os intervalos serão divisíveis por 6 meses (0.5 anos).

Assim, um histograma adequado pode ser calculado no quadro central da Figura 4.10. Com tão poucos intervalos, que caracterização simples pode ser inferida da forma do histograma? O que inicialmente poderia ter sido interpretado como uma curva aproximadamente em forma de sino, na verdade, parece ser uma curva que se atenua monotonicamente.

Dado o tamanho da amostra, as porcentagens são bastante precisas. Scott and Scott (2008) propuseram ajustar um histograma semelhante e um spline a este gráfico com as seguintes propriedades:

as áreas dos intervalos seriam exatamente correspondentes;
a densidade começaria no ponto \((0,0)\);
a densidade terminaria em um ponto \((c,0)\), onde \(c\) é escolhido de forma que a densidade estimada seja não negativa; e
a curva “mais suave” que satisfaz (i)-(iii) é selecionada.

A propriedade final é geralmente escolhida, levando a splines cúbicas naturais, onde a suavidade é medida por \[ \int f''(x)^2\mbox{d}x; \] aqui usamos a segunda diferença no lugar da segunda derivada. A formulação de álgebra linear que resolve essas quatro propriedades pode ser encontrada em Scott and Scott (2008). Para esses dados, o valor \(c = 4.777\) foi apropriado para impor a não negatividade.

Talvez inesperadamente, o formato do histograma penalizado estimado, exibido no quadro à direita da Figura 4.10, é fortemente bimodal. Isso pode ser confirmado pela amostragem da distribuição multinomial com as contagens de intervalos acima. Todos os histogramas penalizados ajustados às contagens de intervalos bootstrap também são fortemente bimodais.

Dado que a antimoda é observada em aproximadamente 14 meses, muito se sabe sobre as opções para o planejamento e preparação de uma cerimônia de casamento que parecem corroborar a característica bimodal. Agora, com apenas quatro pontos de dados, a precisão da estimativa de densidade em si não deve ser superinterpretada. Na verdade, uma afirmação mais correta seria que a densidade tem pelo menos duas modas (ver Donoho 1988), que discute a natureza unilateral inerente à inferência na estimação não paramétrica. Não obstante, contagens de intervalos altamente precisas, mesmo que em pequeno número, podem fornecer mais informações do que as que podem ser aparentes no próprio histograma.

Desde sua criação em 1982, o USA TODAY tem sido pioneiro em levar gráficos coloridos de dados para seu público nacional de jornais, em grande parte não especializado. Muitos não passavam de gráficos de pizza, mas era comum encontrar estatísticos criticando a qualidade dos diagramas. Hoje, no entanto, a qualidade desses gráficos é bastante alta. Provavelmente, o principal jornal popular em termos de gráficos produzidos profissionalmente é o New York Times, que mantém um grande número de editores gráficos que criam os gráficos geralmente envolventes e ricos em dados, muitas vezes interativos e baseados em mapas.

4.5 Exercícios

1- Demonstre que o polígono de frequência que interpola o histograma nos pontos médios de intervalos igualmente espaçados integra 1. Investigue definições alternativas de um polígono de frequência (FP) derivadas de um histograma adaptativo ou com intervalos desiguais.

2- Verifique as derivações do viés e da variância do FP na Seção 4.1.1.

3- Considere o FP quando os dados provêm da função de densidade exponencial negativa, \(f(x) = e^{-x}\), \(x\geq 0\). Usando a malha do histograma \((-h, 0, h, 2h,\cdots)\), calcule a contribuição para o viés dos intervalos adjacentes a \(x = 0\) e mostre que o viés quadrático integrado total em \((-h/2, h/2)\) não é mais \(O(h^4)\), mas sim \(h/12+ O(h^2)\). Compare este resultado com o resultado correspondente para o histograma.
Dica: Utilize um pacote de software simbólico para calcular a probabilidade com exatidão e, ao final, utilize a série de Taylor.

2- Verifique a equação (2.5). Mostre-a graficamente para vários tamanhos de amostra e compare o minimizador real com a fórmula assintótica.

3- Mostre que a distância de Kullback-Leibler esperada para o estimador paramétrico \(\widehat{f} = U(0,x_{(n)})\) de \(f = U(0, 1)\) é \(1/(n-1)\).

4- Uma solução sugerida para o problema de fronteira é refletir os dados em torno de 0, ou seja, calcular o FP usando os dados \(-x_n,\cdots,-x_1,x_1,\cdots,x_n\) e então dobrar a estimativa para \(x\geq 0\). Considere novamente a densidade exponencial negativa.
1. Mostre que, usando a mesma malha do Exercício 3, Capítulo 3, obtém-se uma estimativa “plana” semelhante a um histograma no intervalo \((0, h/2)\), que contribui com um termo de ordem \(h^2\) para o viés quadrático integrado.
2. Mostre que a malha do histograma \((-3h/2,-h/2, h/2, 3h/2,\cdots)\) com dados refletidos leva a uma contribuição para o viés quadrático integrado \((\mbox{ISB})\) do intervalo \((0,h)\) igual a \(h^3/48 + O(h^4)\), que está entre as ordens usuais do histograma e do expoente FP.

5- Encontre algumas aproximações simples para os fatores de assimetria e curtose na Seção 4.1.2. Teste-as em alguns dados simulados.

6- Considere a estimativa de rugosidade do FP dada na equação (4.9).
1. Mostre que ela é não viesada em primeira ordem em \(h = h^*\).
2. Alternativamente, mostre que \[ \dfrac{80}{129 \, n^2 h^5}\sum_k \big(\nu_{k+1}-2\nu_k+\nu_{k-1} \big)^2 \] também é não viesado em primeira ordem.
3. Construa os dois estimadores do \(\mbox{BCV}\) que decorrem desses dois estimadores do \(R(f'')\) e compare-os empiricamente em dados simulados.

7- Encontre a fórmula do \(\mbox{UCV}\) para um FP e teste-a no conjunto de dados de queda de neve (snow). Você pode usar o conjunto de dados LRL? O que acontece se você desfocar os dados LRL uniformemente sobre os intervalos?

8- Calcule a eficiência assintótica de uma malha adaptativa ótima em relação a uma malha fixa para dados normais e de Cauchy.

9- Qual o desempenho das malhas de \(k\)-vizinhos mais próximos, número igual de pontos em cada intervalo, para o FP? Faça uma figura quando \(f(x) = Beta(5,5)\).

10- Considere o problema de estimar a curvatura usando um polígono de frequência ou um histograma pelo estimador de segunda diferença finita \[ \widehat{f}''(x) = \dfrac{\widehat{f}_1-2\widehat{f}_0+\widehat{f}_{-1}}{h^2}\cdot \] Mostre que o \(\mbox{AISB}\) é \(h^2 R(f''')/12\), o \(\mbox{AIV}\) é \(6/(nh^5)\) e, portanto, \(h^* = \big(180/nR(f''')\big)^{1/7}\). Qual é a regra de referência normal?
Dica: Use a malha \((-3h/2,-h/2,h/2,3h/2)\) para o “intervalo típico” \((-h/2, h/2)\).

11- Vimos que a probabilidade de o intervalo contendo a moda verdadeira ser uma moda amostral varia se \(h = O(n^{-1/3})\) ou \(h = O(n^{-1/5})\) nas equações (3.77) e (4.15), respectivamente. Qual é essa probabilidade se você usar intervalos ainda maiores, de ordem \(O(n^{-1/7})\), redefinindo \(h^*\) adequadamente na equação (4.14)? O que você conclui?

12- Realize um estudo de simulação que confirme as previsões dos Teoremas 4.3 e 4.4, o polígono de frequência de correspondência de área de Minnotte e uma das várias versões do histograma polinomial.

4.6 Bibliografia

Donoho, D. L. 1988. “One-Sided Inference about Functionals of a Density.” Annals of Statistics, no. 16: 1390–420.

Fisher, R. A. 1932. Statistical Methods for Research Workers. Oliver; Boyd, Edinburgh.

Glenn, N. D. 2005. With This Ring: A National Survey on Marriage in America. National Fatherhood Organization, Gaithersburg, MD.

Hall, P., and M. P. Wand. 1996. “On the Accuracy of Binned Kernel Density Estimators.” Journal of the Multivariate Analysis, no. 56: 165–84.

Hjort, N. L. 1986. “On Frequency Polygons and Averaged Shifted Histograms in Higher Dimensions.” Stanford University.

Jing, J., I. Koch, and K. Naito. 2012. “Polynomial Histograms for Multivariate Density and Mode Estimation.” Scandinavian Journal of Statistics, no. 39: 75–96.

Minnotte, M. C. 1996. “The Bias-Optimized Frequency Polygon.” Journal of Statistical Computation and Simulation, no. 11: 35–48.

———. 1998. “Achieving Higher-Order Convergence Rates for Density Estimation with Binned Data.” Journal of the American Statistical Association, no. 93: 663–72.

Papkov, G. I., and D. W. Scott. 2010. “Local-Moment Nonparametric Density Estimation of Pre-Binned Data.” Computational Statistics & Data Analysis, no. 54: 3421–29.

Parzen, E. 1979. “Nonparametric Statistical Data Modeling.” Journal of the American Statistical Association, no. 74: 105–31.

Sagae, M., T. Noro, and D. W. Scott. 2009. “The Multi-Dimensional Non-Parametric Probability Density Estimation by Multivariate Polynomial Histogram Density Estimation.” Journal of the Japan Statistical Society, no. 39: 265–98.

Sagae, M., D. W. Scott, and N. Kusano. 2006. “A Multivariate Polynomial Histogram by the Method of Local Moments.” Tokyo.

Scott, D. W. 1980. “Comment on a Paper by Good and Gaskins.” Journal of the American Statistical Association, no. 75: 61–62.

———. 1985a. “Averaged Shifted Histograms: Effective Nonparametric Density Estimators in Several Dimensions.” Annals of Statistics, no. 13: 1024–40.

———. 1985b. “Frequency Polygons.” Journal of the American Statistical Association, no. 80: 348–54.

———. 2015. Multivariate Density Estimation. John Wiley & Sons. Inc.

Scott, D. W., and M. Sagae. 1997. “Adaptive Density Estimation with Massive Data Sets.” Proceedings of the Statistical Computing Section, no. ASA: 104–8.

Scott, D. W., and W. R. Scott. 2008. “Smoothed Histograms for Frequency Data on Irregular Intervals.” American Statistician, no. 62: 256–61.

Scott, D. W., and G. R. Terrell. 1987. “Biased and Unbiased Cross-Validation in Density Estimation.” Journal of the American Statistical Association, no. 82: 1131–46.

Terrell, G. R. 1990. “The Maximal Smoothing Principle in Density Estimation.” Journal of the Amererican Statistical Association, no. 85: 470–77.

Terrell, G. R., and D. W. Scott. 1983. “Variable Window Density Estimates.” Technical report presented at ASA meetings in Toronto.

Estimação de densidades

2026-02-20