Capítulo 5

Histogramas deslocados médios

Um dispositivo simples foi proposto para eliminar o problema das bordas dos intervalos do polígono de frequência (FP), mantendo muitas das vantagens computacionais de uma estimativa de densidade baseada na contagem de intervalos. Scott and Thompson (1983), Scott (1985) considerou o problema de escolher entre uma coleção de polígonos de frequência multivariados, cada um com o mesmo parâmetro de suavização, mas com origens de intervalo diferentes.

Em vez de escolher a curva ou superfície mais “suave”, ele propôs calcular a média de vários polígonos de frequência deslocados. Como a média de curvas lineares por partes também é linear por partes, a curva resultante também parece ser um polígono de frequência. Se os pesos forem não negativos e somarem 1, o “polígono de frequência deslocado médio” (ASFP) resultante será não negativo e sua integral será igual a 1.

Um dispositivo quase equivalente consiste em calcular a média de vários histogramas deslocados, o que é igualmente geral, mas mais simples de descrever e analisar. O resultado é o “histograma deslocado médio” (ASH). Como a média de funções constantes por partes, como o histograma, também é constante por partes, o ASH aparenta ser um histograma. Na prática, o ASH é tornado contínuo usando um dos esquemas de interpolação linear descritos para o polígono de frequência no Capítulo 4, e será referido como polígono de frequência (FP) do ASH. O ASH é a escolha prática para estimativa de densidade computacional e estatisticamente eficiente. Algoritmos para sua avaliação são descritos em detalhes.

5.1 Construção
5.2 Propriedades assintóticas
5.3 O limite ASH como estimador kernel
5.4 Exercícios
5.5 Bibliografia

5.1 Construção

Considere uma coleção de \(m\) histogramas \(\widehat{f}_1,\widehat{f}_2,\cdots,\widehat{f}_m\), cada um com largura de intervalo \(h\), mas com origens de intervalo \[ \tag{5.1} t_0=0,\dfrac{h}{m},\dfrac{2h}{m},\cdots,\dfrac{(m-1)h}{m}, \] respectivamente. O ASH (ingênuo ou não ponderado) é definido da seguinte forma: \[ \tag{5.2} \widehat{f}(\cdot)=\widehat{f}_{ASH}(\cdot)=\dfrac{1}{m}\sum_{i=1}^n \widehat{f}_i(\cdot)\cdot \]

Observe que o ASH é constante por partes em intervalos de largura \(\delta = h/m\), visto que as origens dos intervalos em (5.1) diferem por essa quantidade.

Reexamine a sequência de histogramas deslocados dos dados de queda de neve de Buffalo mostrada na Figura 4.8. Cada histograma deslocado tem largura de intervalo \(h = 12.5\). Na Figura 5.1, uma série de ASHs usando essa mesma largura de intervalo é mostrada para uma sequência crescente no parâmetro \(m\).

Figura 5.1: Histogramas ingênuos com média deslocada dos dados de queda de neve em Buffalo (snow), com largura de intervalo \(h = 12.5\) polegadas.

Embora o histograma comum, ASH com \(m = 1\), exiba uma segunda protuberância à direita da moda, todo ASH com \(m > 1\) revela a presença de uma terceira protuberância maior à esquerda da moda. A terceira protuberância foi mascarada pela protuberância maior na moda.

O aparecimento dessas protuberâncias adicionais não é um artefato do algoritmo ASH, mas sim o resultado de uma relação sinal-ruído significativamente melhorada, obtida pela média do parâmetro de perturbação \(t_0\). Em certo sentido, o parâmetro \(t_0\) foi substituído por um parâmetro diferente \(m\), que precisa ser especificado; no entanto, a melhoria em relação ao histograma comum justifica qualquer trabalho adicional.

Os histogramas de média aritmética multivariados (ASHs) são construídos pela média de histogramas multivariados deslocados, cada um com intervalos de dimensão \(h_1\times h_2\times \cdots \times h_d\). Se cada histograma multivariado possível for construído por deslocamentos de coordenadas que são múltiplos de \(\delta_i = h_i/m_i\), \(i = 1,\cdots, d\), então o ASH multivariado é a média de \(m_1\times m_2\times \cdots \times m_d\) histogramas deslocados.

No caso bivariado, o ASH é dado por \[ \tag{5.3} \widehat{f}(\cdot,\cdot)=\dfrac{1}{m_1\times m_2}\sum_{i=1}^{m_1} \sum_{j=1}^{m_2} \widehat{f}_{ij}(\cdot,\cdot), \] onde a origem do intervalo para o histograma bivariado deslocado \(\widehat{f}_{ij}\) é o ponto \[ (x,y) = ((i-1)\delta_1, (j-1)\delta_2)\cdot \]

A Figura 5.2 exibe vários histogramas de suavização de atenuação (ASH) bivariados do conjunto de dados de lipídios plasmáticos, ver Tabela 1.3, conjunto de dados chest.pain, com \(m_i = 1, 2, 3\). Apenas alguns deslocamentos ao longo de cada eixo são necessários para fornecer uma estimativa mais suave. O tamanho do intervalo do histograma subjacente é o mesmo para todas as três estimativas, embora o número aparente de intervalos no ASH aumente de \(8^2\) para \(16^2\) e para \(24^2\). Um gráfico de contorno do interpolador linear do ASH com \(m_1 = m_2 = 3\) sugere uma estrutura multimodal não aparente no histograma original. Apenas o histograma de glifos bivariado na Figura 3.21 indica a estrutura neste conjunto de dados.

Figura 5.2: Histogramas bivariados médios deslocados do conjunto de dados lipídicos para 320 homens doentes; consulte o texto para os valores dos parâmetros ASH.

O reconhecimento da necessidade de suavizar um histograma bivariado não é recente. Em 1886, Galton realizou uma suavização bivariada por intervalos em uma tabulação cruzada de 928 filhos adultos e a altura média de seus pais (Stigler 1986). Galton ajustou ainda mais todas as alturas femininas para cima por um fator de 1.08 para levar em conta as diferenças de altura entre homens e mulheres. Stigler cita a descrição de Galton sobre como ele suavizou suas contagens brutas por intervalos:

… escrevendo, em cada interseção de uma coluna horizontal com uma vertical, a soma das entradas nos quatro quadrados adjacentes e usando esses valores para trabalhar com os dados.

Esse suavizamento acentuou o formato elíptico dos contornos dos dados. O suavizamento de Galton corresponde aproximadamente ao ASH bivariado com \(m_1 = m_2 = 2\), veja o Exercício 1.

5.2 Propriedades assintóticas

Como o ASH univariado é constante por partes nos intervalos \([k\delta, (k+1)\delta)\), onde \(\delta = h/m\), é conveniente referir-se a esse intervalo mais estreito como o intervalo \(B_k\) e seja \[ \nu_k = \mbox{contagem de compartimentos no compartimento }\; B_k \quad \mbox{onde} \quad B_k=[k\delta,(k+1)\delta)\cdot \]

Com essa nova definição dos intervalos de classes, a contagem de classes para um histograma comum pode ser obtida somando-se \(m\) contagens de classes adjacentes \(\{\nu_k\}\) da grade mais fina.

Considere a estimativa ASH na classe \(B_0\). A altura do ASH para \(x\) em \(B_0\) é a média das alturas dos \(m\) histogramas deslocados, cada um com largura \(h = m\delta\), que incluem a contagem de classes \(\nu_0\) e a classe \(B_0\) em seu intervalo: \[ \dfrac{\nu_{1-m}+\cdots+\nu_0}{nh},\dfrac{\nu_{2-m}+\cdots+\nu_0+\nu_1}{nh},\cdots,\dfrac{\nu_{0}+\cdots+\nu_{m-1}}{nh}\cdot \]

Portanto, uma expressão geral para o ASH ingênuo na equação (5.2) é \[ \tag{5.4} \widehat{f}(x;m)=\dfrac{1}{m}\sum_{i=1-m}^{m-1} \dfrac{(m-|i|)\,\nu_{k+i}}{nh} =\dfrac{1}{nh}\sum_{i=1-m}^{m-1} \Bigg(1-\dfrac{|i|}{m} \Bigg) \, \nu_{k+i}, \quad \mbox{para} \quad x\in B_k\cdot \]

Os pesos das contagens de intervalos na equação (5.4) assumem a forma de um triângulo isósceles com base \((-1, 1)\). Outras formas podem ser consideradas, como pesos uniformes ou talvez formas mais suaves (diferenciáveis).

O ASH geral usa pesos arbitrários, \(\omega_m(i)\) e é definido por \[ \tag{5.5} \mbox{ASH geral: } \; \widehat{f}(x;m)=\dfrac{1}{nh}\sum_{|i|<m} \omega_m(i) \, \nu_{k+i}, \qquad \mbox{para} \qquad x\in B_k\cdot \]

Para que \(\displaystyle \int \widehat{f}(x;m)\mbox{d}x = 1\), a soma dos pesos deve ser igual a \(m\), veja o Exercício 2. Uma maneira simples de definir pesos gerais é \[ \tag{5.6} \omega_m(i)=m\times \dfrac{K(i/m)}{\displaystyle \sum_{j=1-m}^{m-1} K(j/m)}, \qquad i=1-m,\cdots,m-1, \] onde \(K\) é uma função contínua definida em \((-1, 1)\). \(K\) é frequentemente escolhida como uma função de densidade de probabilidade, como \[ \tag{5.7} K(t)=\dfrac{15}{16}(1-t^2)_+^2= \dfrac{15}{16}(1-t^2)^2 \pmb{I}_{[-1,1]}(t), \] que é chamado de kernel biweight ou kernel quártico.

O algoritmo computacional para o ASH generalizado é bastante simples. Constrói-se uma malha igualmente espaçada de largura \(\delta\) sobre o intervalo \((a,b)\) e calculam-se as contagens nos intervalos correspondentes \(\{\nu_k, k = 1,\cdots, nbin\}\) para os \(n\) pontos de dados. Tipicamente, \(\delta \ll h\), e \(nbin\) refere-se ao número de intervalos de largura \(\delta\). Esse cálculo é realizado pelo algoritmo \(\mbox{BIN1}\) apresentado no quadro.

\[ \mbox{BIN1}(x,n,a,b,nbin) \; \mbox{Algoritmo:} \\ \begin{array}{cl} & \delta = (b-1)/nbin \\ & \mbox{for } k=1, nbin \; \{\nu_k=0\} \\ & \mbox{for } i =1,n \; \{ \\ & \qquad k = (x_i-a)/\delta+1 \\ & \qquad \mbox{if } (k\in [1,nbin]) \quad \nu_k=\nu_k+1\} \\ & \mbox{return } (\{\nu_k\}) \end{array} \]

Em seguida, calcule o vetor de pesos, \(\{\omega_m(i)\}\), como na equação (5.6). Então, as estimativas ASH univariadas, \(\{f_k, k = 1,\cdots, nbin\}\), nos \(nbin\) intervalos podem ser calculadas de forma eficiente, reordenando as operações indicadas na expresão (5.5).

Em vez de calcular as estimativas ASH individualmente em cada intervalo, percorrendo as \(2m-1\) contagens dos intervalos adjacentes, realiza-se uma única passagem pelas contagens dos intervalos, com uma contagem ponderada aplicada às \(2m-1\) estimativas ASH adjacentes. Essa modificação evita a ponderação repetida de intervalos vazios; veja o algoritmo ASH1 apresentado no quadro.

O algoritmo pressupõe que haja pelo menos \(m-1\) intervalos vazios em cada extremidade. Observe que a quantidade de trabalho é determinada por \(m\) e pelo número de intervalos não vazios. O algoritmo é bastante eficiente mesmo quando \(n > 10^6\), caso em que a maior parte do trabalho envolve tabular as várias centenas de contagens de intervalos.

\[ \begin{array}{rl} & \mbox{ASH1}(m,\nu,a,b,n,\omega_m) \; \mbox{Algoritmo:} \\ & \delta = (b-1)/nbin \\ & h=m\delta \\ & \mbox{for } k=1, nbin \; \{f_k=0\} \\ & \mbox{for } k =1,nbin \; \{ \\ & \qquad \mbox{if } (\nu_k=0) \; \mbox{next } k \\ & \qquad \mbox{for } i = \max(1,k-m+1); \min(nbin,k+m-1) \; \{ \\ & \qquad \qquad f_i = f_i+ \nu_k \, \omega_m(i-k) \} \\ & \mbox{for } k=1,nbin \, \{f_k=f_k/(nh); \, t_k=a+(k-0.5)\delta \, \} \\ & \mbox{return } (\pmb{x}=\{t_k\}, \, \pmb{y}=\{f_k\}) \end{array} \]

Na Figura 5.3, são mostrados exemplos do ASH usando o kernel biweight. Para os dados de queda de neve de Buffalo, observe como o uso dos pesos do kernel biweight, em vez dos pesos do triângulo isósceles, resulta em uma curva visualmente mais suave, com menos ruído local na estimativa. Como as variâncias dos kernels triangular e biweight são \(1/6\) e \(1/7\), respectivamente, uma largura de intervalo de \(h = 13.5\times \sqrt{7/6} = 14.6\) polegadas foi aplicada com o kernel biweight. Essa reescala é justificada na Seção 6.2.3.3.

Figura 5.3: Exemplos de ASH com kernel biweight aplicado aos conjuntos de dados de queda de neve em Buffalo e renda familiar alemã.

Para um conjunto de dados grande, como os dados de renda familiar alemã, a suavidade visual adicional ainda é aparente, mesmo quando os parâmetros de suavização são pequenos o suficiente para revelar qualquer característica possível, compare com a Figura 3.18.

Na prática, a largura estreita do intervalo \(\delta\) geralmente é definida inicialmente, escolhendo-se entre 50 e 500 intervalos ao longo da faixa de amostra, estendida em 5-10% para incluir alguns intervalos vazios em ambos os lados. Como \(h = m\delta\), apenas valores do parâmetro de suavização \(h\) que sejam múltiplos inteiros de \(\delta\) podem ser considerados, embora seja fácil remover essa restrição, veja o Exercício 4.

Por outro lado, se \(h\) for conhecido, \(\delta\) pode ser calculado como \(h/5\) ou \(h/10\). Esse caso é raro. Muitos conjuntos de dados grandes são pré-agrupados; ou seja, os dados brutos não são registrados, apenas a contagem de intervalos. Se a largura desses intervalos for chamada de \(\delta\) e \(h^*\) for próximo de \(\delta\), nenhuma suavização adicional poderá ser aplicada, já que \(m = 1\) é a única opção.

Um planejamento cuidadoso pode evitar esse resultado indesejável. Por exemplo, usando a regra de largura de intervalo FP supersuavizada na equação (4.11), escolha \(\delta\) suficientemente pequeno ou \(n\) suficientemente grande de modo que \(\delta < h_{OS}/25\) ou \(\delta < h_{OS}/50\). Apenas um pequeno estudo piloto é necessário para estimar a variância dos dados a serem usados na regra de largura de intervalo para o polígono de frequência supersuavizado.

A derivação do \(\mbox{AMISE}\) para o ASH ingênuo, função de ponderação do triângulo isósceles, é semelhante a cálculos anteriores e não é apresentada aqui. O resultado correspondente para o ASH ponderado geral é muito mais complexo. Scott (1985) provou o seguinte resultado.

Teorema 5.1:

Para o ASH ingênuo com o núcleo triangular isósceles, \[ \tag{5.8} \mbox{AMISE}=\dfrac{2}{3nh}\Bigg(1+\dfrac{1}{2m^2} \Bigg)+\dfrac{h^2}{12m^2} R(f')+\dfrac{h^4}{144}\Bigg(1-\dfrac{2}{m^2}+\dfrac{3}{5m^4} \Bigg)R(f'')\cdot \]

Demonstração. Scott (2015).

O primeiro termo do \(\mbox{AMISE}\) fornece o erro devido à variância integrada. A porção \(\mbox{ISB}\) ou de viés do \(\mbox{AMISE}\) combina termos envolvendo \(R(f')\) e \(R(f'')\), que foram encontrados no \(\mbox{ISB}\) do histograma e do polígono de frequência, respectivamente.

Pode-se verificar que os dois primeiros termos deste resultado correspondem ao resultado do histograma comum no Teorema 3.1 quando \(m = 1\). Por outro lado, quando \(m\to\infty\), o segundo termo de viés semelhante ao do histograma desaparece e o viés é similar ao de um polígono de frequência no Teorema 4.1.

Normalmente, para \(m\geq 10\), o termo do meio é desprezível em comparação com o último termo, que pode ser considerado igual a \(h^4/144\). Comparando as equações (4.6) e (5.8), os termos \(\mbox{IV}\) são idênticos, enquanto o \(\mbox{ISB}\) para o ASH é 41% do \(\mbox{ISB}\) para o FP. A largura ideal do intervalo para o ASH ingênuo quando \(m\to\infty\) é simplesmente \[ h^*_{m=\infty} = \Bigg(\dfrac{24}{n\, R(f'')} \Bigg)^{1/5} \] ou \[ h^*_{m=\infty} = 2.576 \, \sigma \, n^{-1/5} \] se \(f(x)=N(\mu,\sigma^2)\).

Os tamanhos de amostra na Tabela 5.1 resumem a eficiência do histograma ASH e de outros estimadores com dados normais. O histograma ASH requer 80% das amostras necessárias para o FP atingir o mesmo \(\mbox{MISE}\). De fato, esse valor de 80% se mantém válido para qualquer densidade de amostragem, assintoticamente, compare os Teoremas 4.1 e 5.1.

Tabela 5.1: Tamanhos de amostra equivalentes necessários para \(\mbox{AMISE}\approx 1/400\) para dados \(N(0,1)\).

Em algumas situações difíceis, como uma pequena amostra de uma distribuição normal, o histograma pode ser competitivo com o ASH. Mas, assintoticamente, a eficiência do histograma será 0 em relação ao ASH ou ao FP, devido às diferentes taxas de convergência do \(\mbox{MISE}\). Obviamente, a melhoria do ASH em relação ao FP não é tão expressiva quanto a melhoria do FP em relação ao histograma, pois a lei dos rendimentos decrescentes começa a surtir efeito.

A expressão para o erro assintótico \(L_2\) do FP-ASH ou interpolador linear do ASH ingênuo é muito mais simples do que para o próprio ASH ingênuo.

Teorema 5.2:

Para o interpolador do polígono de frequência do ASH ingênuo, \[ \tag{5.9} \mbox{AMISE}=\dfrac{2}{3nh}+\dfrac{h^4}{144}\Bigg(1+\dfrac{1}{m^2}+\dfrac{9}{20\, m^4} \Bigg) R(f'')\cdot \]

Demonstração. Scott (2015).

Note que o termo de viés do tipo histograma envolvendo \(R(f')\) desapareceu. Além disso, a dependência dos termos restantes na escolha de \(m\) é bastante reduzida. Normalmente, \(m\geq 3\) é suficiente para alcançar a melhoria de 20% no \(\mbox{AMISE}\) em relação ao polígono de frequência, e não \(m\geq 10\) como recomendado para o próprio ASH.

O FP-ASH multivariado foi estudado por Scott (1985) usando uma malha triangular, mas os resultados de mistura linear de Hjort (1986) são mais elegantes e são apresentados aqui. Sejam os subscritos em \(f\) denotando derivadas parciais.

Teorema 5.3:

O \(\mbox{AMISE}\) da mistura linear multivariada do ASH ingênuo é igual a \[ \tag{5.10} \dfrac{2^d}{3^d n\, h_1 \cdots h_d}+\dfrac{1}{720}\sum_{i=1}^d \delta_i^4 R(f_{ii})+\dfrac{1}{144}\int_{\mathbb{R}^d} \Bigg(\sum_{i=1}^d h_i^2 \Bigg( 1+\dfrac{1}{2\, m_i^2}\Bigg)f_{ii} \Bigg)^2 \cdot \]

Demonstração. Scott (2015).

Exceto em circunstâncias especiais, expressões analíticas para os parâmetros de suavização ótimos não estão disponíveis. Em vez disso, devem ser obtidas resolvendo um sistema de equações não lineares. Se \(\delta_i\approx 0\) em (5.10), então \(h^*_i = O(n^{-1/(4+d)})\) e \(\mbox{AMISE}^* = O(n^{-4/(4+d)})\), que são comparáveis aos resultados para o polígono de frequência multivariado na equação (4.17). Embora as taxas sejam as mesmas, o FP multivariado é inferior por uma quantidade fixa.

Os algoritmos \(\mbox{BIN2}\) e \(\mbox{ASH2}\) para \(d = 2\) são apresentados a continuação. Observe que os parâmetros no ASH univariado tornam-se vetores no algoritmo bivariado. Os algoritmos \(\mbox{BIN2}\) e \(\mbox{ASH2}\) podem ser estendidos para os casos \(d = 3\) e 4 aumentando as dimensões dos vetores e matrizes. Para dimensões maiores que 4, geralmente não é possível acomodar diretamente na memória do computador matrizes de dimensão suficiente. Nesses casos, o algoritmo ASH pode ser modificado para calcular apenas fatias bidimensionais ou tridimensionais do ASH de dimensão superior.

\[ \begin{array}{cl} & \mbox{BIN2}(x,n,a,b,nbin) \; \mbox{Algoritmo:} \\ & \mbox{for } j=1,2 \; \{\delta_j=(b_j-a_j)/nbin_j\} \\ & \mbox{for } k_1 =1,nbin_1 \; \{ \mbox{for } k_2=1,nbin_2 \,\{\nu_{k_1k_2}=0 \} \,\} \\ & \mbox{for } i=1,n \, \{ \\ & \qquad \mbox{for } j=1,2 \, \{ k_j=1+(x_{ij}-a_j)/\delta_j \, \} \\ & \qquad \nu_{k_1 k_2}=\nu_{k_1 k_2}+1 \, \}\\ & \mbox{return } (\{\nu_{k\ell}\}) \end{array} \] e \[ \begin{array}{rl} & \mbox{ASH2}(m,\nu,nbin,a,b,n,\omega_{m_1},\omega_{m_2}) \; \mbox{Algoritmo:} \\ & \mbox{for } i=1-m_1, m_1-1 \; \{ \mbox{ for } j=1-m_2,m_2-1 \, \{ \\ & \qquad \omega_{ij}=\omega_{m_1}(i)\omega_{m_2}(j) \, \} \,\} \\ & \mbox{for } j =1,2 \; \{ \, \delta_j=(b_j-a_j)/nbin_j; \, h_j=m_j\delta_j \, \} \\ & \mbox{for } k=1,nbin_1 \; \{ \mbox{ for } \ell=1,nbin_2 \; \{ \, f_{k\ell}=0 \, \} \, \} \\ & \mbox{for } k=1,nbin_1 \; \{ \mbox{ for } \ell=1,nbin_2 \; \{ \\ & \qquad \mbox{if } (\nu_{k\ell} =0) \mbox{ next } \ell \\ & \qquad \mbox{for } i=\max(1,k-m_1+1),\min(nbin_1,k+m_1-1) \; \{ \\ & \qquad \qquad \mbox{for } j=\max(1,\ell-m_2+1),\min(nbin_2,\ell+m_2-1) \; \{ \\ & \qquad \qquad \qquad f_{ij}=f_{ij}+\nu_{k\ell} \, \omega_{(i-k)(k-\ell)} \; \} \, \} \, \} \\ & \mbox{for } k=1,nbin_1 \; \{ \, \mbox{for } \ell=1,nbin_2 \; \{ \, f_{k\ell}=f_{k\ell}/(n\, h_1 h_2) \, \} \, \} \\ & \mbox{for } k=1,nbin_1 \; \{ \, t_{1k}=a_1+(k-0.5)\delta_1 \, \} \\ & \mbox{for } k=1,nbin_2 \; \{ \, t_{2k}=a_2+(k-0.5)\delta_2 \, \} \\ & \mbox{return } (\, \pmb{x}=\{t_{ik}\}, \pmb{y}=\{t_{2k}\},\pmb{z}=\{f_{k\ell}\} \, ) \end{array} \]

5.3 O limite ASH como estimador kernel

O parâmetro \(m\) no ASH é um parâmetro incômodo, mas muito menos que a origem do intervalo. A escolha precisa de \(m\) não é importante desde que seja maior que 2 e \(h\) seja bem escolhido. Então por que estudar o comportamento limite do ASH quando \(m\to\infty\), onde o ASH perde eficiência computacional?

O limite pertence a uma classe de estimadores não paramétricos que tem sido extensivamente estudada desde os trabalhos pioneiros de Fix and Hodges (1951), Rosenblatt (1956) e Parzen (1962). Com \(h\) e \(n\) fixos e \(m\) crescentes, é fácil isolar o efeito de um único ponto de dados \(x_j\) na estimativa ASH \(\widehat{f}(x)\), em um ponto fixo \(x\). Se \(x\in B_k\) e \(x_j\in B_{k+i}\), onde a rotulagem do índice das caixas muda à medida que \(m\) aumenta, então da equação (5.4) a influência de \(x_j\) em \(x\) é proporcional a \[ \tag{5.11} 1-\dfrac{|i|}{m}=1-\dfrac{|i|\times \delta}{m\times \delta}=1-\dfrac{|x-x_j|}{h}+O(\delta/h), \qquad \mbox{se} \qquad |x-x_j|<h\cdot \] Se \(x_j\) não estiver no intervalo \((x-h,x+h)\), então a influência é 0.

Observe que o número de compartimentos ou intervalos entre \(x\) e \(x_j\) é aproximadamente \(i\), uma vez que esses pontos estão nos compartimentos \(B_k\) e \(B_{k+i}\), respectivamente; portanto, \[ |x-x_j|\approx |i|\times \delta\cdot \]

A equação (5.4) pode ser reexpressa da seguinte forma: \[ \tag{5.12} \lim_{m\to\infty} \widehat{f}(x;m)=\dfrac{1}{nh}\sum_{j=1}^n \Bigg(1-\dfrac{|x-x_j|}{h} \Bigg)\pmb{I}_{[-1,1]}\Bigg(\dfrac{x-x_j}{h} \Bigg), \] onde a soma é superior ao número de pontos de dados e não ao número de compartimentos ou intervalos.

Definindo uma função kernel \(K(\cdot)\) como uma densidade de triângulo isósceles, \[ \tag{5.13} K(t)=\big(1-|t| \big)\pmb{I}_{[-1,1]}(t), \] o limite do ASH pode ser escrito da seguinte forma: \[ \tag{5.14} \widehat{f}(x)=\dfrac{1}{nh}\sum_{i=1}^n K \Bigg(\dfrac{x-x_j}{h} \Bigg)\cdot \]

A expressão em (5.14) também define o estimador de densidade kernel geral com kernel \(K\), correspondente ao ASH generalizado na equação (5.5). Aparentemente, a estimativa kernel é simplesmente uma densidade de mistura, que possui \(n\) densidades de componentes idênticas centradas nos pontos de dados. As densidades dos componentes são as funções kernel.

Qualquer densidade de probabilidade pode ser escolhida para o kernel, e às vezes são usados kernels que não são densidades. O kernel ASH sempre tem suporte finito, mas um kernel com suporte infinito, como a densidade normal, é frequentemente escolhido em (5.14). O estimador de densidade kernel do triângulo isósceles pode ser descrito como um histograma indiferente, onde a referência é a ponderação uniforme sobre todas as escolhas possíveis para a origem do compartimento de um histograma. Os estimadores kernel são estudados em detalhes no Capítulo 6.

Graficamente, a estimativa kernel coloca uma massa de probabilidade de tamanho \(1/n\) na forma do kernel, que foi dimensionada pelo parâmetro de suavização \(h\), centralizado em cada ponto de dados. Essas massas de probabilidade são então adicionadas verticalmente para fornecer a estimativa kernel. Por outro lado, o histograma utiliza um núcleo retangular, mas não centraliza esses núcleos nos pontos de dados; em vez disso, esses grãos são colocados em uma malha rígida.

Na Figura 5.4, esse processo é ilustrado com o conjunto de dados de sílica (ver abaixo) para diversas opções do parâmetro de suavização e do kernel triângulo isósceles. Os 22 kernels para os pontos de dados individuais são mostrados em escala correta em cada painel.

Base de dados sílica: porcentagem de sílica em 22 meteoros condritos. \[ 20.77, 22.56, 22.71, 22.99, 26.39, 27.08, 27.32, 27.33, 27.57, 27.81, 28.69, \\[0.8em] 29.36, 30.25, 31.89, 32.88, 33.23, 33.28, 33.40, 33.52, 33.83, 33.95, 34.82 \] Fonte: Ahrens (1965) e Good and Gaskins (1980).

Figura 5.4: Estimativas kernel triangular do conjunto de dados de sílica mostrando os kernels individuais.

De particular interesse é o kernel multivariado correspondente ao ASH ingênuo multivariado. Alguma álgebra revela que quando \(m_i\to\infty\), \[ \tag{5.15} \widehat{f}(\pmb{x})=\dfrac{1}{n \, h_1 h_2 \cdots h_d} \sum_{i=1}^n \Bigg( \prod_{j=1}^d K\Bigg(\dfrac{x_j-x_{ij}}{h_j} \Bigg) \Bigg), \] onde \(K\) é o kernel triângulo isósceles univariado (5.13).

Esta forma especial da função kernel multivariada é chamada de kernel produto e a estimativa (5.15) de estimador kernel produto. Embora o kernel produto multivariado individual seja fatorado, implicando que as coordenadas são independentes, a estimativa de densidade resultante não é fatorada, como fica evidente nos exemplos exibidos na Figura 5.2.

Assim, o ASH fornece um link direto para os métodos de kernel mais conhecidos. No entanto, os estimadores kernel são notoriamente lentos para calcular, e muitas aproximações numéricas mais rápidas foram consideradas. O ASH é um estimador de densidade genuíno e um candidato natural para computação. O ASH usa uma convolução discreta para realizar suavização, um dispositivo bem conhecido na estimativa de densidade espectral.

A construção ASH foi descrita de forma independente por Chamayou (1980). O ASH é um caso especial de uma estrutura mais geral chamada WARPing, média ponderada de pontos deslocados, desenvolvida por Härdle and Scott (1988), onde a eficiência computacional do ASH é discutida com mais detalhes. Wegman (1990) usou o ASH para resolver o problema do excesso de tinta no gráfico de coordenadas paralelas discutido no Capítulo 1. Ele propôs traçar os segmentos de linha como uma série de pontos em uma malha vertical fina e traçar os contornos de um ASH bivariado desses pontos.

5.4 Exercícios

1- Considere o esquema de suavização bivariada de Galton, que atribui pesos iguais às contagens em apenas quatro dos oito intervalos ao redor do intervalo de interesse e nenhum peso à contagem no intervalo central. Quais são os pesos nesses nove intervalos com o ASH ingênuo bivariado com \(m_1 = m_2 = 2\)?

2- Prove que se os pesos \(\{\omega_m(i)\}\) na equação (5.5) somam \(m\), então o ASH integra 1.

3- Demonstre o Teorema 5.2.

4- Generalize o algoritmo ASH1 para lidar com valores não inteiros de \(m\), que é a situação em que o parâmetro de suavização \(h\) não é um múltiplo inteiro de \(\delta\) (Scott 1991).
Dica: Para \(m > 1\) não inteiro e kernel com suporte em \((-1,1)\), considere os valores \(K(i/m)\), para \(|i|\leq m\).

5- Qual é o kernel correspondente ao polígono de frequência deslocado médio?

6- Mostre que a forma limite do ASH ingênuo bivariado está na forma (5.15).

5.5 Bibliografia

Ahrens, L. H. 1965. “Observations on the Fe–Si–Mg Relationship in Chondrites.” Geochimica Et Cosmochimica Acta, no. 29: 801–6.

Chamayou, J. M. F. 1980. “Averaging Shifted Histograms.” Computer Physics Communications, no. 21: 145–61.

Fix, E., and J. L.Jr. Hodges. 1951. “Nonparametric Discrimination: Consistency Properties.” USAF School of Aviation Medicine, Randolph Field, Texas.

Good, I. J., and R. A. Gaskins. 1980. “Density Estimation and Bump-Hunting by the Penalized Likelihood Method Exemplified by the Scattering and Meteorite Data (with Discussion).” Journal of the American Statistical Association, no. 75: 42–73.

Härdle, W., and D. W. Scott. 1988. “Smoothing in Low and High Dimensions by Weighted Averaging Using Rounded Points.” Computational Statistics, no. 7: 97–128.

Hjort, N. L. 1986. “On Frequency Polygons and Averaged Shifted Histograms in Higher Dimensions.” Stanford University.

Parzen, E. 1962. “On Estimation of Probability Density Function and Mode.” Annals of the Mathematical Statistics, no. 33: 1065–76.

Rosenblatt, M. 1956. “Remarks on Some Nonparametric Estimates of a Density Function.” Annals of Mathematical Statistics, no. 27: 832–37.

Scott, D. W. 1985. “Averaged Shifted Histograms: Effective Nonparametric Density Estimators in Several Dimensions.” Annals of Statistics, no. 13: 1024–40.

———. 1991. “Comment on “Transformations in Density Estimation (with Discussion) by Wand, m.p., Marron, j.s., and Ruppert, d.” Journal of the American Statistical Association, no. 86: 359.

———. 2015. Multivariate Density Estimation. John Wiley & Sons. Inc.

Scott, D. W., and J. R. Thompson. 1983. “Probability Density Estimation in Higher Dimensions.” In Proceedings of the Fifteenth Interface of Computer Science and Statistics, edited by J. E. Gentle, 173–79. North-Holland, Amsterdam.

Stigler, S. M. 1986. The History of Statistics. Harvard University Press, Cambridge, MA.

Wegman, E. J. 1990. “Hyperdimensional Data Analysis Using Parallel Coordinates.” Journal of the American Statistical Association, no. 85: 664–75.

Estimação de densidades

2026-02-21

Capítulo 5

Histogramas deslocados médios

5.1 Construção

5.2 Propriedades assintóticas

5.3 O limite ASH como estimador kernel

5.4 Exercícios

5.5 Bibliografia