Os últimos 25 anos testemunharam a confirmação da importância da
estimação de densidade e dos métodos não paramétricos na análise de
dados moderna, nesta era do “big data”. Com a revolução na computação o
acesso a dados de complexidade sem precedentes tornou-se comum. Mais
variáveis estão sendo medidas e o volume de dados está crescendo
exponencialmente. Ao mesmo tempo, os avanços no desempenho computacional
conferiram novo poder ao analista de dados.
Com essas mudanças, surgiu uma demanda crescente por ferramentas
capazes de detectar e resumir a estrutura multivariada em dados
complexos. A estimação de densidade é hoje reconhecida como uma
ferramenta útil para dados univariados e bivariados; um objetivo destas
notas é demonstrar que ela também é uma ferramenta poderosa em dimensões
superiores, com ênfase particular em dados trivariados e
quadrivariados.
Estas notas focam em promover uma compreensão intuitiva da
metodologia subjacente e da teoria que a sustenta. Procuramos destacar
os desafios apresentados por conjuntos de dados massivos ou para
esclarecer oportunidades teóricas e novos algoritmos. Assim, estas notas
estão dirigidas ao leitor interessado nos aspectos teóricos da estimação
não paramétrica, bem como para o leitor interessado na aplicação desses
métodos a dados multivariados.
Optamos por apresentar as principais ideias no contexto do histograma
clássico, que permanece o estimador não paramétrico mais amplamente
aplicado e mais intuitivo. Consideramos instrutivo desenvolver as
ligações entre o histograma e métodos estatisticamente mais eficientes.
Essa abordagem simplifica bastante o tratamento de estimadores
avançados, uma vez que grande parte da novidade do contexto teórico foi
transferida para o ambiente familiar do histograma.
Capítulo
1. Representação geometria de dados multivariados
1.1 Introdução
1.2 Perspectiva histórica
1.3 Exibição gráfica de pontos de dados multivariados
1.3.1 Diagramas de dispersão multivariados
1.3.2 Faces de Chernoff
1.3.3 Curvas de Andrews e curvas de coordenadas paralelas
1.3.4 Limitações
1.4 Exibição gráfica de funcionais multivariados
1.4.1 Suavização de diagramas de dispersão por função de dnsidade
1.4.2 Suavização de diagramas de dispersão por função de regressão
1.4.3 Visualização de funções multivariadas
1.4.3.1 Visualização de funções de regressão multivariadas
1.4.4 Visão geral de contornos e exibição de superfícies
1.5 Geometria de altas dimensões
1.5.1 Coordenadas polares em \(d\)
dimensões
1.5.2 Conteúdo da hiperesfera
1.5.3 Algumas consequências interessantes
1.5.3.1 Esfera inscrita em hipercubo
1.5.3.2 Hipervolume de uma casca fina
1.5.3.3 Probabilidades de cauda da normal multivariada
1.5.3.4 Diagonais no hiperespaço
1.5.3.5 Agregação de dados em torno da casca
1.5.3.6 Distâncias do vizinho mais cercano
1.6. Exercícios
1.7. Bibliografia
Capítulo
2. Critérios de estimação não paramétricos
2.1 Estimação da função de distribuição
2.2 Estimação não paramétrica direta da densidade
2.3 Critérios de erro para estimadores da densidade
2.3.1 Erro quadrático médio integrado (MISE) para estimadores
paramétricos
2.3.2 O critério \(L_1\)
2.3.2.1 \(L_1\) versus \(L_2\)
2.3.2.2 Três propriedades úteis do critério \(L_1\)
2.3.3 Critérios de estimação paramétrica amostrais
2.4 Famílias de distribuições não paramétricas
2.4.1 Família de distribuições de Pearson
2.4.2 Quando um estimador é não paramétrico?
2.5 Exercícios
2.6 Bibliografia
Capítulo
3. Histogramas: teoria e prática
3.1 Regra de Sturges para seleção da largura de banda
3.2 A teoria \(L_2\) de histogramas
univariados
3.2.1 Erro quadrático médio pontual e consistência
3.2.2 Erro global \(L_2\) do histograma
3.2.3 Regra de referência da densidade Normal
3.2.3.1 Comparação das regras de largura de banda
3.2.3.2 Ajustes para assimetria e curtose
3.2.4 Tamanhos de amostra equivalentes
3.2.5 Sensibilidade do MISE à largura do intervalo
3.2.5.1 Caso assintótico
3.2.5.2 Simulações com amostras grandes e pequenas
3.2.6 MISE exato versus MISE assintótico
3.2.6.1 Densidade Normal
3.2.6.2 Densidade Lognormal
3.2.7 Influência da localização da borda do intervalo no MISE
3.2.7.1 Caso geral
3.2.7.2 Descontinuidades de fronteira na densidade
3.2.8 Malhas de histograma otimamente adaptativas
3.2.8.1 Limites para a melhoria do MISE em histogramas adaptativos
3.2.8.2 Algumas malhas ótimas
3.2.8.3 Espaço nulo de densidades adaptativas
3.2.8.4 Malhas percentis
3.2.8.5 Uso de malhas adaptativas versus transformação
3.2.8.6 Observações
3.3 Regras práticas de largura de intervalo amostrais
3.3.1 Larguras de banda suavizadas em excesso
3.3.1.1 Limites inferiores para o número de compartimentos
3.3.1.2 Limites superiores para a largura de banda
3.3.2 Validação cruzada (VC) com e sem viés
3.3.2.1 Validação cruzada com viés
3.3.2.2 Validação cruzada não viesada
3.3.2.3 Problemas finais com BCV e UCV
3.3.2.4 Aplicações
3.4 Teoria \(L_2\) para histogramas
multivariados
3.4.1 Maldição da dimensionalidade
3.4.2 Um caso especial: \(d = 2\) com
correlação não nula
3.4.3 Malhas bivariadas regulares ótimas
3.5 Modas o picos em um histograma
3.5.1 Propriedades do histograma “Modas”
3.5.2 Ruído em histogramas ótimos
3.5.3 Larguras de banda ótimas do histograma para modas
3.5.4 Uma densidade de mistura bimodal útil
3.6 Outros critérios de erro: \(L_1\) ,
\(L_4\) , \(L_6\) , \(L_8\) e \(L_\infty\)
3.6.1 Histogramas \(L_1\) ótimos
3.6.2 Outros critérios \(L_p\)
3.7 Exercícios
3.8 Bibliografia
Capítulo
4. Polígonos de frequência
4.1 Polígonos de fequência univariados
4.1.1 Erro quadrático médio integrado
4.1.2 Regras práticas para a largura dos intervalos em polígonos de
frequência
4.1.3 Malhas adaptativas ótimas
4.1.4 Modas e protuberâncias em um polígono de frequência
4.2 Polígonos de frequência multivariados
4.3 Problemas de bordas de intervalos
4.4 Outras modificações dos histrogramas
4.4.1 Ajustes na contagem de intervalos
4.4.1.1 Agrupamento linear
4.4.1.2 Ajustando as contagens de intervalos de um FP para corresponder
às áreas do histograma
4.4.2 Histogramas polinomiais
4.4.3 Quanta informação existe em poucos intervalos?
4.5 Exercícios
4.6 Bibliografia
Capítulo
5. Histogramas deslocados médios
5.1 Construção
5.2 Propriedades assintóticas
5.3 O limite ASH como estimador kernel
5.4 Exercícios
5.5 Bibliografia
Capítulo
6. Estimadores kernel de densidade
6.1 Motivação para estimadores kernel
6.1.1 Erro quadrático médio integrado
6.1.2 Suavização por convolução
6.1.3 Aproximações por séries ortogonais
6.2 Propriedades teóricas: caso univariado
6.2.1 Análise MISE
6.2.2 Estimação de derivadas
6.2.3 Escolha do kernel
6.2.3.1 Kernels de ordem superior
6.2.3.2 Kernels ótimos
6.2.3.3 Kernels equivalentes
6.2.3.4 Kernels de ordem superior e projeto de kernel
6.2.3.5 Núcleos de fronteira
6.3 Propriedades teóricas: caso multivariado
6.3.1 Kernels produto
6.3.2 MISE de kernel multivariado geral
6.3.3 Núcleos de fronteira para regiões irregulares
6.4 Generalidade do método kernel
6.4.1 Método delta
6.4.2 Teorema do kernel generalizado
6.4.2.1 Demonstração do resultado geral do kernel
6.4.2.2 Caracterização de um estimador não paramétrico
6.4.2.3 Núcleos equivalentes de estimadores paramétricos
6.5 Validação cruzada
6.5.1 Dados Univariados
6.5.1.1 Primeiros esforços na seleção de largura de banda
6.5.1.2 Suavização excessiva
6.5.1.3 Validação cruzada não viesada e viesada
6.5.1.4 Validação cruzada por Bootstrap
6.5.1.5 Taxas mais rápidas e validação cruzada PI
6.5.1.6 Suavização excessiva restrita
6.5.2 Dados multivariados
6.5.2.1 Validação cruzada multivariada
6.5.2.2 Larguras de banda de sobresuavização multivariada
6.6 Suavização adaptativa
6.6.1 Introdução ao kernel variável
6.6.2 Suavização adaptativa univariada
6.6.2.1 Limites de melhoria
6.6.2.2 Estimadores de vizinhos mais próximos
6.6.2.3 Estimadores adaptativos por ponto de amostragem
6.6.2.4 Aprimoramento de dados
6.6.3 Procedimentos adaptativos multivariados
6.6.3.1 Adaptação pontual
6.6.3.2 Adaptação global
6.6.4 Algoritmos adaptativos práticos
6.6.4.1 Larguras de banda de biés zero para estimação da cauda
6.6.4.2 Validação Cruzada Unificada (UCV) para estimadores adaptativos
6.7 Aspectos computacionais
6.7.1 Suporte finito do kernel e arredondamento de dados
6.7.2 Convolução e transformadas de Fourier
6.7.2.1 Aplicação a estimadores de densidade kernel
6.7.2.2 FFTs
6.7.2.3 Discussão
6.8 Exercícios
6.9 Bibliografia
Capítulo
8. Regressão não paramétrica e modelos aditivos
8.1 Regressão kernel não paramétrica
8.1.1 O estimador Nadaraya-Watson
8.1.2 Estimadores polinomiais locais de mínimos quadrados
8.1.2.1 Ajuste local de constantes
8.1.2.2 Ajuste polinomial local
8.1.3 Erro quadrático médio pontual
8.1.4 Seleção da largura de banda
8.1.5 Suavização adaptativa
8.2 Estimação linear não paramétrica geral
8.2.1 Regressão polinomial local
8.2.2 Suavização por spline
8.2.3 Kernels equivalentes
8.3 Robustez
8.3.1 Estimadores resistentes
8.3.2 Regressão modal
8.3.3 Regressão \(L_1\)
8.4 Regressão em várias dimensões
8.4.1 Suavização por kernel e WARPing
8.4.2 Modelagem aditiva
8.4.3 A maldição da dimensionalidade
8.5 Exercícios
8.6 Bibliografia