my sketches

domingo, 12 de dezembro de 2010

CLUSTERIZAÇÃO DOS MUNICÍPIOS BRASILEIROS

RESUMO:

O presente trabalho teve como objetivo fornecer um agrupamento de municípios para fins de subsídio de política espacial/regional. Utilizou-se uma metodologia de clusterização original, de forma a garantir que os agrupamentos formados fossem espacialmente contíguos, com características socioeconômicas homogêneas. No agregado, o território brasileiro foi dividido em 91 clusters:
16 na região Norte, 22 na região Nordeste, 24 na região Sudeste, 16 na região Sul e 13 na região Centro-Oeste. Os municípios das regiões Sudeste e Sul são os com os melhores indicadores. Além da renda per capita e da taxa de homicídios, índices de desenvolvimento municipal para educação, condições dos domicílios e condições de saúde serviram de base para a análise dos clusters selecionados entre 1991 e 2000. A análise de clusters permitiu identificar áreas de alta renda per capita e bons indicadores para condições sociais em geral, como é o caso da região de Campinas, como também regiões com renda per capita muito baixa, e péssimos indicadores sociais, como, por exemplo, o norte de Minas Gerais.

FULL TEXT: http://www.ipea.gov.br/sites/000/2/publicacoes/livros/dirur/dinamica_dos_municipos/Capitulo%205.pdf

domingo, 5 de dezembro de 2010

CLUSTERIZAÇÃO

De acordo com [Jain and Dubes 1988], a clusterização é um método que
utiliza o aprendizado não supervisionado ou auto-organizável, ou seja, não há
um “professor” ou “crítico” que lhe indique o que cada padrão representa.
Aprendizagem não supervisionada ou clustering (agrupamento) busca
extrair informação relevante de dados não rotulados.
Uma solução mais geral consiste em definir medidas de similaridade
entre dois clusters assim como um critério global como a soma do erro
quadrático.
Existem vários algoritmos que fazem agrupamento.
Os algoritmos de agrupamento são classificados como hierárquicos ou
seqüenciais (ou iterativos).
Exemplo de agrupamento (clusters)

terça-feira, 30 de novembro de 2010

GEOGRAPHIC INFORMATION, CLUSTER DETECTION AND SPATIAL SURVEILLANCE

The increased need for cluster detection has coincided with an increasing availability of data, especially data on the location of events.

This is often obtained by geocoding the addresses of individual cases.

This can be done ‘on the fly’ as cases are encountered (Beitel et al., 2004) or with static databases that retain the location of all patients eligible for surveillance (Lazarus et al., 2002).

In its simplest form, geocoding could imply merely obtaining the zip or postal code, but it may also include finding the exact latitude and longitude of an address using geographical information systems (GIS).

In statistical jargon, such data about location is often referred to as ‘spatial’ data.

The value of spatial data for cluster detection is twofold.

First, all attacks are localized at some spatial scale.

That is, an attack could conceivably target a neighborhood, but on a city-wide scale this would be a small area.

Alternatively, an attack could include a whole metropolitan area, but on a national scale this would be a small region.

When surveillance is limited to a single daily count from a neighborhood or city, even sharp increases in relatively small regional counts may be hidden within the natural variation found in the count across a larger area.

Spatial surveillance thus promises to increase the power to detect
events that occur in small regions, relative to surveillance of the total count
only.

Secondly, if an incident cluster is identified, public health officials will need to respond.

If the data are nonspatial, surveillance can only give vague messages of the sort ‘there is an excess of cases in the Boston metropolitan region’; this is unlikely to be of much practical use.

In contrast, spatial surveillance would allow more-specific messages, such as ‘there are excess cases in zip code 02474’.

The job of identifying small regions with extra cases is also referred to as ‘cluster
detection’, where the clustering in this case refers to extra cases in an area on
the map.

The coincidence of suddenly increased need and increasingly available spatial
data has generated new interest in statistical methods for spatial surveillance,
which might be described as the detection of incident clusters in space.

The goal of this book is to provide a snapshot of the state of the nascent art of
incident spatial cluster detection, provided by statisticians involved in traditional
surveillance (of a single statistic), in spatial clustering, and in spatial
surveillance.

(...)

In this context, we are most interested in detecting attacks while they are
ongoing rather than retrospectively.

In statistical terms, we might refer to this as ‘cluster detection’ or ‘incident cluster detection’, where by ‘cluster’ we mean the occurrence of extra cases in a short time span. In the literature on surveillance, this is sometimes referred to as ‘on-line’ surveillance.

(...)

Texto integral em: Spatial and Syndromic Surveillance for Public Health
Andrew B. Lawson and Ken Kleinman

segunda-feira, 29 de novembro de 2010

clusters analysis: introdução

TEXTO INTEGRAL EM: 9. SIMPÓSIO BRASILEIRO DE PROBABILIDADE E ESTATÍSTICA

Análise de Agrupamentos (A.A.) engloba uma variedade de técnicas e algoritmos cujo objetivo é encontrar e separar objetos em grupos similares. Essa atividade pode ser observada, por exemplo, numa criança brincando com blocos coloridos de diferentes formas, cores e tamanhos. É comum ela separá-los em pilhas segundo uma de suas características, cor por exemplo. Ela está praticando Análise de Agrupamentos.

(...)

Usar mais de uma característica para formar pilhas torna-se uma atividade mais trabalhosa, exigindo conceitos mais sofisticados de semelhança e procedimentos mais “científicos” para empilhá-las. [É um procedimento multidimensional]

(...)

O problema que A.A. pretende resolver é: “dada uma amostra de n objetos (ou indivíduos), cada um deles medido segundo p variáveis, procurar um esquema de classificação que agrupe os objetos em g grupos. Devem ser determinados também o número e as características desses grupos.” (Everitt, 1974).

domingo, 28 de novembro de 2010

clusters pesquisa geral

O Sistema VISUAL GRAFUS possibilita uma visão paralela, não seqüencial, do problema investigado. Com isto, o analista enxerga todo plano de pesquisa modelado graficamente, enriquecendo o seu processo de aquisição de conhecimento. Os dados e relacionamentos do problema são analisados através de modelos complexos, trazendo à luz, possibilidades quase impossíveis de serem observados através de outros processos manuais, como relacionamentos e distâncias físicas ou pessoais, mensuradas por modelos matemáticos e instrumentos de pesquisa operacional.

Pesquisa Operacional
Objetivo:

A Pesquisa Operacional (PO) é uma ciência cujo objetivo é utilizar ferramentas quantitativas (matemáticas) para auxiliar no processo de tomada de decisões. Várias diretivas compõem a PO: Programação Linear, Programação Dinâmica, Teoria dos Jogos, Teoria das Filas, Simulação. Em essência, a PO está baseada na Matemática e na Estatística.

A PO tem como meio a criação de modelos matemáticos que traduzam alguns aspectos da realidade em formulações que respeitam as regras e características dos processos do mundo real. Desta forma, ao se criar um objetivo na estrutura matemática, estaremos simulando ou otimizando as variáveis do mundo real. Como na sua maioria são muitas variáveis a serem consideradas, é necessário a utilização de sistemas computacionais modernos que facilitam a obtenção de resultados coerentes e ótimos.

A aplicação nos negócios é muito ampla, como sugerem as possibilidades a seguir:

· Revisão de atendimento de Malha logística (nível de serviço e custo de distribuição).

· Otimização da rede logística (abertura e fechamento de fábricas, armazéns, operações de cross-docking e transit-points).

· Estruturação de clusters logísticos compatíveis com regiões de vendas.

· Implantação de sistemas de Roteirização de distribuição de produtos.

· Simulação de atendimento para definição de tamanho de frota.

· Implantação de sistemas dinâmicos otimizadores de matéria-prima.

Epidemias e aglomerado de casos (clusters)
Clusters são definidos como uma aglomeração de eventos
incomuns no espaço e/ou no tempo, em quantidades maiores
do que o esperado que ocorra ao acaso.
Clusters de casos que envolvam doenças com uma única e
bem estabelecida causa são mais prováveis de produzirem
resultados mais úteis.
A cluster of foodborne illnesses is considered an outbreak if an
investigation demonstrates that two or more infections caused
by the same agent are linked to the same food. Lonnie J. King, on CDC Response to the
Multi-State Outbreak of Salmonella Saintpaul

Epidemias:
Ocorrência de doenças/eventos em determinado
local e período, em número maior que o esperado
para tal local ou período.
São detectadas por meio da análise da incidência de
doenças de acordo com tempo, lugar e pessoa.
O número de casos que caracteriza uma epidemia
varia com a doença e sua ocorrência no passado