
Data Mining II
Código
200029
Unidade Orgânica
NOVA Information Management School
Créditos
7.5
Professor responsável
Leonardo Vanneschi
Língua de ensino
Português. No caso de existirem alunos de Erasmus, as aulas serão leccionadas em Inglês
Objectivos
O principal objetivo desta unidade curricular é a introdução dos principais conceitos e métodos de Aprendizagem Automática supervisionada. Mais especificamente, estudaremos a criação de modelos preditivos por meio de Árvores de Decisão, Redes Neurais Artificiais, Programação Genética e Support Vector Machines.
Pré-requisitos
Nenhum requisito.
Conteúdo
1. Introdução à Aprendizagem de Máquinas - O conceito de aprendizagem. Aprendendo uma função.
- Conceito de generalização. Conjunto de treino e3 conjunto de teste.
- Aprendizagem supervisionado e não supervisionado.
- Classificação e agrupamento.
- Desempenho de um classificador. Divisão de dados. Crossvalidação e suas variantes. Precisão e Recall. F-measure. Estatística K.
- O conceito de feature. Seleção de features.
2. Árvores de decisão
- Funcionamento geral do método
- Exemplos de aplicação
3. Redes Neuronais
- Introdução
- Perceptron:
- Um modelo de neurônio
- Regra de aprendizagem Perceptron.
- Teorema de Convergência de Perceptron.
- Principais funções de ativação.
- Adaline:
- estrutura geral
- regra Delta. O conceito de descida do gradiente.
- Problemas linearmente separáveis ??e não linearmente separáveis ?.
- Camadas de neurônios escondidos.
- Teorema da Aproximação Universal.
- Backpropagation
- Redes Neurais Cíclicas ou Recursivas:
- Jordan Networks
- Elman Networks
- Hopfield Networks (o conceito de memória associativa, regra de aprendizagem do Hebb).
- Exemplos de aplicação
4. Support Vector Machines
- Funcionamento geral
- Funções do Kernel
- Exemplos de aplicação
5. Programação genética
- Representação de soluções e diferenças principais com os Algoritmos Genéticos.
- Operadores genéticos
- Cálculo de fitness
- Propriedade de encerramento e suficiência
- Steady State.
- Funções definidas automaticamente (ADF).
- GP Benchmarks (paridade parcial, multiplexador, regressão simbólica, formigas artificiais na trilha de Santa Fe).
- Programação genética paralela e distribuída (definição e estudo experimental).
- Diversidade e convergência prematura
- Problemas abertos e novas tendências em GP
- integração da semântica no GP
Bibliografia
"Machine Learning" Tom Mitchell McGraw-Hill, 1997; "A Brief Introduction to Neural Networks" D. Kriesel 2007.; "Introduction to Data Mining", Chapter 4 Pang-Ning Tan, Michael Steinbach, and Vipin Kumar 2006.; "An Introduction to Support Vector Machines for Data Mining" Robert Burbidge and Bernard Buxton 2001; "A field guide to genetic programming" Riccardo Poli, William B. Langdon and Nicholas Freitag McPhee, 2008.
Método de ensino
Aulas teóricas: quadro + slides; Aulas práticas: slides + projeção de exercícios e exemplos usando vários ambientes de software.
Método de avaliação
20% projeto número 1, 20% projeto número 2, 60% exame final.