
Prospeção e Análise de Dados
Código
11563
Unidade Orgânica
Faculdade de Ciências e Tecnologia
Departamento
Departamento de Informática
Créditos
6.0
Professor responsável
Joaquim Francisco Ferreira da Silva, Pedro Manuel Corrêa Calvente Barahona
Horas semanais
4
Língua de ensino
Português
Objectivos
Conhecimentos:
- Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
- Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
- Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.
Aptidões:
- Implementar e adaptar algoritmos de Data Analytics e Text Mining.
- Modelar experimentalmente dados reais usando esses algoritmos.
- Interpretar e avaliar resultados experimentais.
- Validar algoritmos de Data Analytics e Text Mining.
Competências:
- Capacidade de avaliar a adequação dos métodos a dados e casos de estudo
- Capacidade de avaliar criticamente os resultados obtidos.
- Autonomia para aplicar e aprofundar os conhecimentos nas áreas de Data Analytics e Text Mining.
Pré-requisitos
A frequência desta UC assume a aprovação às seguintes UC’s:
- Análise Matemática
- Álgebra Linear e Geometria Analítica
- Probabilidades e Estatística
- Inteligência Artificial
- Aprendizagem Automática
Conteúdo
Data Analytics
Dados: exemplos de data analytics e suas perspectivas
Visualização de dados como ferramenta dedata analytics
Text Mining
Informação estruturada ou não-estruturada? Porquê fazer mining em textos?
Que problemas podem ser resolvidos?
- Modulo I
Compreender os Dados
- Sumarização e visualização de dados unidimensionais
- Correlação e visualização de dados bidimensionais
- Verificação da estrutura dos dados
Pré-Processamento de Dados
- Tratamento de valores omissos
- Criação de atributos
- Normalização
Modelação Descritiva I
Análise de Componentes Principais (PCA)
- Sumarização versus Correlação
- Decomposição em valores singulares (SVD)
- PCA como SVD. Abordagem convencional de PCA’s.
Aplicações de PCA’s
Modelação Descritiva II
- K‐means, Anomalous clusters, Intelligent K‐Means
- Clustering espectral
- Clustering relacional (se houver tempo)
Interpretação de Modelos Descritivos
- Abordagem conventional
- Avaliação da tendência de clustering
- Items de interpretação pelo método dos mínimos quadrados
Casos de Estudo de Data Analytics
Modulo II‐ Text Mining
Extração de Informação Relevante
- Expressões relevantes: multi‐palavras e palavras isoladas
- Extratores estatísticos vs simbólicos. Algoritmos e métricas
- Independência relativamente à língua
Análise simbólica e análise estatística de textos
- Tokenization, Stemming e etiquetagem morfológica (Part‐Of‐Speech Tagging)
- Distribuição das palavras nos textos; lei de Zipf
- Métricas para associação de termos e para recuperação (Retrieval)
- Correlação entre documentos
- Desambiguação do significado de palavras (Word Sense Disambiguation)
Descritores de documentos
- Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
- Âmbito e extensão semânticas dos Documentos
- Sumarização de documentos
Classificação de documentos
- Expressões relevantes como atributos caraterizadores de documentos. Seleção e redução de atributos.
- Semelhança entre documentos
- Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
- Predição e avaliação
Casos de estudo em Text Mining (alguns exemplos)
- Extração de Named Entities
- Filtragem em e-mail
- Identificação de línguas
- Extração eficiente de multi-palavras
- Deteção de polaridade
Bibliografia
- D. T. Larose, C. D. Larose (2015), Data Mining and Predictive Analytics, 2nd Edition, Wiley.
- B. Mirkin (2011), Core Concepts in Data Analysis: Summarization, Correlation, Visualization. Undergraduate Topics for Computer Science Series, Springer, London.
- Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Predictive Methods for Analyzing
Método de avaliação
A avaliação desta UC é composta por uma componente teórica-prática (T) e uma componente laboratorial ou de projecto (P), tendo cada componente um peso de 50% na nota final.
Para obter aprovação à disciplina um estudante necessita de: nota mínima de 10 valores em cada uma das componentes de avaliação. A nota final é definida pela média ponderada das duas componentes de avaliação.
A componente teórica-prática (T) consiste na realização de dois testes, os quais contarão em partes iguais para a nota desta componente. Em alternativa, esta componente pode ser realizada por exame de recurso.
A componente de projecto consiste na realização de dois projectos de programação acompanhados de relatórios escritos.
É necessária a presença a pelo menos 2/3 das aulas quer teóricas quer práticas.