
Prospeção e Análise de Dados
Código
11563
Unidade Orgânica
Faculdade de Ciências e Tecnologia
Departamento
Departamento de Informática
Créditos
6.0
Professor responsável
Joaquim Francisco Ferreira da Silva, Pedro Manuel Corrêa Calvente Barahona
Horas semanais
4
Língua de ensino
Português
Objectivos
Conhecimentos:
- Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
- Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
- Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.
Aptidões:
- Implementar e adaptar algoritmos de Data Analytics e Text Mining.
- Modelar experimentalmente dados reais usando esses algoritmos.
- Interpretar e avaliar resultados experimentais.
- Validar algoritmos de Data Analytics e Text Mining.
Competências:
- Capacidade de avaliar a adequação dos métodos a dados e casos de estudo
- Capacidade de avaliar criticamente os resultados obtidos.
- Autonomia para aplicar e aprofundar os conhecimentos nas áreas de Data Analytics e Text Mining.
Pré-requisitos
A frequência desta UC assume a aprovação às seguintes UC’s:
- Análise Matemática
- Álgebra Linear e Geometria Analítica
- Probabilidades e Estatística
- Inteligência Artificial
- Aprendizagem Automática
Conteúdo
Data Analytics
Dados: exemplos de data analytics e suas perspectivas
Visualização de dados como ferramenta dedata analytics
Text Mining
Informação estruturada ou não-estruturada? Porquê fazer mining em textos?
Que problemas podem ser resolvidos?
- Modulo I
Compreender os Dados
- Sumarização e visualização de dados unidimensionais
- Correlação e visualização de dados bidimensionais
- Verificação da estrutura dos dados
Pré-Processamento de Dados
- Tratamento de valores omissos
- Criação de atributos
- Normalização
Modelação Descritiva I
Análise de Componentes Principais (PCA)
- Sumarização versus Correlação
- Decomposição em valores singulares (SVD)
- PCA como SVD. Abordagem convencional de PCA’s.
Aplicações de PCA’s
Modelação Descritiva II
- K‐means, Anomalous clusters, Intelligent K‐Means
- Clustering espectral
- Fuzzy Clustering
Interpretação de Modelos Descritivos
- Abordagem conventional
- Avaliação da tendência de clustering
- Items de interpretação pelo método dos mínimos quadrados
Casos de Estudo de Data Analytics
Modulo II‐ Text Mining
Extração de Informação Relevante
- Expressões relevantes: multi‐palavras e palavras isoladas
- Extratores estatísticos vs simbólicos. Algoritmos e métricas
- Independência relativamente à língua
Análise simbólica e análise estatística de textos
- Tokenization, Stemming e etiquetagem morfológica (Part‐Of‐Speech Tagging)
- Distribuição das palavras nos textos em contexto de Big Data; lei de Zipf
- Métricas para associação de termos e para recuperação (Retrieval)
- Correlação entre documentos
- Desambiguação do significado de palavras (Word Sense Disambiguation)
Descritores de documentos
- Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
- Âmbito e extensão semânticas dos Documentos
- Sumarização de documentos
Classificação de documentos
- Expressões relevantes como atributos caraterizadores de documentos. Seleção e redução de atributos.
- Semelhança entre documentos
- Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
- Predição e avaliação
Casos de estudo em Text Mining (alguns exemplos)
- Extração de Named Entities
- Filtragem em e-mail
- Identificação de línguas
- Extração eficiente de multi-palavras
- Deteção de polaridade
Bibliografia
- D. T. Larose, C. D. Larose (2015), Data Mining and Predictive Analytics, 2nd Edition, Wiley.
- B. Mirkin (2011), Core Concepts in Data Analysis: Summarization, Correlation, Visualization. Undergraduate Topics for Computer Science Series, Springer, London.
- Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Text Mining: Predictive Methods for Analyzing
Método de avaliação
Avaliação Contínua
A nota laboratorial, NL, é calculada pela média aritmética das notas
dos 2 trabalhos práticos, um de cada módulo, i.e. NL = (TP1 + TP2)/2.
É concedida frequência nesta UC, aos alunos que obtenham uma nota
laboratorial não inferior a 8.5 valores.
A nota teórica, NT, é obtida, durante a avaliação contínua, através da
média aritmética das notas dos 2 testes, um em cada módulo, i.e. NT =
(T1 + T2)/2.
A nota final da UC, NF, é obtida através da média das notas
laboratorial e teórica, i.e. NF = (NT + NL)/2
Para se obter aprovação na UC, um aluno deverá cumulativamente
Ter uma nota teórica não inferior a 8.5 valores, NT ≥ 8.5
Ter frequência, i.e., uma nota laboratorial não inferior a 8.5
valores, NL ≥ 8.5
Ter uma nota final não inferior a 9.5 valores, NF ≥ 9.5.
Exame
Os alunos com frequência são admitidos a exame, para obter aprovação
ou melhoria de nota na UC.
O exame é composto de 2 partes, correspondentes aos 2 testes, cada um
sobre cada módulo.
Para efeitos de cálculo da nota final, a nota de cada componente do
exame, substitui, se melhor, a nota obtida no teste correspondente.