Faculdade de Ciências e Tecnologia

Prospeção e Análise de Dados

Código

11563

Unidade Orgânica

Faculdade de Ciências e Tecnologia

Departamento

Departamento de Informática

Créditos

6.0

Professor responsável

Joaquim Francisco Ferreira da Silva, Pedro Manuel Corrêa Calvente Barahona

Horas semanais

4

Língua de ensino

Português

Objectivos

Conhecimentos:

  • Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
  • Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
  • Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.

 

Aptidões:

  • Implementar e adaptar algoritmos de Data Analytics e Text Mining.
  • Modelar experimentalmente dados reais usando esses algoritmos.
  • Interpretar e avaliar resultados experimentais.
  • Validar algoritmos de Data Analytics e Text Mining.

 

Competências:

  • Capacidade de avaliar a adequação dos métodos a dados e casos de estudo
  • Capacidade de avaliar criticamente os resultados obtidos.
  • Autonomia para aplicar e aprofundar os conhecimentos nas áreas de Data Analytics e Text Mining.

Pré-requisitos

A frequência desta UC assume a aprovação às seguintes UC’s:

  • Análise Matemática
  • Álgebra Linear e Geometria Analítica
  • Probabilidades e Estatística
  • Inteligência Artificial
  • Aprendizagem Automática

Conteúdo

Introduction

Data Analytics

Dados: exemplos de data analytics e suas perspectivas 

Visualização de dados como ferramenta dedata analytics

Text Mining

Informação estruturada ou não-estruturada? Porquê fazer mining em textos?

Que problemas podem ser resolvidos?

 

  • Modulo I

Compreender os Dados

  • Sumarização e visualização de dados unidimensionais
  • Correlação e visualização de dados bidimensionais
  • Verificação da estrutura dos dados

Pré-Processamento de Dados

  • Tratamento de valores omissos
  • Criação de atributos
  • Normalização

Modelação Descritiva I

Análise de Componentes Principais (PCA)

  • Sumarização versus Correlação
  • Decomposição em valores singulares (SVD)
  • PCA como SVD.  Abordagem convencional de PCA’s.

Aplicações de PCA’s

Modelação Descritiva II

  • K‐means, Anomalous clusters, Intelligent K‐Means
  • Clustering espectral
  • Fuzzy Clustering

Interpretação de Modelos Descritivos

  • Abordagem conventional
  • Avaliação da tendência de clustering
  • Items de interpretação pelo método dos mínimos quadrados

Casos de Estudo de Data Analytics

 

 

Modulo II Text Mining

Extração de Informação Relevante

  • Expressões relevantes: multi‐palavras  e palavras isoladas
  • Extratores estatísticos vs simbólicos. Algoritmos e métricas
  • Independência relativamente à língua

Análise simbólica e análise estatística de textos

  • TokenizationStemming e etiquetagem morfológica (PartOfSpeech Tagging)
  • Distribuição das palavras nos textos em contexto de Big Data;  lei de  Zipf
  • Métricas para associação de termos e para recuperação (Retrieval)
  • Correlação entre documentos
  • Desambiguação do significado de palavras (Word Sense Disambiguation)

Descritores de documentos

  • Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
  • Âmbito e extensão semânticas dos Documentos
  • Sumarização de documentos

Classificação de documentos

  • Expressões relevantes como atributos caraterizadores  de documentos. Seleção e redução de atributos.
  • Semelhança entre documentos
  • Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
  • Predição e avaliação

Casos de estudo em Text Mining (alguns exemplos)

  • Extração de Named Entities
  • Filtragem em e-mail
  • Identificação de línguas
  • Extração eficiente de multi-palavras
  • Deteção de polaridade

Bibliografia

  • D. T. Larose, C. D. Larose (2015), Data Mining and Predictive Analytics, 2nd Edition, Wiley.
  • B. Mirkin (2011), Core Concepts in Data Analysis: Summarization, Correlation, Visualization. Undergraduate Topics for Computer Science Series, Springer, London.
  • Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Text Mining: Predictive Methods for Analyzing

Método de avaliação

Avaliação Contínua
A nota laboratorial, NL, é calculada pela média aritmética das notas
dos 2 trabalhos práticos, um de cada módulo, i.e. NL = (TP1 + TP2)/2.
É concedida frequência nesta UC, aos alunos que obtenham uma nota
laboratorial não inferior a 8.5 valores.
A nota teórica, NT, é obtida, durante a avaliação contínua, através da
média aritmética das notas dos 2 testes, um em cada módulo, i.e. NT =
(T1 + T2)/2.
A nota final da UC, NF, é obtida através da média das notas
laboratorial e teórica, i.e. NF = (NT + NL)/2
Para se obter aprovação na UC, um aluno deverá cumulativamente
Ter uma nota teórica não inferior a 8.5 valores, NT ≥ 8.5
Ter frequência, i.e., uma nota laboratorial não inferior a 8.5
valores, NL ≥ 8.5
Ter uma nota final não inferior a 9.5 valores, NF ≥ 9.5.

Exame
Os alunos com frequência são admitidos a exame, para obter aprovação
ou melhoria de nota na UC.
O exame é composto de 2 partes, correspondentes aos 2 testes, cada um
sobre cada módulo.
Para efeitos de cálculo da nota final, a nota de cada componente do
exame, substitui, se melhor, a nota obtida no teste correspondente.

Cursos