Faculdade de Ciências e Tecnologia

Prospeção e Análise de Dados

Código

11563

Unidade Orgânica

Faculdade de Ciências e Tecnologia

Departamento

Departamento de Informática

Créditos

6.0

Professor responsável

Joaquim Francisco Ferreira da Silva, Pedro Manuel Corrêa Calvente Barahona

Horas semanais

Língua de ensino

Português

Objectivos

Conhecimentos:

Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.

Aptidões:

Implementar e adaptar algoritmos de Data Analytics e Text Mining.
Modelar experimentalmente dados reais usando esses algoritmos.
Interpretar e avaliar resultados experimentais.
Validar algoritmos de Data Analytics e Text Mining.

Competências:

Capacidade de avaliar a adequação dos métodos a dados e casos de estudo
Capacidade de avaliar criticamente os resultados obtidos.
Autonomia para aplicar e aprofundar os conhecimentos nas áreas de Data Analytics e Text Mining.

Pré-requisitos

A frequência desta UC assume a aprovação às seguintes UC’s:

Análise Matemática
Álgebra Linear e Geometria Analítica
Probabilidades e Estatística
Inteligência Artificial
Aprendizagem Automática

Conteúdo

Introduction

Data Analytics

Dados: exemplos de data analytics e suas perspectivas

Visualização de dados como ferramenta dedata analytics

Text Mining

Informação estruturada ou não-estruturada? Porquê fazer mining em textos?

Que problemas podem ser resolvidos?

Modulo I

Compreender os Dados

Sumarização e visualização de dados unidimensionais
Correlação e visualização de dados bidimensionais
Verificação da estrutura dos dados

Pré-Processamento de Dados

Tratamento de valores omissos
Criação de atributos
Normalização

Modelação Descritiva I

Análise de Componentes Principais (PCA)

Sumarização versus Correlação
Decomposição em valores singulares (SVD)
PCA como SVD. Abordagem convencional de PCA’s.

Aplicações de PCA’s

Modelação Descritiva II

K‐means, Anomalous clusters, Intelligent K‐Means
Clustering espectral
Fuzzy Clustering

Interpretação de Modelos Descritivos

Abordagem conventional
Avaliação da tendência de clustering
Items de interpretação pelo método dos mínimos quadrados

Casos de Estudo de Data Analytics

Modulo II‐ Text Mining

Extração de Informação Relevante

Expressões relevantes: multi‐palavras e palavras isoladas
Extratores estatísticos vs simbólicos. Algoritmos e métricas
Independência relativamente à língua

Análise simbólica e análise estatística de textos

Tokenization, Stemming e etiquetagem morfológica (Part‐Of‐Speech Tagging)
Distribuição das palavras nos textos em contexto de Big Data; lei de Zipf
Métricas para associação de termos e para recuperação (Retrieval)
Correlação entre documentos
Desambiguação do significado de palavras (Word Sense Disambiguation)

Descritores de documentos

Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
Âmbito e extensão semânticas dos Documentos
Sumarização de documentos

Classificação de documentos

Expressões relevantes como atributos caraterizadores de documentos. Seleção e redução de atributos.
Semelhança entre documentos
Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
Predição e avaliação

Casos de estudo em Text Mining (alguns exemplos)

Extração de Named Entities
Filtragem em e-mail
Identificação de línguas
Extração eficiente de multi-palavras
Deteção de polaridade

Bibliografia

D. T. Larose, C. D. Larose (2015), Data Mining and Predictive Analytics, 2nd Edition, Wiley.
B. Mirkin (2011), Core Concepts in Data Analysis: Summarization, Correlation, Visualization. Undergraduate Topics for Computer Science Series, Springer, London.
Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Text Mining: Predictive Methods for Analyzing

Método de avaliação

Avaliação Contínua
A nota laboratorial, NL, é calculada pela média aritmética das notas
dos 2 trabalhos práticos, um de cada módulo, i.e. NL = (TP1 + TP2)/2.
É concedida frequência nesta UC, aos alunos que obtenham uma nota
laboratorial não inferior a 8.5 valores.
A nota teórica, NT, é obtida, durante a avaliação contínua, através da
média aritmética das notas dos 2 testes, um em cada módulo, i.e. NT =
(T1 + T2)/2.
A nota final da UC, NF, é obtida através da média das notas
laboratorial e teórica, i.e. NF = (NT + NL)/2
Para se obter aprovação na UC, um aluno deverá cumulativamente
Ter uma nota teórica não inferior a 8.5 valores, NT ≥ 8.5
Ter frequência, i.e., uma nota laboratorial não inferior a 8.5
valores, NL ≥ 8.5
Ter uma nota final não inferior a 9.5 valores, NF ≥ 9.5.

Exame
Os alunos com frequência são admitidos a exame, para obter aprovação
ou melhoria de nota na UC.
O exame é composto de 2 partes, correspondentes aos 2 testes, cada um
sobre cada módulo.
Para efeitos de cálculo da nota final, a nota de cada componente do
exame, substitui, se melhor, a nota obtida no teste correspondente.

Universidade Nova de Lisboa

Faculdade de Ciências e Tecnologia

Prospeção e Análise de Dados

Código

Unidade Orgânica

Departamento

Créditos

Professor responsável

Horas semanais

Língua de ensino

Objectivos

Pré-requisitos

Conteúdo

Bibliografia

Método de avaliação

Cursos