-
Apresentação
Apresentação
Atualmente são geradas grandes quantidades de dados a todo o instante, seja na nossa atividade online, compras ou dados financeiros. Estes dados, apesar de extremamente úteis, são heterogéneos, ruidosos e incompletos. Neste curso, iremos abordar tópicos de ciência de dados, explorando técnicas e algoritmos que podem ser utilizados para a análise e visualização de grandes bases de dados.
-
Disciplina do curso
Disciplina do curso
-
Grau | Semestres | ECTS
Grau | Semestres | ECTS
Doutor | Semestral | 5
-
Ano | Natureza | Lingua
Ano | Natureza | Lingua
1 | Opcional | Português
-
Código
Código
ULHT1504-25631
-
Pré-requisitos e co-requisitos
Pré-requisitos e co-requisitos
Não aplicável
-
Estágio Profissional
Estágio Profissional
Não
-
Conteúdos Programáticos
Conteúdos Programáticos
Análise Exploratória de Dados Redução de dimensionalidade: modelos lineares Análise de Componentes Principais com SVD Análise Factorial Sketching matricial Modelos generalizados de baixo nível Redução de dimensionalidade: modelos não lineares Kernel PCA ISOMAP Clustering Clustering hierárquico Assignment Clustering (k-means) Clustering espetral
-
Objetivos
Objetivos
O foco principal do curso estará em técnicas de (pré-)processamento dos dados, de modo a encontrar importantes propriedades estruturais dos dados, e não nos processos de aprendizagem subsequentes. Assim, pretende-se que os alunos sejam capazes de compreender o papel da análise exploratória para Big Data, as hipóteses e as implicações dos métodos de aprendizagem quando aplicados a Big Data e que sejam capazes de adquirir conhecimentos sobre métodos de otimização para aprendizagem em larga escala. Os trabalhos de casa e o projeto ajudarão a solidificar os conceitos, tal como a dotar os alunos de conhecimentos práticos sobre ferramentas de processamento de dados.
-
Metodologias de ensino
Metodologias de ensino
A disciplina funciona em modo tutoria, sendo disponibilizados vídeos e sugeridos artigos/links para leitura e análise pelos alunos. A avaliação consiste em: - exame em casa (45%); - projeto final entregue em duas fases com apresentação (55%).
-
Bibliografia principal
Bibliografia principal
Learning from Data: Abu-Mostafa, Magdon-Ismail, and Lin 2012 AMLBook Foundations of Data Science: Hopcroft and Kannan 20320 Cambridge University Press Mining of Massive Datasets: Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman 2014 Cambridge University Press Python machine learning: Raschka 2015 Packt Publishing Ltd Generalized low rank models: M. Udell, C. Horn, R. Zadeh, and S. Boyd, 2016 Foundations and Trends in Machine Learning
-
Avaliação
Avaliação
A avaliação desta unidade curricular é constituida pelos seguintes componentes:
1. Um exame a realizar fora do contexto da sala de aula, avaliado numa escala de 0 a 20.
2. Projeto final, entregue em duas fases e com apresentação oral na última semana do semestre. O objetivo é os alunos escreverem um resumo alargado (1 página) na primeira fase, que evoluirá para um artigo (4-6 páginas) na segunda fase. As duas fases do trabalho serão avaliadas numa escala de 0 a 20, tendo a primeira fase um peso relativo de 25% e a segunda fase 65%. A apresentação tem um peso relativo de 10% na nota do projeto.
A nota final é obtida por:
NF=0.45*E+0.55*(0.25*P1+0.65*P2+0.1*A),
Onde E é a nota do exame, P1 é a nota do projeto na fase 1, P2 é a nota do projeto na fase 2 e A é a nota da apresentação do projeto. A aprovação é obtida quando a nota final não é inferior a 10 valores.
-
Mobilidade
Mobilidade
Não





