-
Apresentação
Apresentação
Atualmente são geradas grandes quantidades de dados a todo o instante, seja na nossa atividade online, compras ou dados financeiros. Estes dados, apesar de extremamente úteis, são heterogéneos, ruidosos e incompletos. Neste curso, iremos abordar tópicos de ciência de dados, explorando técnicas e algoritmos que podem ser utilizados para a análise e visualização de grandes bases de dados.
-
Disciplina do curso
Disciplina do curso
-
Grau | Semestres | ECTS
Grau | Semestres | ECTS
Doutor | Semestral | 5
-
Ano | Natureza | Lingua
Ano | Natureza | Lingua
1 | Opcional | Português
-
Código
Código
ULHT1504-25631
-
Pré-requisitos e co-requisitos
Pré-requisitos e co-requisitos
Não aplicável
-
Estágio Profissional
Estágio Profissional
Não
-
Conteúdos Programáticos
Conteúdos Programáticos
Análise Exploratória de Dados Redução de dimensionalidade: modelos lineares Análise de Componentes Principais com SVD Análise Factorial Sketching matricial Modelos generalizados de baixo nível Redução de dimensionalidade: modelos não lineares Kernel PCA ISOMAP Clustering Clustering hierárquico Assignment Clustering (k-means) Clustering espetral
-
Objetivos
Objetivos
O foco principal do curso estará em técnicas de (pré-)processamento dos dados, de modo a encontrar importantes propriedades estruturais dos dados, e não nos processos de aprendizagem subsequentes. Assim, pretende-se que os alunos sejam capazes de compreender o papel da análise exploratória para Big Data, as hipóteses e as implicações dos métodos de aprendizagem quando aplicados a Big Data e que sejam capazes de adquirir conhecimentos sobre métodos de otimização para aprendizagem em larga escala. Os trabalhos de casa e o projeto ajudarão a solidificar os conceitos, tal como a dotar os alunos de conhecimentos práticos sobre ferramentas de processamento de dados.
-
Metodologias de ensino
Metodologias de ensino
A disciplina funciona em modo tutoria, sendo disponibilizados vídeos e sugeridos artigos/links para leitura e análise pelos alunos. A avaliação consiste em: - trabalhos de casa (45%); - projeto final entregue em duas fases (55%).
-
Bibliografia principal
Bibliografia principal
Learning from Data: Abu-Mostafa, Magdon-Ismail, and Lin 2012 AMLBook Foundations of Data Science: Hopcroft and Kannan 20320 Cambridge University Press Mining of Massive Datasets: Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman 2014 Cambridge University Press Python machine learning: Raschka 2015 Packt Publishing Ltd Generalized low rank models: M. Udell, C. Horn, R. Zadeh, and S. Boyd, 2016 Foundations and Trends in Machine Learning
-
Avaliação
Avaliação
A avaliação desta unidade curricular é constituida pelos seguintes componentes:
1. Dois trabalhos de casa que consistem na resolução de problemas práticos com dados reais. Os trabalhos são realizados fora do contexto da sala de aula. Os trabalhos, designados de TPC, são submetidos via Moodle em data a combinar. Os trabalhos serão avaliados numa escala de 0 a 20, sendo a nota final dos trabalhos de casa a média aritmética das notas obtidas.
2. Projeto final, entregue em duas fases e com apresentação oral na última semana do semestre. O objetivo é os alunos escreverem um resumo alargado (1 página) na primeira fase, que evoluirá para um artigo (4-6 páginas) na segunda fase. As duas fases do trabalho serão avaliadas numa escala de 0 a 20, tendo a primeira fase um peso relativo de 25% e a segunda fase 65%. A apresentação tem um peso relativo de 10% na nota do projeto.
A nota final é obtida por:
NF=0.45*MTPC+0.55*(0.25*P1+0.65*P2+0.1*A),
Onde MTPC é a média das notas dos TPC, P1 é a nota do projeto na fase 1, P2 é a nota do projeto na fase 2 e A é a nota da apresentação do projeto. A aprovação é obtida quando a nota final não é inferior a 10 valores.
-
Mobilidade
Mobilidade
Não




