-
Presentation
Presentation
Large amounts of data are generated all the time nowadays, whether it is in our online activity, shopping or financial data. This data, although extremely useful, is heterogeneous, noisy and incomplete. In this course, we will cover topics in data science, exploring techniques and algorithms that can be used for the analysis and visualisation of large databases.
-
Class from course
Class from course
-
Degree | Semesters | ECTS
Degree | Semesters | ECTS
Doctorate | Semestral | 5
-
Year | Nature | Language
Year | Nature | Language
1 | Optional | Português
-
Code
Code
ULHT1504-25631
-
Prerequisites and corequisites
Prerequisites and corequisites
Not applicable
-
Professional Internship
Professional Internship
Não
-
Syllabus
Syllabus
Exploratory data analysis Dimensionality reduction: linear models Principal Component Analysis with SVD Factor analysis Matrix sketching Generalized Low-Rank Models Dimensionality reduction: non-linear models Kernel PCA ISOMAP Clustering Hierarchical Clustering Assignment Clustering (k-means) Spectral Clustering
-
Objectives
Objectives
The main focus of the course will be on techniques for (pre-)processing the data to find important structural properties of the data, rather than on the subsequent learning processes. Thus, it is intended that students will be able to understand the role of exploratory analysis for Big Data, the assumptions and implications of learning methods when applied to Big Data and that they will be able to acquire knowledge about optimization methods for large-scale processing learning. Homework and project will help consolidate the concepts as well as provide students with practical knowledge of data processing tools.
-
Teaching methodologies
Teaching methodologies
The curricular unit works in tutorial mode, with videos being made available and papers/links being suggested for students to read and analyse. The assessment consists of: - homework (45%); - final project submitted in two phases (55%).
-
References
References
Learning from Data: Abu-Mostafa, Magdon-Ismail, and Lin 2012 AMLBook Foundations of Data Science: Hopcroft and Kannan 20320 Cambridge University Press Mining of Massive Datasets: Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman 2014 Cambridge University Press Python machine learning: Raschka 2015 Packt Publishing Ltd Generalized low rank models: M. Udell, C. Horn, R. Zadeh, and S. Boyd, 2016 Foundations and Trends in Machine Learning
-
Assessment
Assessment
A avaliação desta unidade curricular é constituida pelos seguintes componentes:
1. Dois trabalhos de casa que consistem na resolução de problemas práticos com dados reais. Os trabalhos são realizados fora do contexto da sala de aula. Os trabalhos, designados de TPC, são submetidos via Moodle em data a combinar. Os trabalhos serão avaliados numa escala de 0 a 20, sendo a nota final dos trabalhos de casa a média aritmética das notas obtidas.
2. Projeto final, entregue em duas fases e com apresentação oral na última semana do semestre. O objetivo é os alunos escreverem um resumo alargado (1 página) na primeira fase, que evoluirá para um artigo (4-6 páginas) na segunda fase. As duas fases do trabalho serão avaliadas numa escala de 0 a 20, tendo a primeira fase um peso relativo de 25% e a segunda fase 65%. A apresentação tem um peso relativo de 10% na nota do projeto.
A nota final é obtida por:
NF=0.45*MTPC+0.55*(0.25*P1+0.65*P2+0.1*A),
Onde MTPC é a média das notas dos TPC, P1 é a nota do projeto na fase 1, P2 é a nota do projeto na fase 2 e A é a nota da apresentação do projeto. A aprovação é obtida quando a nota final não é inferior a 10 valores.
-
Mobility
Mobility
No





