filmeu

Class Big Data Analysis

  • Presentation

    Presentation

    Large amounts of data are generated all the time nowadays, whether it is in our online activity, shopping or financial data. This data, although extremely useful, is heterogeneous, noisy and incomplete. In this course, we will cover topics in data science, exploring techniques and algorithms that can be used for the analysis and visualisation of large databases.
  • Code

    Code

    ULHT1504-25631
  • Syllabus

    Syllabus

    Exploratory data analysis Dimensionality reduction: linear models Principal Component Analysis with SVD Factor analysis Matrix sketching Generalized Low-Rank Models Dimensionality reduction: non-linear models Kernel PCA ISOMAP Clustering Hierarchical Clustering Assignment Clustering (k-means) Spectral Clustering
  • Objectives

    Objectives

    The main focus of the course will be on techniques for (pre-)processing the data to find important structural properties of the data, rather than on the subsequent learning processes. Thus, it is intended that students will be able to understand the role of exploratory analysis for Big Data, the assumptions and implications of learning methods when applied to Big Data and that they will be able to acquire knowledge about optimization methods for large-scale processing learning. Homework and project will help consolidate the concepts as well as provide students with practical knowledge of data processing tools.
  • Teaching methodologies

    Teaching methodologies

    The curricular unit works in tutorial mode, with videos being made available and papers/links being suggested for students to read and analyse.  The assessment consists of:       - homework (45%);       - final project submitted in two phases (55%).
  • References

    References

    Learning from Data: Abu-Mostafa, Magdon-Ismail, and Lin 2012 AMLBook Foundations of Data Science: Hopcroft and Kannan 20320 Cambridge University Press Mining of Massive Datasets: Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman 2014 Cambridge University Press Python machine learning: Raschka 2015 Packt Publishing Ltd Generalized low rank models: M. Udell, C. Horn, R. Zadeh, and S. Boyd, 2016 Foundations and Trends in Machine Learning  
  • Assessment

    Assessment

    A avaliação desta unidade curricular é constituida pelos seguintes componentes:

    1.   Dois trabalhos de casa que consistem na resolução de problemas práticos com dados reais. Os trabalhos são realizados fora do contexto da sala de aula. Os trabalhos, designados de TPC, são submetidos via Moodle em data a combinar. Os trabalhos serão avaliados numa escala de 0 a 20, sendo a nota final dos trabalhos de casa a média aritmética das notas obtidas.

    2.   Projeto final, entregue em duas fases e com apresentação oral na última semana do semestre. O objetivo é os alunos escreverem um resumo alargado (1 página) na primeira fase, que evoluirá para um artigo (4-6 páginas) na segunda fase. As duas fases do trabalho serão avaliadas numa escala de 0 a 20, tendo a primeira fase um peso relativo de 25% e a segunda fase 65%. A apresentação tem um peso relativo de 10% na nota do projeto.

    A nota final é obtida por:

    NF=0.45*MTPC+0.55*(0.25*P1+0.65*P2+0.1*A),

    Onde MTPC é a média das notas dos TPC, P1 é a nota do projeto na fase 1, P2 é a nota do projeto na fase 2 e A é a nota da apresentação do projeto. A aprovação é obtida quando a nota final não é inferior a 10 valores.

SINGLE REGISTRATION
Lisboa 2020 Portugal 2020 Small financiado eu 2024 prr 2024 republica portuguesa 2024 Logo UE Financed Provedor do Estudante Livro de reclamaões Elogios entidade signataria