Ressource en Data engineering?

freedumz

Chasseur de castors
Salut les experts,

Je suis actuellement en train de regarder pour switcher vers la data engineering, d'abord pour moi et ensuite pour mon taff
Et comme sur gamerz, nous avons une communauté d'experts, je me demandais si certains d'entre vous étaient familliés avec ce boulot
Actuellement, je fais (pour ce qui touche aux données) principalement du SSRS,SSIS,Power BI, stored proc,... Je fais également un peu de python pour créer mes propres visualisations dans Power BI, mais ça s'arrete là
Apres avoir parcourrur des reddits en tres grand nombres, il me semble que la top priorité est de gérer Python et Scala, je suis donc en train de refaire du pyton (je suis un bootcamp sur Udemy pour faire un refresh de tout ça)
Je me suis également pris un abonnement sur data camp pour avoir un chemin à suivre, mais généralement, j'aime bien avoir une liste de reference pour m'appuyer dessus, et je me demandais si certains d'entre vous auraient des ressources à me conseiller?

De plus, j''ai vu que l'Unamur proposait ce genre de cursus en 1jour semaine : https://formation-continue.unamur.be/data-science à 3500€, mais j'ai un peu peur que ce ne soit pas non plus la formation la plus à jour
Apprament, https://datascientest.com/ a des excellents retours, mais on est encore plus cher (5000€)

Est ce que le prix pratiqué par ce genre de formation est justifié?Je pense qu'il serait judicieux, si je decide à suivre un truc de ce genre, à la suivre avant de changer de taff pour que tout soit encore frais dans ma tête non?

Merci d'avance pour vos retours
 

ailless

Asimov, Sagan, Carlin, Hitchens
Hello,

il faut déjà bien comprendre ce que tu aimerais faire car il y a plein de buzzwords autour de la manipulation de données.

Data scientist vs data analyst vs data engineer vs machine learning (ML) vs deep learning (DL), c'est un peu différent.

Python est très utilisé pour tout ce qui est machine learning. Scala c'est quand tu veux utiliser Spark (jouer avec des données à grandes échelles) mais tu peux utiliser PySpark qui est spark via Python. Donc Scala, t'en n'as pas besoin au final.

Le programme pour l'UNamur semble correct sur papier si tu veux apprendre les bases du machine learning et deep learning.

Si c'est vraiment ça qui t'intéresse au final, regarde du côté de kaggle.com t'as même des cours intéressants.

Data engineering c'est plus créer des pipelines de traitement de données pour passer de source de données à un répertoire central de données propres prêtes à être utilisées pour du ML/DL et autres tâches qui touchent à l'analyse de données pour du reporting (BI).

Bref, avant de pouvoir mieux t'aiguiller, il faut comprendre ce que tu aimerais faire au final genre à la suite de ta préparation, tu te vois faire quoi tous les jours?
 

ailless

Asimov, Sagan, Carlin, Hitchens
R et Python sont très bien pour tout ça sauf que R est seulement pour ça au final, Python permet de faire plein d'autres trucs à côté qui ne sont pas liés à la donnée.

Je conseillerais donc plus du Python pour commencer mais ne clairement pas dormir sur R, très chouette langage.
 
1er
OP
freedumz

freedumz

Chasseur de castors
Hello,

il faut déjà bien comprendre ce que tu aimerais faire car il y a plein de buzzwords autour de la manipulation de données.

Data scientist vs data analyst vs data engineer vs machine learning (ML) vs deep learning (DL), c'est un peu différent.

Python est très utilisé pour tout ce qui est machine learning. Scala c'est quand tu veux utiliser Spark (jouer avec des données à grandes échelles) mais tu peux utiliser PySpark qui est spark via Python. Donc Scala, t'en n'as pas besoin au final.

Le programme pour l'UNamur semble correct sur papier si tu veux apprendre les bases du machine learning et deep learning.

Si c'est vraiment ça qui t'intéresse au final, regarde du côté de kaggle.com t'as même des cours intéressants.

Data engineering c'est plus créer des pipelines de traitement de données pour passer de source de données à un répertoire central de données propres prêtes à être utilisées pour du ML/DL et autres tâches qui touchent à l'analyse de données pour du reporting (BI).

Bref, avant de pouvoir mieux t'aiguiller, il faut comprendre ce que tu aimerais faire au final genre à la suite de ta préparation, tu te vois faire quoi tous les jours?
Merci pour ton retour,
Je fais deja le taff de Data analyste, je touche ma bosse en SQL
C'est clairement la partie pour amener les données à analyser qui m'interessent, je le fais déjà de temps en temps au boulot mais avec des données "propores" (CSV, Odata, Base SQL,...) pour créer des DW, donc tout ce qui touche Snowflake/star , je suis rodé

J'ai vraiment envie d'aller à l'étape supérieur et commencer à me former dans tout ce qui touche les données non transformé, les données brutes via des api et autres

J'ai du faire un choix, et j'ai choisi python
R, j'ai un prof qui m'en avait dégouté sous matlab :burp::burp::burp:
Et je ne prefere pas me disperser, d'abord augmenter mes skils en python avant de switcher sur du R
 

Anewone

Elite
Je plussoie ailless et je te conseille de te familiariser avec les questions posées lors des recrutements des FAANG pour déterminer si tu possèdes les prerequis nécessaires. Ils couvrent un peu près tout ce dont tu auras besoin pour assumer ce rôle.

Btw si tu gères Python tu gères R, la documentation est suffisante pour se débrouiller (à la limite un petit coup de stackoverflow par ci par là :p)
 
1er
OP
freedumz

freedumz

Chasseur de castors
Je plussoie ailless et je te conseille de te familiariser avec les questions posées lors des recrutements des FAANG pour déterminer si tu possèdes les prerequis nécessaires. Ils couvrent un peu près tout ce dont tu auras besoin pour assumer ce rôle.

Btw si tu gères Python tu gères R, la documentation est suffisante pour se débrouiller (à la limite un petit coup de stackoverflow par ci par là :p)
Je viens de regarder pour Amazon, j'ai quand meme plus l'impression qu'il s'agit de question BI/DW que DE
Ou alors je suis pret :cool:
Enfin, je viens de changer de boulot, je compte pas partir tout de suite, mais je suis vraiment intéressé par la Data et je cherche donc à déjà me preparer pour la suite (en fonction de l'évolution du marché)
 

Anewone

Elite
Je connais seulement le processus pour les data scientists, et c’est stats / algo / ML / culture, la partie stat et ML est facile mais la partie algo c’est du leetcode medium/hard .. donc faut s’y préparer quelques mois à l’avance
 
1er
OP
freedumz

freedumz

Chasseur de castors
Je connais seulement le processus pour les data scientists, et c’est stats / algo / ML / culture, la partie stat et ML est facile mais la partie algo c’est du leetcode medium/hard .. donc faut s’y préparer quelques mois à l’avance
Enfin, perso je ne vise absolument pas les Big4/FAANG
Je suis un peu trop touche à tout, je suis pas fan d'etre segmenté, je prefere les plus petites boites où tu peux faire de tout
Idéalement, je kifferais une boite où tu t'occupes de tout le process de la data donc de l'extraction de la donnée brute jusqu'au reporting final, mais étant uniquement axé sur le luxebmourg, ça me semble compliqué à trouver
Enfin, merci pour tes retours, mais je vais probablement prendre le temps d'analyser tout le process de chaque FAANG, et imprimé les trucs que je ne sais pas afin de me permettre vers où me diriger
 

Anewone

Elite
Regarde le site (que personne ne connait en Europe) https://www.teamblind.com/ et tape le nom de l'entreprise qui t'intéresse (pour autant que ça soit pas une PME).

J'y ai appris plus là-dessus que nul part ailleurs et je l'utilise toujours aujourd'hui.
 

sTyLor

ılılı
Après BI c'est aussi du data engineering mais orienté données structurées.

Tu peux aussi regarder Microsoft qui propose un training on-line (gratuit) sur leur outils Azure. Je ne l'ai pas fini c'était surtout pour me mettre un peu à jour et voir les possibilités d'Azure au niveau big data. Ca permet de toucher à la data sur leur cloud step by step. Il y a probablement le même style de training sur les techno Amazon et Google.
 
Haut