Find your way into data related Microsoft Azure certifications

Microsoft Azure has certification paths for many technical job roles such as developer, Data Engineer, Data Scientist and solution architect among others. Each of these certifications consists of passing an exam or a serie of exams to earn a certification. In this document we provide guidance on how to dig deeper in the subject and become a Microsoft Azure certified professional. Whether you have no skills in cloud or a previous experience with AWS, GCP or any other cloud plateform, we invite your get inspiration from this guide and recommendations to reach your objectives.

For all certification paths, Microsoft provides…


Les certifications Microsoft Azure associées aux données

Microsoft Azure a des parcours de certification pour de nombreux postes techniques tels que développeur, Data Engineers, Data Scientists et architect solution, entre autres. Chacune de ces certifications consiste à passer un examen ou une série d’examens pour obtenir une certification. Dans ce document, nous vous expliquons comment approfondir le sujet et devenir un professionnel certifié Microsoft Azure. Si vous n’avez aucune expérience préalable dans le cloud, ou si vous avez une expérience avec AWS, GCP ou toute autre plateforme de Cloud public, vous pouvez suivre ce guide pour atteindre vos objectifs.

Pour tous les parcours de certification, Microsoft fourni…


Bridging the DBnomics Swagger/OpenAPI schema with GraphQL

While redacting a long and fastidious document today, I came across DBnomics, an open platform federating economic datasets. Browsing its website and APIs, I found their OpenAPI schema (aka Swagger). While browsing the schema, I kept a second tab open to download the datasets and preview the associated content. The process is not user-friendly nor developer-friendly. Discovering the schema on one side and looking at its associated content on the other side. Reading pretty-printed JSON on one side and downloading/extracting files on the other side. What if I could conveniently browse a schema and query its content. Since a few…


Parcourir DBnomics avec GraphQL et connecter sont schéma OpenAPI

Aujourd’hui, dans le cadre de la rédaction d’un long et fastidieux document, il était mentionné DBnomics, une plateforme ouverte fédérant des ensembles de données économiques. En parcourant son site Web et ses APIs, j’ai trouvé son schéma OpenAPI (aussi connu sous le nom de Swagger). J’ai parcouru le schéma tout en gardant un deuxième onglet ouvert afin de télécharger les ensembles de données et de prévisualiser leur contenu associé. Le processus est chronophage et peu productif. Découvrir le schéma d’un côté et regarder son contenu associé de l’autre côté avec la lecture de JSON joliment imprimé d’un côté et le…


Apache Liminal: when MLOps meets GitOps

Apache Liminal is an open-source software which proposes a solution to deploy end-to-end Machine Learning pipelines. Indeed it permits to centralize all the steps needed to construct Machine Learning models, from data cleaning to model deployment.

This solution proposes a declarative approach for MLOps projects. The pipeline that encapsulates the different steps for the preparation, training and deployment of your Machine Learning is written in YAML.

This file, and the Python scripts that it points to, are easily versioned using tools like Git, opening the door of a GitOps practice. GitOps describes an architecture in which the system is reproducable…


Apache Liminal, quand le MLOps rencontre le GitOps

Apache Liminal propose une solution clés en main permettant de déployer un pipeline de Machine Learning. C’est un projet open-source, qui centralise l’ensemble des étapes nécessaires à l’entrainement de modèles de Machines Learning, de la préparation des données au déploiement du modèle.

Cette solution propose une approche déclarative à vos projets orientés MLOps. La pipeline représentant les différent étapes pour la préparation, la construction et le déploiement de vos modèles de Machine Learning est décrite en YAML.

Le fichier et les scripts Python qu’il référence sont aisément versionnés dans un outil comme Git ouvrant la voie à un workflow the…


Storage size and generation time in popular file formats

Choosing an appropriate file format is essential, whether your data transits on the wire or is stored at rest. Each file format comes with its own advantages and disadvantages. We covered them in a precedent article presenting and comparing the most popular file formats in Big data. In a follow up article, we will compare their performance according to multiple scenarios. The compression used for a given format greatly impact the query performances. This article will prepare the tables needed for this follow up article and takes the opportunity to compare the compression algorithms in terms of storage spaces and…


Espace de stockage et temps de génération des formats de fichiers

Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts dans un article précédent présentant et comparant les formats de fichiers les plus populaires en Big data. Dans un article complémentaire, nous comparerons leurs performances selon plusieurs scénarios. La compression utilisée pour un format donné a un impact important sur les performances de la requête. Cet article prépare les tableaux nécessaires à l’article suivant et compare les algorithmes de compression en termes d’espace de stockage et de temps…


TensorFlow Extended (TFX) : les composants et leurs fonctionnalités

Putting Machine Learning (ML) and Deep Learning (DL) models in production certainly is a difficult task. It has been recognized as more failure-prone and time consuming than the modeling itself, yet it is the one generating the added value for a business. Moreover, once a model has been deployed, we need to maintain it. We must survey its performance, the quality of newly generated data, and the adequacy of the underlying infrastructure. When needed, the model should be retrained. The whole process must be automated, with as limited human interference as possible, to make it sustainable in the long run…


TensorFlow Extended (TFX): the components and their functionalities

La mise en production des modèles de Machine Learning (ML) et de Deep Learning (DL) est une tâche difficile. Il est reconnu qu’elle est plus sujette à l’échec et plus longue que la modélisation elle-même, mais c’est pourtant elle qui maximise la valeur ajoutée pour une entreprise. De plus, une fois qu’un modèle a été déployé, il est nécessaire de le maintenir. Nous devons évaluer ses performances, la qualité des données nouvellement générées et l’adéquation de l’infrastructure sous-jacente. Le cas échéant, le modèle doit être réentraîné. L’ensemble du processus doit être automatisé, avec une intervention humaine aussi limitée que possible…

Adaltas

Open Source consulting - Big Data, Data Science, Node.js

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store