En France, le milieu de la Data Science connaît bien, de réputation au moins, la société Dataïku et son Data Science Studio qui s’est imposé comme l’une des plateformes SaaS les plus performantes du marché. Le cadran Gartner a reconnu la société qui est aujourd’hui implantée à New-York.
Si la plateforme peut être installée sur les serveurs de l’entreprise, il est également possible de l’utiliser, supportée par les ressources du Cloud, en particulier, le cloud Azure de Microsoft.
Nous allons commencer par créer un groupe de ressources Azure dédié à Dataïku DSS.
Dans la Market Place Azure, nous trouvons deux entrées :
- Dataïku Enterprise Ready AI
- Dataïku Trial (sandbox)
Nous allons commencer par la version “bac à sable” et de prochains articles traiteront de la version Enterprise.
La tarification se fait sur le temps où la machine virtuelle Linux est allumée, et en fonction du type de machine choisie.
Le choix de la configuration d’installation se fait entre deux modes :
- Dev/Test
- Production
La configuration de la machine virtuelle se termine en choisissant une image contenant l’installation de Dataïku DSS.
Nous disposerons ainsi de la version 9 de Dataïku DSS, dont le descriptif est disponible sur cette page.
Il sera sûrement nécessaire de se connecter directement à cette machine et nous choisissons le mode SSH, qui demandera la création d’un clé privée, à télécharger sur le poste depuis lequel nous accèderons à la machine. Pensez à utiliser WSL pour faciliter toutes les opérations en lien avec les machines virtuelles Linux ! Mais attention, en version sandbox, les répertoires d’installation de Dataïku ne seront pas accessibles. Cela nous empêchera en particulier d’installer un driver JDBC nécessaire pour communiquer avec une ressource Azure Synapse Analytics mais nous y reviendrons dans un prochain article.
Il ne sera enfin pas possible de se connecter avec une identité présente dans l’annuaire Azure AD.
Nous terminons le processus de création sur un récapitulatif tarifaire, indiquant bien que nous ne serons facturés que sur l’utilisation de la machine virtuelle.
Il suffit maintenant de saisir l’IP publique de la machine virtuelle Linux dans un navigateur (connexion http non sécurisée pouvant lever une alerte dans votre navigateur).
Sans licence, nous cliquons sur “NO” afin d’entamer la phase d’évaluation du produit ou son utilisation gratuite (Free Edition).
Le Studio est maintenant prêt et nous disposons d’un login / password (admin /admin par défaut) pour nous reconnecter ultérieurement.
Nous voici dans le Data Science Studio.
Si vous utilisez à plusieurs cette ressource, il est recommandé de créer d’autres comptes utilisateurs.
De prochains articles viendront présenter les interactions de Dataïku DSS avec différentes ressources Azure :
- Azure Storage Account (blob ou Data Lake gen2) pour le stockage de données
- Azure Synapse Analytics – SQL pool (anciennement DataWarehouse) comme source de données ou cible d’écriture
- Azure Synapse Analytics – Spark pool comme ressource de calcul, en particulier pour les entrainements
- Azure Kubernetes Services en particulier pour le serving de modèles