About the role
Vous revez de contribuer à un projet open source autour de l'IA, rejoignez-nous !" Bruno manager
Avec Khiops [1] l'apprentissage automatique sur des données tabulaires devient un jeu d'enfant. Comme les données proviennent de sources et processus très divers, il est temps pour Khiops d'accueillir et donc de supporter en entrée de nouveaux formats de données. Ce stage consiste à étudier le format Parquet qui permet un accès rapide aux données et à déterminer les évolutions nécessaires de l'interface d'entrée/sortie de Khiops pour permettre son intégration.
Le principal verrou est la nature compressée et structurée du format Parquet, tandis que Khiops manipule habituellement des fichiers de type CSV au format texte. Avec Khiops de nombreux traitements sont possible, impliquant des indexations et conversions des données vers des types natifs. Cette différence de format implique qu'il faudra chercher des solutions afin que Khiops puisse accéder aléatoirement et efficacement au contenu mais également bénéficier des métadonnées contenues dans les fichiers Parquet afin de convertir correctement les enregistrements.
Dans un premier temps le support de ce format sera prototypé sous forme de module indépendant, afin de valider la faisabilité de l'extraction des informations nécessaires à Khiops. Ce module s'appuiera sur le SDK Apache Arrow [3] et pourra servir de base à l'implémentation finale. Dans une seconde phase, il s'agira de faire évoluer le composant chargé de l'interfaçage avec les différents service de stockage des principaux clouds (Google, Amazon, Azure) afin de permettre toutes les combinaisons [ cloud x format de données ], ceci afin de permettre l'intégration future de nouveaux formats de données.
[1] Khiops https://khiops.org
[2] Apache Parquet https://parquet.apache.org,
[3] Apache Arrow https://github.com/apache/arrow
about you
Profil souhaité :
• BAC + 5, Master informatique ou école d'ingénieur. Appétence pour la programmation en mode agile, pour le développement d'outils destinés au grand public
Compétences :
- Connaissances en C/C++
- Génie logiciel
- Une connaissance du Big Data et des stockages associés serait un plus
Ce stage dans un cadre exceptionnel, est une opportunité de découvrir une magnifique région, à 5km de la mer, pour pratiquer des sports nautiques ou sous-marins. Il faut avoir son permis B obligatoirement ! "Bruno, manager
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.