The Senior ML Platform Engineer will develop scalable machine learning solutions, manage ML infrastructure, and ensure observability in ML workflows while collaborating with cross-functional teams.
Mistplay est l'application de fidélité n°1 pour les joueurs mobiles. Notre communauté de millions de joueurs mobiles engagés utilise Mistplay pour découvrir de nouveaux jeux et gagner des récompenses. Les joueurs sont récompensés pour le temps et l'argent qu'ils consacrent aux jeux et peuvent échanger ces récompenses contre des cartes cadeaux. Mistplay a pour mission d'être le meilleur moyen de jouer à des jeux mobiles pour tous, partout dans le monde ! Téléchargez Mistplay sur le Google Play Store ici et suivez-nous sur Instagram, Twitter et Facebook.
📍 Veuillez noter : Au Canada 🇨🇦, Mistplay suit un modèle hybride de 2 jours/semaine en bureau à Toronto (400 University Ave) & Montréal (1001 Blvd. Robert-Bourassa)
Mistplay is the #1 loyalty app for mobile gamers. Our community of millions of engaged mobile gamers come to Mistplay to discover new games to play and earn rewards. Gamers are rewarded for their time and money spent within the games and can redeem those rewards for gift cards. Mistplay is on a mission to be the best way to play mobile games for everyone everywhere! Download Mistplay on the Google Play Store here and follow us on Instagram, Twitter and Facebook.
📍 Please Note: In Canada 🇨🇦, Mistplay follows a 2 days/week in-office hybrid model in Toronto (400 University Ave) & Montreal (1001 Blvd. Robert-Bourassa)
English Description is Below ⬇️
Rattaché au vice-président de la plateforme de données et d'apprentissage automatique (Data and Machine Learning Platform), l'ingénieur Staff en plateforme ML au sein de l'équipe de données de Mistplay jouera un rôle clé dans la recherche et le développement de solutions d'apprentissage automatique pour résoudre des problèmes commerciaux complexes. L'ingénieur Staff en plateforme ML travaillera en étroite collaboration avec une équipe interfonctionnelle pour identifier les domaines à améliorer, concevoir et mettre en œuvre des solutions évolutives. L'expérience pertinente peut aller de l'infrastructure de travail et des logiciels pour prendre en charge les applications d'apprentissage automatique sur une grande variété de systèmes de recommandation en ligne, de systèmes d'apprentissage par renforcement ou d'autres applications d'apprentissage automatique en ligne.
Ce que vous ferez
Être le principal moteur et expert pour la conception, la construction et l'exploitation de :
• Solutions d'infrastructure machine et de données pour l'entraînement des modèles.
• Systèmes d'inférence en temps réel pour exploiter et servir des modèles dans un environnement de production en temps réel.
• Capacités de plateforme de fonctionnalités de haute convivialité et précision pour générer, remplir rétrospectivement et stocker des fonctionnalités au niveau de l'utilisateur.
• Couche de service de fonctionnalités à haute précision et faible latence, et solutions de pré-traitement pour prendre en charge le service en ligne des modèles.
• Construire des abstractions de plateforme et des chemins dorés (golden paths) : modèles Airflow DAG, CLI/SDK, dépôts cookie-cutter et pipelines CI/CD qui font passer les modèles des notebooks à la production de manière prévisible.
• Mettre en œuvre l'observabilité de bout en bout : vérifications de la fraîcheur des données/fonctionnalités, portes de dérive/qualité, SLO de performance/latence des modèles, tableaux de bord de santé de l'infrastructure, traçage et alertes, plus réponse aux incidents et analyses post-mortem.
• Collaborer avec la sécurité, SRE et l'ingénierie des données sur les réseaux privés, la politique en tant que code, la gestion des informations personnelles identifiables (PII), la gestion des accès et des identités (IAM) du moindre privilège et les architectures rentables dans tous les environnements.
• Évaluer, intégrer et rationaliser les outils de plateforme (par exemple, registre MLflow, magasins de fonctionnalités, passerelles de service); mener des migrations avec une gestion claire des changements et un temps d'arrêt minimal.
Ce que vous apporterez
• 10 ans et plus d'expérience dans la construction et l'exploitation de plateformes ML/de données de qualité production, en mettant l'accent sur le service, la fiabilité et l'expérience développeur.
• Solides compétences en génie logiciel en Python, Go ou Java; expérience dans la création de services résilients, d'API et d'outils d'automatisation avec une couverture de tests élevée.
• Expérience approfondie avec les solutions d'inférence : configuration de point de terminaison, conteneurisation, packaging de modèles, mise à l'échelle automatique (autoscaling), compromis entre sans serveur (serverless) et temps réel, MME, déploiements A/B et canary.
• Expertise des paradigmes de magasin de fonctionnalités en ligne (online feature store) et des solutions de stockage sous-jacentes dans les contextes de service ML.
• Expérience avérée avec Terraform pour la gestion de l'infrastructure ML et de données de bout en bout : modules, espaces de travail, détection de dérive, révisions de changements et restaurations sécurisées (safe rollbacks); familiarité avec les modèles GitOps.
• Orchestration Airflow à grande échelle : modélisation de dépendances, capteurs, nouvelles tentatives, ANS (SLAs), remplissages rétrospectifs (backfills), usines de DAG et intégrations avec les registres, les magasins d'artefacts et les pipelines Terraform.
• Familiarité avec les frameworks ML (scikit-learn, XGBoost, PyTorch, TensorFlow) du point de vue de l'intégration de la plateforme pour prendre en charge divers environnements d'exécution (runtimes) et conteneurs.
• Observabilité pour les flux de travail ML : métriques/journaux/traces, profilage des performances, planification de la capacité, surveillance des coûts et procédures d'exécution (runbooks).
• Excellente communication et collaboration interfonctionnelle avec la Science des Données, l'Ingénierie des Données, le DevOps et le Backend.
English Description:
Reporting to the VP of Data and Machine Learning Platform, the Staff ML Platform Engineer within Mistplay’s Data Team will play a key role in researching and developing machine learning solutions to solve complex business problems. The Staff ML Platform Engineer will work closely with a cross-functional team to identify areas for improvement and design and implement scalable solutions. Relevant experience can range from working infrastructure and software to support machine learning applications on a wide variety of online recommendation systems, reinforcement learning systems or other online machine learning applications.
What you’ll do:
Be the main driver and expert for designing, building, and operating:
• Machine and data infrastructure solutions for training models
• Real-time inference systems to operate and serve models in a real time production environment.
• High usability and accuracy feature platform capabilities for generating, backfilling and storing user level features.
• High accuracy low latency feature serving layer and preprocessing solutions to support online serving of the models
• Build platform abstractions and golden paths: Airflow DAG templates, CLI/SDKs, cookie-cutter repos, and CI/CD pipelines that take models from notebooks to production predictably.
• Implement end-to-end observability: data/feature freshness checks, drift/quality gates, model performance/latency SLOs, infra health dashboards, tracing, and alerting—plus incident response and postmortems.
• Partner with Security, SRE, and Data Engineering on private networking, policy-as-code, PII handling, least-privilege IAM, and cost-efficient architectures across environments.
• Evaluate, integrate, and rationalize platform tooling (e.g., MLflow registry, feature stores, serving gateways); lead migrations with clear change management and minimal downtime.
What you’ll bring:
• 10+ years building and operating production-grade ML/data platforms with a focus on serving, reliability, and developer experience.
• Strong software engineering in Python, Go, or Java; experience building resilient services, APIs, and automation tooling with high test coverage.
• Deep experience with inference solutions: endpoint configuration, containerization, model packaging, autoscaling, serverless vs. real-time trade-offs, MME, A/B and canary releases.
• Expertise with online feature store paradigms and underlying storage solutions in ML serving contexts.
• Proven Terraform experience managing ML and data infra end-to-end: modules, workspaces, drift detection, change reviews, and safe rollbacks; familiarity with GitOps patterns.
• Airflow orchestration at scale: dependency modeling, sensors, retries, SLAs, backfills, DAG factories, and integrations with registries, artifact stores, and Terraform pipelines.
• Familiarity with ML frameworks (scikit-learn, XGBoost, PyTorch, TensorFlow) from a platform-integration perspective to support diverse runtimes and containers.
• Observability for ML Workflows: metrics/logs/traces, performance profiling, capacity planning, cost monitoring, and runbooks.
Excellent communication and cross-functional collaboration with Data Science, Data Engineering, DevOps and Backend.
*Nous remercions tous(tes) les candidat(e)s. Le genre masculin a été utilisé dans le but d'alléger le texte. Nous souscrivons au principe de l’équité en matière d’emploi.
Pourquoi choisir Mistplay ?
Nous faisons tout pour rendre notre environnement de travail aussi accueillant et plaisant que possible ! Un poste chez Mistplay s’accompagne de toute une série d'avantages que nous proposons en mode virtuel ou présentiel : déjeuners d'équipe, soirées jeux, événements à l'échelle de l'entreprise, et bien plus encore.
Notre culture est profondément ancrée dans la croissance et soutenue par une équipe de personnes intelligentes, dynamiques et enthousiastes. Nous utilisons les données pour apprendre, améliorer et adapter en permanence. Nous favorisons un environnement dans lequel chacun est encouragé à partager ses idées, à repousser les limites, à prendre des risques calculés et à voir ses visions se concrétiser.
Why Mistplay?
We strive to make our work environment as inviting and fun as possible! Working at Mistplay is coupled with a whole array of perks that we've adopted virtually and in-person: Team Lunches, game nights, company-wide events, and so much more. Our culture is deeply rooted in growth and upheld by a team of smart, dynamic, and enthusiastic people. We utilize data to constantly learn, improve, and adapt. We foster an environment where everyone is encouraged to share their ideas, push boundaries, take calculated risks, and witness their visions come to life.
Top Skills
Airflow
Aws Sagemaker
Go
Java
Python
PyTorch
Redis
Scikit-Learn
TensorFlow
Terraform
Xgboost
Mistplay Montréal, Québec, CAN Office
481 Avenue Viger O, Montréal, Quebec, Canada, H2Z 1G6
Similar Jobs
Cloud • Information Technology • Security • Software • Cybersecurity
As a Forward Deployed Engineer, you will work closely with a strategic customer to develop and deploy solutions using Cloudflare's platform, influencing product direction and maintaining operational success.
Top Skills:
Artificial IntelligenceAWSAzureCloudflareGCPModern FrameworksProduction Applications
Big Data • Fintech • Information Technology • Business Intelligence • Financial Services • Cybersecurity • Big Data Analytics
Provide legal counsel on product development, privacy (PIPEDA) and consumer reporting compliance, draft and negotiate commercial contracts and policies, support data governance, train internal teams, and advise senior management on legal risk mitigation.
Big Data • Fintech • Information Technology • Business Intelligence • Financial Services • Cybersecurity • Big Data Analytics
Lead the product roadmap and full PDLC for Credit Risk Solutions in Canada, focusing on alternative data and emerging credit approaches. Collaborate with cross-functional and international teams to define requirements, validate use cases, drive go-to-market execution, and achieve revenue and market growth objectives.
What you need to know about the Montreal Tech Scene
With roots dating back to 1642, Montreal is often recognized for its French-inspired architecture and cobblestone streets lined with traditional shops and cafés. But what truly sets the city apart is how it blends its rich tradition with a modern edge, reflected in its evolving skyline and fast-growing tech industry. According to economic promotion agency Montréal International, the city ranks among the top in North America to invest in artificial intelligence, making it le spot idéal for job seekers who want the best of both worlds.
Key Facts About Montreal Tech
- Number of Tech Workers: 255,000+ (2024, Tourisme Montréal)
- Major Tech Employers: SAP, Google, Microsoft, Cisco
- Key Industries: Artificial intelligence, machine learning, cybersecurity, cloud computing, web development
- Funding Landscape: $1.47 billion in venture capital funding in 2024 (BetaKit)
- Notable Investors: CIBC Innovation Banking, BDC Capital, Investissement Québec, Fonds de solidarité FTQ
- Research Centers and Universities: McGill University, Université de Montréal, Concordia University, Mila Quebec, ÉTS Montréal


