Plusgrade

Développeur·se fiabilité des sites// Site Reliability Engineer

Reposted Yesterday

Be an Early Applicant

Hybrid

Montréal, QC

Mid level

Hybrid

Montréal, QC

Mid level

As a Platform Developer, you will design, build, and maintain cloud-native platforms using AWS and Kubernetes, support engineering teams, and advocate DevOps practices.

The summary above was generated by AI

**English is available below***

Les voyages vont bien au-delà de leur destination ; ils sont tissés de chaque souvenir que l'on crée en chemin. Notre engagement consiste à redéfinir l'avenir du voyage en collaborant avec plus de 250 compagnies aériennes, établissements hôteliers, sociétés de croisières, réseaux ferroviaires pour voyageurs et services financiers, dans le but de créer de nouvelles sources de revenus significatives grâce à des expériences client exceptionnelles. Fondés sur nos valeurs fondamentales d'ambition, d'innovation et de collaboration, nous sommes constamment poussés à repousser les limites, à surpasser les attentes et à exploiter le meilleur de chacun. Nous favorisons une culture qui repose sur la conviction que notre force réside dans notre unité, travaillant ensemble pour bâtir un avenir extraordinaire dans l'univers du voyage. Joignez-vous à nous pour transformer les voyages quotidiens en expériences véritablement extraordinaires.

À PROPOS DU POSTE:

Plusgrade est à la recherche d’un Ingénieur fiabilité des sites (SRE) pour aider notre équipe à créer des solutions logicielles fiables répondant aux besoins de nos clients.

En tant qu’Ingénieur fiabilité des sites (SRE), tu seras responsable d’améliorer la surveillance et l’observabilité de nos différents systèmes de production ainsi que de l’infrastructure de soutien (AWS et systèmes corporatifs). Tu participeras également à la mise en œuvre de solutions visant à améliorer la disponibilité des systèmes et à garantir le respect de nos accords de niveau de service (SLA).

Pour réussir dans ce rôle, tu devras être un excellent résolveur de problèmes, doté d’une solide compréhension d’un large éventail de technologies logicielles, de concepts de réseautage, d’orchestration de conteneurs et d’outils de surveillance.

Ce poste fait partie de l’équipe Engineering Operations, est basé à Toronto ou Montréal, et relève du Directeur, opérations TI.

Nous croyons fermement qu’il existe de nombreuses opportunités stimulantes dans le domaine des technologies du voyage. Si tu es motivé à nous aider à en relever certains défis, nous aimerions te rencontrer !

CE QUE VOUS FEREZ:

• Améliorer l’alerte et la détection des problèmes au sein des déploiements et de l’infrastructure existants (services, fournisseurs tiers, etc.) afin de garantir que l’équipe des opérations reçoive des alertes rapides et pertinentes.

• Concevoir et maintenir une surveillance active testant nos services de bout en bout.

• Surveiller la latence des applications et créer des rapports pour suivre les temps de réponse par rapport aux objectifs des SLA.

• Concevoir et permettre à l’organisation de créer, améliorer ou utiliser des tableaux de bord accessibles à tous.

• Améliorer la détection des incidents et des erreurs, en assurant le suivi des actions ayant un impact sur la coordination et en favorisant une résolution plus rapide.

• Consolider les différentes solutions de surveillance afin d’améliorer l’efficacité et de réduire les coûts.

• Évaluer en continu les systèmes existants par rapport aux standards de l’industrie et formuler des recommandations d’amélioration.

• Mettre en œuvre les meilleures pratiques de l’industrie en matière de durcissement des systèmes et de gestion de la configuration.

• Améliorer le flux de déploiement et la chaîne CI/CD en renforçant l’observabilité des applications et de l’infrastructure.

VOUS ÊTES UNE PERSONNE AVEC:

• Plus de 5 ans d’expérience technique pertinente.

• Solide compréhension des protocoles réseau de base (HTTP, DNS, TLS, TCP, UDP).

• Expérience avec les déploiements Kubernetes et les définitions de ressources personnalisées (CRD).

• Capacité à dépanner ArgoCD et Argo Rollouts dans un environnement de déploiement canari.

• Bonne connaissance pratique des pare-feux applicatifs Web (WAF) et des réseaux de diffusion de contenu (CDN) tels que Cloudflare.

• Capacité à rassembler différentes sources de données (journaux, métriques, traces) pour identifier les goulots d’étranglement dans les systèmes applicatifs, au sein de notre infrastructure ou entre les services tiers.

• Esprit hautement analytique, capable de voir à la fois la vue d’ensemble et les détails.

• Excellentes compétences interpersonnelles ainsi qu’en communication écrite et orale.

• Expérience pratique dans la conception d’applications infonuagiques sécurisées, fiables, performantes, évolutives et rentables sur AWS.

• Expérience pratique avec des outils de gestion de clusters et des plateformes infonuagiques (telles qu’AWS ECS, AWS EKS, GCP, etc.).

• Capacité à écrire des scripts en Python et à analyser des traces de pile (stack traces).

• Expérience avec des outils de surveillance tels que Splunk, Datadog, New Relic, CloudWatch, Zabbix ou Prometheus.

CE SERAIT UN PLUS:

• Expérience dans la connexion d’applications et de sources de données entre différents fournisseurs.

• Certifications d’architecte AWS.

• Expérience avec Terraform et OpenTelemetry.

NOTRE STACK TECHNOLOGIQUE:

Déploiements : Helm, ArgoCD

Surveillance : Splunk, Datadog, Grafana, CloudWatch

Languages : Python, Bash

CI/CD : GitLab, GitHub, Bitbucket

Cloud : AWS en multi-régions

CE QUE VOUS AIMEREZ CHEZ NOUS:

🏦 REER de contrepartie

🏥 Plans de santé complets

📅 Programme de congés payés flexible

✈️ Allocation d’expérience de voyage

🧘 Crédit annuel pour bien-être

🥗 Événements d'équipe

💻 Allocation pour des fournitures de bureau / transport

🌅 Programme de travail à distance

🍼 Programme de prime de congé parental

🌍 Passeport pour l'aventure

NOTRE PROCESSUS:Plusgrade est un employeur offrant des chances égales et s'engage à fournir un processus de recrutement accessible. Nous accueillons les candidatures de toutes les personnes qualifiées et nous sommes engagés à offrir des opportunités d'emploi égales, quel que soit l'identité ou l'expression de genre, la race, l'origine ethnique, la croyance, le lieu d'origine, l'âge, le sexe, l'état civil, le handicap physique ou mental, l'orientation sexuelle et toute autre catégorie protégée par la loi. Sur demande, nous fournirons un hébergement pour les candidats handicapés.Nous croyons en la diversité et l'inclusivité, c'est pourquoi notre processus d'entrevue est conçu pour offrir une expérience de candidat positive et garantir que chaque candidat est évalué de manière égale.

Toutes les candidatures seront examinées par notre équipe de talents et le ou les candidats retenus passeront par le processus de recrutement suivant:

• Entrevue téléphonique avec le recruteur.se

• Entrevue avec le responsable de l'embauche

• Test pratique à domicile ou exercice de codage à distance (le cas échéant)

• Entrevue en équipeTous les candidats recevront des commentaires, qu'ils réussissent ou non toutes les étapes de notre processus d'entrevue. Toutes vos informations seront confidentielles.

------------------------

Travel is not just about the destination; it's about every memory made along the way. We are dedicated to shaping the future of travel by partnering with 250+ airline, hospitality, cruise, passenger rail, and financial services companies to create new, meaningful revenue streams through incredible customer experiences. Rooted in our core values of being ambitious, innovative, and collaborative, we are driven to continuously raise the bar, exceed expectations, and bring out the best in everyone, fostering a culture where we believe we are better together, working towards an extraordinary future in travel. Come help us transform everyday travel into extraordinary experiences.

ABOUT THE ROLE:

Plusgrade is searching for a Site Reliability Engineer (SRE) to help our team in creating reliable software solutions that meet our clients' needs.

As a Site Reliability Engineer (SRE) you will be responsible for improving the monitoring and observability of our various production systems and supporting infrastructure (AWS and corporate systems). You will also assist with implementing solutions to improve uptime and ensure that we are meeting our service level agreements.

To be successful as a Site Reliability Engineer (SRE), you should be an expert problem solver with a strong understanding of a broad range of software technologies, networking concepts, container orchestration and monitoring tools available.

This position is part of the Engineering Operations organization, will be located in Toronto/Montreal and will report into the Director IT Operations.

We firmly believe there are many challenging opportunities in travel technology. If you are excited about helping us solve some of them, we would like to meet you!

WHAT YOU WILL BE DOING:

• Improve alerting and detection of issues within existing deployment and infrastructure (services, 3rd parties, etc) ensuring Operations team receives quick and useful alerts

• Build and maintain active monitoring that tests our services end-to-end.

• Monitor application latency and create reports to track response times against SLA targets.

• Design and enable organization to build, improve or consume Dashboards, accessible to everybody

• Improve incident and error detection, with followup on actions that are impacting coordination, and a faster solutioning.

• Consolidate disparate monitoring solutions to improve efficiency and reduce cost.

• Continuously evaluate existing systems with industry standards, and make recommendations for improvement

• Implement industry best practices for system hardening and configuration management

• Improve deployment flow and pipeline by enhancing application or infrastructure observability

YOU ARE SOMEONE WITH:

• 5+ years of relevant technical experience.

• Solid understanding of basic network protocols (HTTP, DNS, TLS, TCP, UDP)

• Experience with Kubernetes deployments and custom resource definitions.

• Able to troubleshoot ArgoCD and Argo Rollouts in a canary deployment setup.

• Good working knowledge of web application firewalls and content delivery networks such as Cloudflare.

• Ability to pull together different sources of data (logs, metrics, traces) to find bottlenecks in application systems, within our infrastructure and between 3rd parties.

• Highly analytical mindset, with an ability to see both the big picture and the details.

• Exceptional interpersonal, written, and oral communication skills.

• Hands-on experience building secure, reliable, performant, scalable and cost effective cloud applications in AWS.

• Hands-on experience with cluster management tools and cloud platforms (such as AWS ECS, AWS EKS, GCP, etc. ).

• Able to write scripts in Python and parse stack traces.

• Experience with monitoring tools such as Splunk, Datadog, New Relic, CloudWatch, Zabbix, or Prometheus.

NICE TO HAVES:

• Experience connecting applications and data sources between different providers

• Architect certifications with AWS.

• Experience with Terraform and OpenTelemetry.

OUR TECH STACK:

Deployments: Helm, ArgoCD

Monitoring: Splunk, Datadog, Grafana, CloudWatch

Languages: Python, Bash

CI/CD: GitLab, Github, Bitbucket

Cloud: AWS in multi-regions

WHAT YOU’LL LOVE ABOUT US:

🏦RRSP/401(k) Matching

🏥Comprehensive health plans

📅Flexible Paid Time Off

✈️Annual upgrade credit

🏋️‍♀️Annual physical wellness credit

🧘Annual mental wellness credit

📍Flexibility to work remotely

🍼 Parental Leave Top Up

🌍 Adventure Pass

OUR PROCESS: Plusgrade is an equal-opportunity employer and is committed to providing an accessible recruitment process. We welcome applications from all qualified individuals and are committed to equal employment opportunities regardless of gender identity or expression, race, ethnic origin, creed, place of origin, age, sex, marital status, physical or mental disability, sexual orientation, and any other category protected by law. Upon request we will provide accommodation for applicants with disabilities. If you have a preference regarding the language of your interviews, please inform our Talent Team when they reach out to you.

All applications will be reviewed from our Talent Team and the successful candidate(s) will go through the following recruitment process:

Recruiter Phone Interview

Hiring Manager Interview

Take-home Assessment or remote coding exercise

Team Interview

All candidates will be provided with feedback regardless if they pass or didn’t pass any of our interview stages. All your information will be kept confidential.

Top Skills

AWS

Bash

DynamoDB

Elasticsearch

Gitlab

Helm

Kubernetes

MySQL

Postgres

Python

Terraform

2200 Rue Stanley, Montréal, Quebec , Canada, H3A 1R6

Similar Jobs

ServiceNow

Customer Success Manager

4 Hours Ago

Remote or Hybrid

Montréal, QC, CAN

Mid level

Artificial Intelligence • Cloud • HR Tech • Information Technology • Productivity • Software • Automation

The Associate Customer Success Manager leads customer interactions, manages the Customer Impact Plan, ensures onboarding, drives customer success, and conducts business reviews to enhance satisfaction and retention.

Top Skills: AIData Analytics

UL Solutions

Proposal Coordinator - Building and Construction

Yesterday

Hybrid

Varennes, QC, CAN

Entry level

Automotive • Professional Services • Software • Consulting • Energy • Chemical • Renewable Energy

The Proposal Coordinator supports account managers by reviewing bids, coordinating contract reviews, ensuring data accuracy, and addressing client issues.

Top Skills: CRMData AnalyticsFinancial SystemsExcel

Lansweeper

Senior Back-end Engineer

2 Days Ago

Hybrid

Montréal, QC, CAN

Senior level

Cloud • Information Technology • Software

As a Senior Back-End Engineer, you will design, build, and maintain robust server-side applications, optimize performance, and ensure code quality through collaboration and technical leadership.

Top Skills: ClickhouseGitGoKafkaKubernetesMongoDBNode.jsPostgres

What you need to know about the Montreal Tech Scene

With roots dating back to 1642, Montreal is often recognized for its French-inspired architecture and cobblestone streets lined with traditional shops and cafés. But what truly sets the city apart is how it blends its rich tradition with a modern edge, reflected in its evolving skyline and fast-growing tech industry. According to economic promotion agency Montréal International, the city ranks among the top in North America to invest in artificial intelligence, making it le spot idéal for job seekers who want the best of both worlds.

Key Facts About Montreal Tech

Number of Tech Workers: 255,000+ (2024, Tourisme Montréal)
Major Tech Employers: SAP, Google, Microsoft, Cisco
Key Industries: Artificial intelligence, machine learning, cybersecurity, cloud computing, web development
Funding Landscape: $1.47 billion in venture capital funding in 2024 (BetaKit)
Notable Investors: CIBC Innovation Banking, BDC Capital, Investissement Québec, Fonds de solidarité FTQ
Research Centers and Universities: McGill University, Université de Montréal, Concordia University, Mila Quebec, ÉTS Montréal

Plusgrade

Développeur·se fiabilité des sites// Site Reliability Engineer

Top Skills

Plusgrade Montréal, Québec, CAN Office

Similar Jobs

Customer Success Manager

Proposal Coordinator - Building and Construction

Senior Back-end Engineer

What you need to know about the Montreal Tech Scene

Key Facts About Montreal Tech