Ingénieur(e) des systèmes/en calcul de haute performance (CHP) Tower Research Capital LLC, une société de négociation à haute fréquence pour compte propre fondée en 1998, est à la recherche d’un(e) administrateur(trice) de système Linux qui se joindra à notre équipe d’ingénierie de fiabilité des serveurs. L’équipe d’ingénierie de fiabilité des serveurs est responsable de fournir des processus et des outils novateurs pour l’exploitation des plateformes Linux de négociation à haute fréquence et de l’environnement de calcul de haute performance (CHP) de Tower. Vous devrez également proposer et encourager l’adoption des pratiques d’infrastructure en tant que code (IaC) pour rendre nos solutions de stockage évolutives et gérables, et développer nos besoins croissants en matière de processeur graphique, en équilibrant les ressources locales et infonuagiques.
Responsabilités
Appuyer, maintenir et améliorer l’infrastructure Linux de négociation de l’entreprise
Soutenir, entretenir et améliorer l’infrastructure de calcul de haute performance de la firme à des fins de recherche
Fournir du soutien pour les environnements Linux et de CHP en particulier, notamment pour ce qui suit :
Intervention d’urgence
Exécution des changements, des mises à jour et des projets de déploiement prévus au sein de l’infrastructure de serveur Linux
Gestion des systèmes de CHP pour soutenir les opérations de négociation et le
programmeur de travaux Condor
Profilage et dépannage avancés des problèmes de performance, particulièrement dans l’environnement des serveurs Linux
Contribuer au développement et au perfectionnement des outils et des systèmes pour automatiser l’approvisionnement, la configuration et la surveillance de milliers de serveurs Linux
Gérer les services de base essentiels tels que DHCP, LDAP, DNS et NFS pour les centres de données sur place et hébergés, ainsi que les nuages publics
Participer à une rotation de travail de garde et à des quarts occasionnels de fin de semaine
Participer à des communications directes quotidiennes avec les équipes de négociation et l’équipe centrale d’ingénierie
Rester à jour des dernières technologies et pratiques exemplaires en matière de calcul de haute performance, de stockage et d’unité de traitement graphique.
Compétences
Expérience en maintenance, exploitation et administration d’un environnement Linux suffisamment avancé
Utilisation quotidienne et contribution au développement d’outils d’automatisation et de surveillance
Compréhension approfondie des concepts et des fonctionnements internes du système d’exploitation Linux
Connaissance pratique du matériel et des composants du serveur sur Intel
Bonne connaissance de Python, connaissance approfondie de Bash pour les tâches de scripts et d’automatisation dans un environnement Linux
Compréhension du réseautage côté serveur et des protocoles réseau typiques de Linux? Participation à des projets libres ou personnels, un atout
Compréhension de la gestion de la configuration, du contrôle des sources, de CI/CD et du déploiement automatisé de Linux
Solides compétences en communication et capacité à travailler efficacement en équipe.
Compétences souhaitées
Expérience avec les outils de conteneurisation et d’orchestration (p. ex., Docker, Kubernetes).
Connaissance des plateformes infonuagiques et des environnements infonuagiques hybrides.
Connaissance des systèmes de fichiers parallèles (p. ex., GPFS), des systèmes de traitement par lots (p. ex., Slurm, Grid Engine, Condor) et des interconnexions réseau haute performance.
Expérience avec les solutions de stockage VAST et Weka, un atout.
Solide compréhension de l’infrastructure des marchés et des systèmes à faible latence.
Excellentes compétences en résolution de problèmes et capacité à travailler dans un environnement dynamique où les activités se déroulent à un rythme rapide.
Compétences en gestion d’environnements hybrides infonuagiques et locaux.
Expérience dans la proposition et la mise en œuvre complète de pratiques d’infrastructure en tant que code (IaC).
Avantages
Le bureau de Tower est situé au centre-ville de Montréal et est facilement accessible par le transport en commun. Il est vrai que nous travaillons dur, mais le milieu de travail sans cubicule de Tower, son personnel en jeans et ses cuisines bien approvisionnées reflètent fidèlement l’importance que place l’entreprise sur la qualité de vie.
Parmi les avantages :
Salaire concurrentiel et primes discrétionnaires
Cinq semaines de vacances payées par année
Dîner et collations au quotidien
Remboursement des frais de santé et de bien-être
Événements et ateliers gratuits
Tower Research Capital est un employeur qui souscrit au principe de l’égalité d’accès à l’emploi.
Tower Research Capital LLC, a high-frequency proprietary trading firm founded in 1998, seeks a Linux System Administrator to join our Server Reliability Engineering team. The Server Reliability Engineering organization is responsible for providing innovative processes and tools for the operation of Tower's high-frequency Linux-based trading platforms and High Performance Computing Environment (HPC). You will also be expected to propose and drive the adoption of Infrastructure as Code (IaC) practices to make our storage solutions scalable and manageable, and develop our growing needs with GPU, balancing on-premises and cloud-based resources.
Responsibilities
Supporting, maintaining, and enhancing the firm's trading Linux infrastructure
Supporting, maintaining, and enhancing the firm's HPC infrastructure for research
Providing support specifically for the Linux and HPC environments including:
Emergency response
Execution of planned changes, updates, and deployment projects within the Linux server infrastructure
Manage HPC systems to support trading operations and Condor Job scheduler
Advanced profiling and troubleshooting of performance issues specifically within the Linux servers environment
Contributing to the development and refinement of tools and systems to automate provisioning, configuration, and monitoring of thousands of Linux servers
Management of essential core services such as DHCP, LDAP, DNS, and NFS for on-prem and hosted data centers as well as public clouds
Participating in an on-call rotation and occasional weekend shifts
Engaging in daily direct communication with trading teams and core engineering
Stay up-to-date with the latest technologies and best practices in HPC, storage, and GPU computing.
Qualifications
Experience in maintenance, operation, and administration of a sufficiently advanced Linux environment
Daily use of and contribution to developing automation and monitoring tools
Comprehensive understanding of Linux OS concepts and internals
Working knowledge of Intel-based hardware and server components
Good knowledge of Python, expert knowledge of Bash for scripting and automation tasks in a Linux environment
Understanding of Linux server-side networking and typical network protocols
Participation in open source or personal projects is a plus
Understanding of Linux configuration management, source control, CI/CD, and automated deployment
Strong communication skills and the ability to work effectively in a team.
Preferred Qualifications
Experience with containerization and orchestration tools (e.g., Docker, Kubernetes).
Familiarity with cloud computing platforms and hybrid cloud environments.
Knowledge of parallel file systems (e.g., GPFS), batch systems (e.g., Slurm, Grid Engine, Condor), and high-performance network interconnects.
Experience with VAST and Weka storage solutions is highly desirable.
Solid understanding of trading infrastructure and low-latency systems.
Excellent problem-solving skills and the ability to work in a fast-paced, dynamic environment.
Skills in managing hybrid cloud/on-premises environments.
Experience proposing and implementing Infrastructure as Code (IaC) practices from the ground up.
Benefits
Tower’s office is located in Downtown Montreal and is easily accessible by public transportation. While we work hard, Tower’s cubicle-free workplace, jeans-clad workforce, and well-stocked kitchens reflect the premium the firm places on quality of life. Benefits include:
Competitive salary and discretionary bonuses
5 weeks of paid vacation per year
Lunch and snacks on a daily basis
Reimbursement for health and wellness expenses
Free events and workshops
Tower Research Capital is an equal opportunity employer.