3h ago
Ingénieur sénior en apprentissage automatique distribué
Montréal
full-timeseniorartificial intelligence
Tech Stack
Description
Vous collaborerez avec des chercheurs en apprentissage automatique pour résoudre des problèmes complexes d'entraînement et d'inférence de très grands modèles, en accélérant la recherche et en optimisant les environnements de calcul distribué.
Requirements
- Diplôme en informatique ou domaine connexe
- Plus de 3 ans d'expérience en frameworks d'entraînement ML distribué (Megatron, DeepSpeed, HuggingFace Accelerate, FSDP, vLLM, verl)
- Expérience avec plateformes cloud (AWS, GCP, Azure) et gestionnaires de charge (Ray, SLURM)
- Expérience avec outils de profilage GPU (PyTorch profiler, PyProf, NVIDIA Nsight)
- Familiarité avec conteneurisation (Docker, Kubernetes) et infrastructures de données (bases vectorielles)
Responsibilities
- Collaborer avec les chercheurs pour accélérer la recherche, l'entraînement et l'inférence de modèles à grande échelle en calcul distribué
- Investir les goulots d'étranglement de performance et profiler le code des expériences
- Développer des outils et bibliothèques pour orchestrer l'utilisation des ressources de calcul distribué
- Établir, documenter et maintenir les meilleures pratiques pour les flux de travail ML distribués
0 views 0 saves 0 applications