8h ago

Site Reliability Engineer

Arlington, VA

$100.2k-$203.4k / year

full-timegovernment

🛠 Tech Stack

💼 About This Role

You'll ensure reliability, scalability, and monitoring of enterprise AI systems within a Hub-and-Spoke architecture at Accenture Federal Services. You'll lead incident response, performance optimization, and capacity planning for mission-critical applications and AI governance.

🎯 What You'll Do

Ensure reliability, scalability, and performance of enterprise AI systems
Lead incident response efforts to minimize downtime
Implement SLOs/SLAs, capacity planning, and performance optimization
Operate observability platforms using OpenTelemetry, Prometheus, Grafana, Loki, Tempo
Drive FinOps practices to optimize operational costs

📋 Requirements

Experience with OpenTelemetry, Prometheus, Grafana, Loki, and Tempo
Hands-on experience with SLO/SLA management, FinOps practices, and advanced monitoring
Experience with reliability engineering, incident response, and FinOps
Must be a U.S. citizen with an active TS/SCI clearance

✨ Nice to Have

Exposure to complex integration efforts and continuous delivery pipelines
Experience in mission-focused operational environments

🎁 Benefits & Perks

🏖️ Unlimited PTO
🏥 Health insurance
📚 Certification reimbursement
💰 401(k) matching

📨 Hiring Process

Estimated timeline: 2-4 weeks · AI estimate

1Recruiter Call· 30 min
2Technical Interview· 60 min
3Hiring Manager Interview· 45 min

This description was AI-summarized. View original

0 0 0