




الملخص: قيادة جهود مهندسي موثوقية المواقع (SRE) لضمان موثوقية النظام وقابلية التوسع وأدائه من خلال إمكانية المراقبة، والأتمتة، والاستجابة للحوادث، وتوجيه الفريق. أبرز النقاط: 1. قيادة استراتيجية مهندسي موثوقية المواقع (SRE) وخرائط طريق موثوقية الخدمات الحرجة 2. دفع أتمتة العمليات وضبط الأداء وتحسين قابلية التوسع 3. إرشاد أعضاء فريق مهندسي موثوقية المواقع (SRE) وقيادة تنميتهم المهنية **مهندس موثوقية المواقع (SRE) قائد — الوصف الوظيفي** الملخص قيادة جهود مهندسي موثوقية المواقع (SRE) لضمان موثوقية أنظمة الإنتاج وقابلية توسعها وأدائها من خلال بناء ممارسات إمكانية المراقبة والأتمتة والاستجابة للحوادث، مع توجيه مهندسي موثوقية المواقع (SRE) والتعاون مع فرق الهندسة. **المهام الرئيسية** * امتلاك استراتيجية الموثوقية: تحديد مؤشرات أداء الخدمة (SLIs) وأهداف أداء الخدمة (SLOs) وميزانيات الأخطاء وخُرُطَات طريق الموثوقية للخدمات الحرجة. * قيادة دورات الاستعداد للطوارئ والاستجابة للحوادث وتنسيق الحوادث الكبرى وإجراء التحليلات اللاحقة للحوادث (Post-mortems) ومعالجة القضايا النظامية. * تصميم وتنفيذ أدوات المراقبة والتنبيهات والتسجيل والتتبع وإمكانية المراقبة (Prometheus، Grafana، ELK/Open search، Jaeger، Datadog). * بناء أتمتة لإعداد البنية التحتية والنشر والاستعادة والشفاء الذاتي (IaC، الكتب الإرشادية التشغيلية (runbooks)، الكتب الإرشادية التشغيلية التفصيلية (playbooks)، نصوص الأتمتة). * دفع تخطيط السعة وضبط الأداء وتحسين قابلية التوسع عبر الخدمات والبنية التحتية. * التعاون مع فرق الهندسة والمنتجات لتحسين هندسة الخدمة وتقليل المهام الروتينية (toil) ودمج ممارسات مهندسي موثوقية المواقع (SRE) في دورات حياة التطوير. * إدارة مقاييس الحوادث والكتب الإرشادية التشغيلية (runbooks) وإجراء تمارين التدريب المنتظمة على حالات الطوارئ/تمارين استمرارية الأعمال (game days/DR exercises) للتحقق من الجاهزية. * قيادة عمليات التوظيف والاستيعاب والإرشاد والتنمية المهنية لأعضاء فريق مهندسي موثوقية المواقع (SRE)؛ وإجراء مراجعات الأداء. * تنفيذ إدارة التغيير ووضع بوابات الإصدار وأنماط النشر الآمن (أعلام الميزات، النشر التدريجي باستخدام عينة صغيرة (canary)، التسليم التدريجي). * الإشراف على موثوقية أنظمة التكامل المستمر/النشر المستمر (CI/CD) وخطوط أنابيب النشر والتكامل مع أدوات المنصة (Kubernetes، محركات تشغيل الحاويات، شبكة الخدمات). * فرض معايير الأمان والامتثال والتشغيل بالتعاون مع فرق الأمان والمنصة. * الإبلاغ عن مقاييس الموثوقية ووقت التشغيل وصحة العمليات إلى قيادة الهندسة وتقديم توصيات بشأن أولويات الاستثمار. * تقييم واعتماد الأدوات والإجراءات التي تحسّن إمكانية المراقبة ودقة التنبيهات وزمن حل الحوادث. **المؤهلات** * درجة البكالوريوس في علوم الحاسوب أو الهندسة أو خبرة معادلة يُفضَّل توفرها. * خبرة لا تقل عن ٥ سنوات في مجال مهندسي موثوقية المواقع (SRE)/عمليات التطوير/التشغيل، منها سنتان على الأقل في دور قيادي فني أو دور قيادي للفريق. * خبرة قوية في منصات الحوسبة السحابية (AWS/Azure/GCP)، وإدارة حاويات التطبيقات (Kubernetes)، وتكوين البنية التحتية كبرنامج (IaC) (Terraform، CloudFormation). * إلمام عميق بمكدسات المراقبة وإمكانية المراقبة (Prometheus/Grafana، ELK/Open search، Jaeger/Open Telemetry، Datadog). * إجادة كتابة النصوص البرمجية وأتمتة العمليات (Python، Go، Bash أو ما يعادلها) وأدوات التكامل المستمر/النشر المستمر (Jenkins، GitHub Actions، GitLab CI). * فهم متين لمبادئ الأنظمة الموزعة والشبكات والتخزين والأمان. * خبرة في تحديد مؤشرات أداء الخدمة (SLIs) وأهداف أداء الخدمة (SLOs) وإدارة ميزانيات الأخطاء وإجراء التحليلات اللاحقة للحوادث (Post-mortems). * مهارات ممتازة في استكشاف الأخطاء وإصلاحها والاتصال وإدارة أصحاب المصلحة؛ وقدرة مثبتة على القيادة أثناء الحوادث. **المهارات المرغوبة** * شهادات: شهادة Kubernetes (CKA)، أو شهادات مقدمة من موفري الخدمات السحابية (AWS/GCP/Azure)، أو شهادات مرتبطة بمهندسي موثوقية المواقع (SRE)/عمليات التطوير. * خبرة في شبكات الخدمات (Istio/Linked)، وهندسة الفوضى (Chaos Monkey، Gremlin)، واستراتيجيات الإصدار المتقدمة. * إلمام بممارسات FinOps وتحسين تكلفة الحوسبة السحابية. * خلفية في توسيع نطاق الأنظمة العالمية وهندسة البنية التحتية متعددة المناطق. أنواع الوظائف: دوام كامل، دائم الراتب: ١٥٢٫٢٩ ر.ق \- ٩٢٩٫٩٠ ر.ق في الساعة موقع العمل: في الطريق


