تصنيف حادثة إنتاج على Kubernetes
متى تستخدمه: تطبيق يتصرف بشكل سيئ في الإنتاج وتحتاج النظر في الـ pods والأحداث والسجلات دون تبديل النوافذ.
المتطلبات الأساسية
- kubeconfig مع وصول إلى الـ cluster — الأمر القياسي
aws eks update-kubeconfigأو ما يعادله
الخطوات
-
إيجاد الـ pods غير السليمةk8s: in context
prod-us-east, namespacecheckout, list pods not in Running state. Include reason + restart count.✓ تم النسخ→ الـ pods معروضة مع الحالة والسبب وعدد إعادة التشغيل -
جلب الأحداثGet events in that namespace from the last 30 minutes, sorted by time.✓ تم النسخ→ قائمة الأحداث؛ OOMKilled أو ImagePullBackOff مرئيان إذا وُجدا
-
جلب السجلاتFor the pod with the most recent restart, tail the previous container's logs (last 200 lines).✓ تم النسخ→ stack trace / السبب مرئي
-
التشخيصSynthesize: what's the likely root cause and what should we do? Be specific.✓ تم النسخ→ خطوة تالية محددة (مثلاً رفع حد الذاكرة + طرح)
النتيجة: تصنيف في أقل من 5 دقائق مع أسماء pods وسطور سجل مُستشهَد بها.
المزالق
- سجلات container السابق المفقود غير متاحة — إذا أعادت pod التشغيل مرة واحدة فقط، تحقق من سجلات container الحالي و container السابق فقط إذا تعطَّل
- سياق خاطئ — حدِّد السياق دائماً لكل استدعاء؛ لا تعتمد على انجراف current-context