Modern DevOps 2026 — Metodolojiler, Stratejiler & Kültür#

2026 itibarıyla yapan ekiplerin gerçekten kullandığı çerçeveler, pratikler ve toolchain'ler. Buzzword listesi değil — ne zaman, hangi sorunu çözmek için kullanılır odaklı.

İçindekiler#

Felsefe — Niye DevOps Hâlâ Önemli?
CALMS Çerçevesi — Kültürün Omurgası
DORA Metrikleri & SPACE — Ne Ölçeriz?
Modern Metodolojiler
4.1 Platform Engineering & IDP
4.2 GitOps
4.3 Site Reliability Engineering (SRE)
4.4 DevSecOps
4.5 FinOps
4.6 MLOps & LLMOps
4.7 Sustainability / Green IT
Cloud-Native Reference Architecture
Modern Toolchain Haritası
Operasyonel Pratikler
7.1 Blameless Postmortem
7.2 Progressive Delivery
7.3 Chaos Engineering
7.4 Policy-as-Code
7.5 Supply Chain Security
Anti-Pattern'ler
60–90 Günlük Adoption Planı
Ek Kaynaklar

1. Felsefe — Niye DevOps Hâlâ Önemli?#

DevOps, araç değil operasyon modeli. Aynı şirkette aynı GitHub Actions, aynı ArgoCD, aynı Prometheus kurulu olabilir; bir ekip haftada 50 kez prod'a çıkar, diğeri ayda 1. Fark kültür ve süreçtedir.

2026'da değişen ne? - Bulut maliyetleri patladı → FinOps mainstream. - Geliştiriciler "platform" bekliyor, "ops ticket" değil → Platform Engineering patlaması. - LLM'ler kod yazıyor → review, test, gözlem yükü artıyor → AI-assisted ops. - Tedarik zinciri saldırıları arttı (xz utils, npm worm'ları) → SLSA / SBOM zorunlu. - AB CSRD, ABD SEC — emisyon raporlama yasal → sustainable engineering ölçülüyor.

Değişmeyen ne? - Yavaş feedback öldürür. Kısa loop = sağlam sistem. - Monitoring olmadan production yok. - Ortak sorumluluk: "deploy yaptım, kalanı SRE'nin sorunu" diyen ekipler hâlâ batıyor.

2. CALMS Çerçevesi — Kültürün Omurgası#

DevOps'u "kültür" olarak ölçmek için en yaygın çerçeve.

Harf	Anlam	Pratik karşılık
C ulture	Paylaşılan sorumluluk, blame'siz öğrenme	Postmortem'lar herkese açık, "kim yaptı" yerine "neden mümkün oldu"
A utomation	El değmez işler	CI/CD, IaC, automated rollback, golden-path templates
L ean	Akış optimizasyonu, küçük batch	Trunk-based development, feature flag, kısa-ömürlü branch
M easurement	Veriye dayalı iyileştirme	DORA, SPACE, SLO, error budget tracking
S haring	Bilgi silosu kırma	Dahili wiki, runbook'lar, "tribe of practice" / community of practice

⚠️ Çoğu şirket A ve M ile başlar, C ve S'i ihmal eder. Otomasyonun nedenini ve sonucunu paylaşmazsanız, otomasyon "büyücülük" olur — yenisi gelinceye kadar bozulmaz, bozulduğunda kimse anlamaz.

3. DORA Metrikleri & SPACE — Ne Ölçeriz?#

DORA (Google) — Teslimat Performansı#

Metrik	Elite	High	Medium	Low
Deployment Frequency	On-demand (gün içinde N kez)	Günde–haftada	Haftada–ayda	Ayda–yılda
Lead Time for Changes	< 1 saat	1 gün – 1 hafta	1 hafta – 1 ay	1 – 6 ay
Change Failure Rate	0–15%	16–30%	16–30%	46–60%
Mean Time to Restore (MTTR)	< 1 saat	< 1 gün	1 gün – 1 hafta	1 hafta – 1 ay

Yıllık Accelerate State of DevOps Report bu eşikleri günceller. Hedef: bir sonraki katmana çıkmak, "elite" olmak değil.

SPACE Çerçevesi — Geliştirici Verimliliği#

DORA "delivery" odaklı, SPACE bütünsel:

Satisfaction & well-being
Performance (kalite, müşteri memnuniyeti)
Activity (commit, deploy, PR sayısı)
Communication & collaboration
Efficiency & flow (kesintisiz iş)

🚫 Tek metrikle ekibi ölçmeyin. "Daha çok commit at" desteklenirse, küçük-anlamsız commit'ler çoğalır. SPACE'in tamamı bir arada anlamlıdır.

4. Modern Metodolojiler#

4.1 Platform Engineering & Internal Developer Platform (IDP)#

Sorun: Geliştirici "yeni mikroservis aç"mak için 14 ticket açıyor; her biri 2 gün bekliyor; bilgi 3 ekip arasında dağılmış.

Çözüm: Bir platform ekibi, geliştiricinin self-service kullanabileceği, opinionated bir "altın yol" (golden path) sunar. Geliştirici platformu müşteri olarak kullanır, ops biletleri açmaz.

Gerçek hayat parçası:

Geliştirici şunu yapar:
  $ idp service create payments --template fastapi-postgres

Arka planda:
  - GitHub repo açılır (template'den)
  - Terraform: RDS, S3, IAM rolleri
  - ArgoCD: yeni Application
  - Prometheus + Grafana: dashboard otomatik
  - PagerDuty: oncall rotation atanır
  - Slack: #payments-alerts kanalı açılır
  - Backstage Catalog'a kaydedilir

Toolchain (2026 popüler): - Backstage (Spotify) — service catalog ve developer portal - Crossplane — Kubernetes-native cloud control plane - Kratix / Score / Humanitec — platform abstraction - Port — no-code IDP builder

📚 "Team Topologies" (Skelton & Pais) — platform ekibinin iletişim modeli (stream-aligned, enabling, complicated subsystem, platform).

4.2 GitOps#

Tanım: Sistemin arzu edilen durumu Git'te declarative olarak tutulur; bir agent (ArgoCD/Flux) Git'i izleyerek cluster'ı sürekli senkronize eder.

Dört prensibi (OpenGitOps): 1. Declarative — sistem ne olmalı, nasıl değil 2. Versioned & Immutable — Git tek doğruluk kaynağı 3. Pulled Automatically — agent değişiklikleri çeker (push değil) 4. Continuously Reconciled — drift sürekli düzeltilir

Avantaj: rollback = git revert. Audit log = git log. Erişim = GitHub team.

Toolchain: - ArgoCD — uygulama deploy - Flux — uygulama deploy (CNCF graduated) - Crossplane — IaC bile GitOps ile - Renovate / Dependabot — bağımlılık güncelleme PR'ları - Argo Rollouts / Flagger — progressive delivery

# Tipik ArgoCD Application — uygulama Git'te neyse cluster da o
apiVersion: argoproj.io/v1alpha1
kind: Application
metadata:
  name: payments-prod
spec:
  source:
    repoURL: https://github.com/acme/k8s
    path: apps/payments/overlays/prod
    targetRevision: HEAD
  destination:
    server: https://kubernetes.default.svc
    namespace: payments
  syncPolicy:
    automated:
      prune: true
      selfHeal: true     # drift düzelt

4.3 Site Reliability Engineering (SRE)#

Google'ın icadı. Ana fikir: güvenilirliği bir özellik gibi mühendislik et.

Anahtar kavramlar:

SLI (Service Level Indicator) — ölçülen şey: % successful requests, p99 latency
SLO (Service Level Objective) — hedef: %99.9 successful in 30d
SLA (Service Level Agreement) — müşteriyle yasal söz
Error Budget — 100% - SLO = ne kadar arıza tolere ederiz. Bu bir pazarlık aracıdır:
Bütçe kalmadıysa → yeni feature deploy DUR, reliability'ye odaklan
Bütçe taze → risk al, agresif deploy

SLO: %99.9 / 30 gün → Error budget = 43 dakika down/ay
Bu ay 35 dk down olduysa: 8 dk kaldı → riskli deploy yapma.
50 dk down olduysa: bütçe -7 dk → feature freeze, root cause'lara odaklan.

SRE'nin Toil tanımı: manuel, tekrarlanan, otomatize edilebilir, value yaratmayan iş. Hedef: takımın < %50'si toil. Üzerine çıkıyorsa platform yatırımı yap.

📚 Google SRE Book + SRE Workbook — ücretsiz online.

4.4 DevSecOps — Shift-Left Security#

Eski model: geliştirme → test → "security review" → patladı, geri başa dön.

Yeni model: güvenlik her aşamada, otomatik.

┌─────── DEV ────────┬───── BUILD ────┬──── DEPLOY ────┬──── RUNTIME ────┐
│ IDE plugins        │ SAST           │ Image scan     │ Runtime         │
│ pre-commit hooks   │ Dependency scan│ IaC scan       │ Detection       │
│ secret detection   │ License scan   │ Policy gate    │ eBPF tracing    │
│                    │ SBOM generate  │ Sigstore verify│ Falco / Tetragon│
└────────────────────┴────────────────┴────────────────┴─────────────────┘

Toolchain:

Aşama	Açık kaynak	SaaS
Secret detection	gitleaks, trufflehog	GitGuardian
SAST	Semgrep, CodeQL	Snyk, Veracode
SCA / Dep scan	OSV-Scanner, Trivy	Snyk, Mend
Container scan	Trivy, Grype	Snyk Container, Wiz
IaC scan	Checkov, tfsec, KICS	Bridgecrew, Wiz
Policy	OPA/Rego, Kyverno	Styra
Runtime	Falco, Tetragon, Cilium	Sysdig, Wiz Runtime
Supply chain	Sigstore (cosign), in-toto	Chainguard

🔐 Asgari hijyen 2026: SBOM üret, image'ı imzala (cosign), prod'da signature doğrula (Kyverno verifyImages), her PR'da gitleaks + trivy fs.

4.5 FinOps#

Sorun: AWS faturası ay başında patladı; kimse kimin neyi açtığını bilmiyor.

Çözüm: FinOps Foundation çerçevesi — finans + mühendislik + iş ekipleri ortak dilde maliyet konuşur.

Üç döngü: 1. Inform — tagging, allocation, dashboard. "Hangi servis ne kadar harcıyor?" 2. Optimize — rightsizing, reserved/savings plan, spot, idle resource cleanup 3. Operate — anomaly detection, FinOps champion'lar, KPI takibi

Pratik adımlar: - Mandatory tagging policy: team, service, env, cost-center - Showback dashboard (her ekip kendi maliyetini görür) - Daily anomaly alert (yesterday vs 7-day avg, > %20 sapma) - Resource right-sizing: VPA recommendations, AWS Compute Optimizer - Storage lifecycle: S3 Intelligent-Tiering, EBS gp3, snapshot expiration - Pre-merge cost diff: PR'da Infracost yorumu

Toolchain: OpenCost, Kubecost, AWS Cost Explorer, Vantage, CloudHealth, Infracost.

4.6 MLOps & LLMOps#

MLOps: ML modellerinin lifecycle yönetimi (data → train → serve → monitor → retrain).

LLMOps: GenAI uygulamalarının operasyonu — RAG pipeline, prompt versiyonlama, eval harness, hallucination/safety monitoring, token cost tracking.

2026'da LLMOps özgün tarafları: - Prompt'lar kod gibi: versiyonlu, test'li, A/B'li - Eval harness: model çıktılarını otomatik puanla (LLM-as-judge, golden datasets) - RAG observability: hangi chunk getirildi, hangi soruya kim cevap veremedi - Token & latency tracking: per-tenant cost, p99 < 5s SLO - Safety guardrails: PII redaction, prompt injection detection - Model registry: hangi model versiyonu prod'da, rollback path?

Toolchain: LangSmith, Langfuse, Helicone, Phoenix (Arize), MLflow, BentoML, Weights & Biases, Vellum, Promptfoo.

4.7 Sustainability / Green IT#

Yasal baskı: AB CSRD (2024+), ABD SEC iklim kuralı → şirketler emisyonu raporlamak zorunda. Cloud kullanımı Scope ⅔ emisyona girer.

Ölçü: - PUE (Power Usage Effectiveness) — DC seviyesi - CUE (Carbon Usage Effectiveness) - SCI (Software Carbon Intensity, Green Software Foundation) — uygulama seviyesi: gCO₂eq / functional unit

Pratik: - Spot instance (idle kapasite kullanımı) - ARM/Graviton (per-watt 2-4x performance) - Region seçimi: yenilenebilir enerji yoğun bölge (us-west-2, eu-north-1) - Carbon-aware scheduling: idle batch job'ları düşük-karbon saatlerde çalıştır - Idle cleanup: dev cluster'ları gece kapat - Compression, caching, CDN — daha az network

Toolchain: Cloud Carbon Footprint, Kepler (eBPF), AWS Customer Carbon Footprint Tool, Azure Sustainability, GCP Carbon Footprint.

5. Cloud-Native Reference Architecture#

                            ┌──────────────────────────┐
                            │   Edge / CDN / WAF       │
                            │ (Cloudflare, CF Workers, │
                            │  Fastly, AWS WAF)        │
                            └────────────┬─────────────┘
                                         │
                            ┌────────────▼─────────────┐
                            │   API Gateway            │
                            │ (Envoy, Kong, Apollo,    │
                            │  AWS API GW)             │
                            └────────────┬─────────────┘
                                         │
        ┌────────────────────────────────┼────────────────────────────────┐
        │                Service Mesh (Istio / Linkerd / Cilium)          │
        │  mTLS · traffic split · retry · circuit breaker · authZ         │
        ├──────────────┬──────────────┬──────────────┬───────────────────┤
        │ payments     │  catalog     │   auth       │   ml-inference    │
        │ (Go)         │  (TS)        │   (Rust)     │   (Python)        │
        └──────┬───────┴──────┬───────┴──────┬───────┴──────────┬────────┘
               │              │              │                  │
        ┌──────▼──────┐ ┌─────▼──────┐ ┌─────▼─────┐ ┌──────────▼──────┐
        │ Postgres HA │ │ Redis      │ │ Keycloak  │ │ vLLM / Triton   │
        │ + PgBouncer │ │ (cache)    │ │ + OAuth2  │ │ + GPU node pool │
        └─────────────┘ └────────────┘ └───────────┘ └─────────────────┘

         ───── Cross-cutting ─────
         IaC: Terraform + Crossplane (in-cluster)
         GitOps: ArgoCD (multi-cluster, ApplicationSet)
         Secrets: External Secrets Operator + Vault
         Observability: OpenTelemetry → Tempo/Loki/Mimir + Grafana
                         OR Datadog / New Relic / Honeycomb (SaaS)
         Policy: Kyverno + OPA Gatekeeper
         Runtime sec: Falco + Tetragon (eBPF)
         Backup: Velero + cross-region S3
         CI: GitHub Actions / GitLab CI / Buildkite

6. Modern Toolchain Haritası#

6.1 Versiyon Kontrol & Code Review#

GitHub, GitLab, Bitbucket. Trend: Graphite / Stacked diffs (büyük PR yerine küçük, sıralı stack).

6.2 CI/CD#

Yerleşik	Yeni nesil
Jenkins, GitLab CI	GitHub Actions, Buildkite
CircleCI, TravisCI	Dagger (CI as code, programmable)
TeamCity	Earthly (Make + Docker hibrit)
	Mise (project tool versions)

6.3 IaC#

Terraform / OpenTofu — fork sonrası OpenTofu CNCF'e girdi, neutral governance
Pulumi — gerçek programlama dilleri (TS/Python/Go)
Crossplane — Kubernetes API'si üzerinden cloud resource yönetimi
AWS CDK / CDK8s / CDKTF — kod-yazarcasına resource

6.4 Container & Orkestrasyon#

Docker / Podman / nerdctl
Kubernetes (EKS, GKE, AKS, kubeadm, k3s, talos)
Nomad — daha basit alternatif
Wasm / Spin / wasmCloud — yükselen serverless çalışma zamanı

6.5 Observability — "Three Pillars + 1"#

Pillar	OSS	SaaS
Metrics	Prometheus, Mimir, VictoriaMetrics	Datadog, New Relic
Logs	Loki, OpenSearch, ClickHouse	Datadog, Splunk
Traces	Tempo, Jaeger	Honeycomb, Lightstep
Profiles (4. pillar)	Pyroscope, Parca	Polar Signals, Datadog

🌐 OpenTelemetry: hepsinin önündeki ortak instrumentation standardı. Yeni proje? Doğrudan OTel SDK ile yaz, vendor-lock yok.

6.6 Service Mesh#

Istio — feature-rich ama heavy
Linkerd — minimal, Rust data plane
Cilium Service Mesh — eBPF, sidecar-less, hızlı

6.7 Secret Management#

HashiCorp Vault — endüstri standardı
External Secrets Operator — cloud KMS → K8s Secret bridge
SOPS + age/PGP — Git'te şifreli secret
Sealed Secrets (Bitnami)
AWS Secrets Manager / GCP Secret Manager / Azure Key Vault

6.8 Database & Data Platform#

PostgreSQL — hâlâ %1 sektör default. Patroni / Stolon / Crunchy Postgres for K8s
CloudNativePG operator — K8s-native HA postgres
ClickHouse — analytical, OSS columnar, popülerleşti
Kafka / Redpanda — event streaming
DuckDB — embedded analytics (data engineering'de patlama)

7. Operasyonel Pratikler#

7.1 Blameless Postmortem#

Format:

# Postmortem — payment-service outage 2026-04-30

## Özet
3 dakika içinde ne yazılır kullanıcı görür.

## Etki
- 14 dk total downtime
- 3,200 başarısız ödeme
- ~22k EUR revenue impact (estimate)

## Zaman çizelgesi (UTC)
- 14:02  Deploy v3.4.1 (PR #4521)
- 14:05  p99 latency 200ms → 8s sıçradı, alert firing
- 14:07  Oncall page'lendi (PagerDuty rotation)
- 14:11  Rollback başladı
- 14:16  Rollback tamamlandı, latency normalleşti
- 14:30  All-clear

## Root Cause
N+1 sorgu yeni endpoint'te accidentally introduce edildi.
ORM lazy-load aktive olunca her ödeme için 50 ekstra query.

## Niye yakalanmadı?
- Load test sadece 100 RPS'de yapılıyor — N+1 patlamıyor
- Staging'de fixture data 10 satır, prod'da 50

## Aksiyonlar
- [ ] @ali       Load test 1000 RPS'e çıkar     (due 2026-05-15)
- [ ] @ayse      ORM N+1 detector PR pipeline'a ekle (due 2026-05-22)
- [ ] @platform  Staging fixture data hacmini prod 1%'e ölçekle (due 2026-06-01)

## Ne iyiydi?
- Otomatik rollback 4 dakikada gerçekleşti — manuel müdahale yok
- Oncall'un MTTR'i hedef altında

## Ne zor değildi ama olabilirdi?
- Slack'te paralel iletişim runbook'u izlendi

Altın kural: "who" yerine "what" ve "why". "Ali yanlış kod yazdı" değil, "review sürecimizde N+1 detector yoktu". Sistem hatasıdır, insan hatası değil.

7.2 Progressive Delivery#

Tek seferde %100 değil, kademeli.

Strateji	Kullanım
Blue/Green	Anlık geri dönüş gerekiyor — instant cutover, eski sürüm hot bekler
Canary	Yeni sürüm %1 → %5 → %25 → %100, metrik gözlerken
Rolling	K8s default. Pod'lar tek tek değişir. Risk: uzun sürer
Shadow	Yeni sürüme kopya trafik gönder, response'u tutma. Latency'yi gerçek yükle test et
Feature flag	Kod prod'da ama kapalı. Per-user / per-cohort açma

Otomatik canary araçları (Argo Rollouts, Flagger):

# Flagger Canary — metric'e bakarak otomatik ilerle veya geri dön
spec:
  analysis:
    interval: 1m
    threshold: 5
    maxWeight: 50
    stepWeight: 10
    metrics:
    - name: request-success-rate
      thresholdRange: { min: 99 }
    - name: request-duration-p99
      thresholdRange: { max: 500 }

7.3 Chaos Engineering#

Felsefe: Production'a güvenmek için kasten kırın.

Aşamalar: 1. Steady state tanımla (normal ne demek?) 2. Hipotez kur: "Postgres replica düşerse cluster ayakta kalır" 3. Deney: replica'yı durdur (önce stage, sonra prod, kontrollü blast radius) 4. Gözle: hipotez doğrulandı mı? 5. Otomatize et (GameDay → continuous chaos)

Toolchain: Chaos Mesh, LitmusChaos, Chaos Monkey, AWS Fault Injection Simulator.

7.4 Policy-as-Code#

"Allowed mı?" sorusuna kod cevap verir, insan değil.

# OPA / Rego — sadece imzalı image kabul et
package kubernetes.admission

deny[msg] {
  input.request.kind.kind == "Pod"
  container := input.request.object.spec.containers[_]
  not startswith(container.image, "registry.acme.com/")
  msg := sprintf("image %v allowed registry'de değil", [container.image])
}

Toolchain: OPA (Gatekeeper), Kyverno, Conftest, Polaris.

7.5 Supply Chain Security — SLSA#

Build artifact'ının nasıl üretildiğine dair doğrulanabilir köken (provenance).

SLSA Levels: - L1: build script var - L2: hosted build, imzalı provenance - L3: izole build, kaynaktan kaynağa zincir - L4: iki-kişi review, hermetic + reproducible build

Pratik: - SBOM üret (CycloneDX / SPDX) — her image içinde - Sigstore (cosign) ile imzala — keyless OIDC ile - in-toto attestation — build provenance - Cluster'da Kyverno verifyImages ile imza kontrolü

# Image imzala (keyless, OIDC ile)
cosign sign ghcr.io/acme/payments:v1.2.3

# SBOM üret
syft ghcr.io/acme/payments:v1.2.3 -o cyclonedx-json > sbom.json

# Vulnerability scan SBOM üzerinden
grype sbom:./sbom.json --fail-on high

8. Anti-Pattern'ler#

"Bu bende olmaz" deyip kontrol edin — büyük ihtimalle bir tane var.

Anti-pattern	Ne demek?	Sağlıklısı
DevOps Department	"DevOps takımı" diye bir silo açmak	Kültür yatay, platform takımı + stream-aligned takımlar
Snowflake servers	El ile kurulmuş, doku biriktiren makine	IaC + immutable infrastructure
Pet pipelines	Tek-kullanımlık, her servis için ayrı CI yaml'ı	Reusable workflow'lar, golden path
God dashboards	80 panel, kimse bakmıyor	SLO-driven dashboard, < 10 panel
Alert fatigue	Slack #alerts'te saatte 50 alert	SLO-based alerting, "actionable & urgent" filtresi
Secrets in env	`DB_PASSWORD=...` Git'te	Vault / ESO + Sealed Secrets
Brittle bash glue	1500 satır deploy.sh	Terraform + Helm + Argo
Manual approvals everywhere	Her PR 3 onay	Policy-as-code + automated review
No staging	Prod = test	Ephemeral preview env'leri (PR başına)
Quarterly releases	"Build-up edip 3 ayda bir bırak"	Trunk-based + feature flag, günde N kez
Tribal knowledge	"Ali bilir, sor"	Runbook + on-call training + game day

9. 60–90 Günlük Adoption Planı#

Hiçbir şey yokken başlayan ekip için. Sırasıyla:

Hafta 1–2: Görünürlük#

Tüm prod servislerini envantere geç
DORA metriklerini ölç (önce şu anki durum, sonra hedef)
On-call rotation kur, basit runbook
Slack #incidents kanalı + /incident komutu (incident.io / FireHydrant)

Hafta 3–4: Otomasyon Temeli#

Tüm prod CI'da: SAST, SCA, secret scan
IaC: en az 1 servisin altyapısını Terraform'a taşı
Golden Dockerfile şablonu (non-root, multi-stage, distroless veya chainguard)

Hafta 5–6: Observability#

OpenTelemetry SDK 1 servise entegre
SLO tanımla (en az 3 servis için)
Error budget burn-rate alert kur
Postmortem template + paylaşım kanalı

Hafta 7–8: Delivery#

Trunk-based development'a geç (uzun-ömürlü branch'leri öldür)
Feature flag servisi (LaunchDarkly / OpenFeature self-host)
PR preview env (her PR'a kısa-ömürlü staging)
Otomatik canary (Argo Rollouts veya Flagger)

Hafta 9–10: Güvenlik & Compliance#

SBOM her build
Image imzalama (cosign)
Cluster'da Kyverno policy: imzasız image yasak
Secret scanning her PR (block on hit)

Hafta 11–12: FinOps & Sürdürülebilirlik#

Cost dashboard (Kubecost / OpenCost)
Tagging policy enforce
Rightsize quick-wins (idle resource cleanup)
Ay sonu retro: ne ölçüldü, ne değişti?

🎯 Anti-hedef: "12 hafta sonra her şey perfect." Asıl hedef: ekibin hangi metriği görerek karar verdiği değişmiş olsun.

10. Ek Kaynaklar#

Kitap#

The Phoenix Project — Gene Kim (DevOps roman)
The DevOps Handbook — Kim, Humble, Debois, Willis
Accelerate — Forsgren, Humble, Kim (DORA arkasındaki bilim)
Site Reliability Engineering (Google SRE book) — ücretsiz online
The SRE Workbook — pratik tarafı
Team Topologies — Skelton & Pais
Building Secure & Reliable Systems — Google SRE+Sec
Database Reliability Engineering — Campbell & Majors

Makale & Blog#

DORA — State of DevOps Report — yıllık
InfoQ DevOps Trends — trend analizi
Google SRE Resources — book + workbook + articles
Increment — Stripe'ın SRE/Ops dergisi (arşiv)
[Bytes by Cloudflare / Netflix Tech Blog / Uber Eng / Stripe Eng]

Topluluk#

CNCF TAG App-Delivery / TAG Observability — meeting notes açık
DevOps Days — şehir bazlı konferans (İstanbul DevOpsDays var)
SRE Weekly / DevOps Weekly — newsletter
r/devops, r/sre, r/kubernetes

Sertifikasyon (sıralı zorluk)#

AWS Certified DevOps Engineer Pro / GCP Professional Cloud DevOps
CKA, CKAD, CKS (Kubernetes — Linux Foundation)
HashiCorp Terraform Associate / Vault Associate
Argo Project Certified Associate
FinOps Certified Practitioner

✏️ Akıl yürütme: sertifika ≠ yeteneklik kanıtı. Kendinize bir "production-like lab" kurun, kasten kırın, debug'layın. Çoğu mülakat hikayenizi sorar — sertifika değil.

Kapanış#

DevOps "olmuş bir hedef" değil; bir yöndür. Bu rehber bugünkü iyi pratikleri özetler; 2027'de yarısı değişmiş olacak (büyük ihtimalle AI tarafı).

Önemli olan ölçen, paylaşan, kasten öğrenen ekipler kurmak. Toolchain ondan sonra gelir.

"You build it, you run it." — Werner Vogels (CTO, Amazon), 2006