SytrySystems
SRE / Платформа / Данные

Приложения, которые не ломаются под реальным трафиком

Проектируем и запускаем системы с миллионами пользователей: микросервисы, мультирегион, потоковые данные, нулевой даунтайм и наблюдаемость по умолчанию.

Работаем по NDA 24/7 SRE • Error Budget PCI DSS / ISO 27001 Zero-downtime релисы
скролль ↓

Что мы делаем

От discovery до эксплуатации в проде

Платформенная разработка

Микросервисы и API-платформы

  • gRPC/REST, контрактное тестирование, gateway & rate-limit
  • CQRS + Event Sourcing, saga-оркестрации
  • Каталоги, поиск, биллинг, платёжные ядра
Данные

Стриминг и аналитика

  • Kafka/Flink, CEP-правила, exactly-once
  • CDC (Debezium), DWH/лаки: ClickHouse, Delta Lake
  • Feature-store, онлайн-фичи, ML-интеграции
SRE/DevOps

GitOps и эксплуатация

  • Kubernetes, Istio, mTLS, service mesh
  • Terraform, Argo CD/Rollouts, progressive delivery
  • Observability by design: OTel, SLO/алерты

Почему мы

Цифры и выгоды для бизнеса

120k+
доставок/день без деградации
12k
TPS платёжного ядра
99.99%
аптайм при релизах
−18%
пустых пробегов в логистике

Кейсы (Инкогнито)

Проблема → Архитектура → Цифры → Стек

«Поток» - платёжная платформа для маркетплейса

p99 < 150 мс12k TPS3 региона • PCI

Сервисы на Kotlin/Java (Spring Boot) + Go для high-TPS; внутренняя шина gRPC, внешние REST. Kafka как событийный бэкбон, Flink для антифрода. PostgreSQL (Patroni, синхронные реплики) с логическим шардингом по мерчанту; outbox-паттерн + Debezium для CDC. Redis для сессий/кэша, ClickHouse для аналитики. Мультирегион: запись - региональная с асинхронной репликацией, чтение - актив-актив.

  • 26 PSP, >1.3 млрд авторизаций/мес, аптайм 99.995%
  • HSM, Vault, токенизация, masked-логи
  • Нулевой даунтайм при миграции с монолита

«Север» - логистическая сеть с оптимизацией

120k доставок/деньETA p90 ± 3 мин−18% пустых пробегов

Rust-движок VRP (временные окна) с OR-Tools; телеметрия MQTT→Kafka→Flink, Digital Twin для what-if, ClickHouse для time-series, долгие данные в Delta Lake (S3). CDC из OLTP через Debezium.

  • 20 млн событий/мин в стриминге
  • Мобильный офлайн, протоколы на gRPC/Protobuf

«Ореол» - платформа стриминга и рекомендаций

4K HDR3.2M сессийстарт < 1.1 c

Ingest → GPU-транскод (FFmpeg/K8s) → упаковка LL-HLS/DASH за NGINX/Envoy. Персонализация: поток обработки (Kafka → Flink), онлайн-фичи в Redis, аналитика в ClickHouse. DRM (Widevine/FairPlay), контент-ID, динамические вотермарки.

  • Буферизация < 0.8%, конверсия +12%

«Атлас» - портал с мультирегионом

180k RPSRTO < 5 минRPO ≈ 0

CockroachDB для согласованных транзакций, Istio + mTLS, Zero-Trust, Kafka как событийной шиной, аудит в WORM-хранилище, OpenSearch для полнотекстового поиска.

  • 99.99% аптайм, без просадок UI в пике

«Сателлит» - IoT-платформа на 250к+ устройств

потеря < 0.05%p95 < 120 мсOTA + rollback

MQTT/CoAP через EMQX, бэкбон Kafka + Flink CEP. Time-series в TimescaleDB, агрегаты/аналитика в ClickHouse, бинарные телеметрические блобы — в S3. OTA с подписью и поэтапным rollout, canary-кольца, panic rollback. Цифровые двойники с CRDT-моделью для conflict-free синхронизации.

  • −27% аварий благодаря CEP-правилам

Как мы работаем

От первого звонка до SRE-дежурства

01

Discovery

  • Цели, риски, KPI
  • Аудит архитектуры и перф-профили
02

Проектирование

  • DDD, контракты, схемы событий
  • SLO/SLA, план миграции
03

Реализация

  • Микросервисы, data-pipelines
  • Helm/Argo, IaC, QA
04

Запуск

  • Canary/Blue-Green
  • Нулевой даунтайм
05

Эксплуатация

  • 24/7 on-call
  • Error budget, улучшения

Принципы

То, что не обсуждается

Observability by design

OTel, трассировки, метрики и логи — часть архитектуры, а не пост-фактум.

Безопасность по умолчанию

mTLS, OIDC, Vault, минимум прав. Secrets — только зашифрованные.

Плавные релизы

Canary/Blue-Green, Argo Rollouts, быстрая отмена и миграции без простоя.

Event-first

Событийная модель, outbox/CDC, antifragile архитектура.

Технологии

KubernetesIstioKafkaFlinkClickHousePostgreSQLCockroachDBRedisOpenTelemetryPrometheusGrafanaVaultTerraformArgo CDArgo RolloutsKeycloakMinIO/S3AirflowdbtDelta Lake KubernetesIstioKafkaFlinkClickHousePostgreSQLCockroachDBRedisOpenTelemetryPrometheusGrafanaVaultTerraformArgo CDArgo RolloutsKeycloakMinIO/S3AirflowdbtDelta Lake
Подход

DDD, event-first, контракты, zero-downtime релизы, canary/blue-green, observability by design.

Безопасность

mTLS, OIDC/Keycloak, Vault, WAF, секреты в Git через SOPS, аудит, least-privilege.

CI/CD

GitHub Actions → Argo CD, миграции Flyway, тесты: unit/contract/e2e, Lighthouse в CI.

Команда

Кто держит прод в тонусе

Tech Lead / Архитектор

разложит хаос на домены и SLO

Go, Kotlin/Java, Kafka, K8s.

Platform / SRE

Не спал четыре года

GitOps, Istio, Argo, Terraform, observability, перформанс.

Data / Streaming

данные текут куда нужно

Kafka/Flink, CDC, ClickHouse, Delta Lake, онлайн-фичи для ML.

Frontend Wizard

пиксели — ровно, CLS — ноль

React/Next.js, Three.js/WebGL, GSAP. Любит `prefers-reduced-motion`.

QA / Chaos-инженер

ломает — чтобы не ломалось

k6, Playwright, fault injection, Latency Monkey. Кофе ≥ 3 эспрессо.

Delivery Manager

таски бегут как Kafka

Сроки, риски, коммуникации. Gantt без боли. Мемы по расписанию 😼

FAQ

Частые вопросы про NDA, сроки и эксплуатацию

Работаете по NDA?

Да. На этапе пресейла подписываем взаимный NDA; кейсы на сайте — обезличены.

Кто несёт on-call?

Мы берём on-call 24/7 на договорённый период с SLO/SLA и error-budget полициями.

Как оцениваете проект?

Discovery-спринт 1–2 недели: цели, KPI, архитектурные риски. Итог — архитектура, план, оценка.

Обсудить архитектуру

Короткая форма — ответим в течение рабочего дня

PGP по запросу • Работаем по NDA