xBerry Job DevOps / Infrastructure & Field Support Engineer

DevOps / Infrastructure & Field Support Engineer

Aplikuj
OpcjonalnieFull TimeRemoteWrocław20 000 - 28 000 + action fee
O nas

xBerry - jesteśmy firmą badawczo-rozwojową zdobywającą doświadczenie w dostarczaniu niestandardowych rozwiązań dla międzynarodowych klientów od 2016 roku. Zapewniamy szeroką wiedzę specjalistyczną w zakresie systemów wbudowanych, uczenia maszynowego, technologii AR / VR i przetwarzania obrazu.

Oczekiwania

Wymagania techniczne

 

  • Duże doświadczenie w administrowaniu systemem Linux (Ubuntu) i rozwiązywaniu problemów,
  • Praktyczne doświadczenie z Kubernetes, obejmujące rozwiązywanie problemów z klastrami i analizę kontenerów,
  • Praktyczna wiedza z Dockera,
  • Solidna znajomość zagadnień sieciowych i diagnozowania problemów związanych z siecią,
  • Doświadczenie w rozwiązywaniu problemów z NFS/pamięcią masową,
  • Znajomość operacyjna środowisk GPU/CUDA (kompatybilność, stabilność),
  • Doświadczenie pracy z:
    • RabbitMQ,
    • PostgreSQL.

Dodatkowe wymagania

 

  • Gotowość do udziału w dyżurach/rotacjach,
  • Gotowość do podróży służbowych, w tym wizyt klientów na miejscu,
  • Umiejętność samodzielnej pracy w złożonych, rozproszonych środowiskach,
  • Wysoko rozwinięte umiejętności analityczne i rozwiązywania problemów.
Obowiązki

Obsługa incydentów i konserwacja systemu

 

  • Diagnozowanie i rozwiązywanie problemów związanych z:
    • Klastrami Kubernetes
    • Kontenerami (Docker)
    • Linux (Ubuntu)
    • sieciami
    • pamięć masowa (w tym NFS),
  • Analizowanie logów i stanu usług na różnych warstwach aplikacji i infrastruktury,
  • Restoring full system functionality in production environments
  • Przywracanie pełnej funkcjonalności systemów w środowiskach produkcyjnych,
  • Uczestnictwo w interwencjach na miejscu, gdy problemów nie można rozwiązać zdalnie.

Automatyzacja, obserwowalność i odporność systemu

 

  • Projektowanie i tworzenie zautomatyzowanych mechanizmów rozwiązywania problemów,
  • Wczesne wykrywanie problemów na poziomie infrastruktury i aplikacji,
  • Zautomatyzowana walidacja stanu kluczowych komponentów systemu:
    • OS,
    • Kubernetes,
    • kontenery,
    • storage,
    • sieciami
  • Tworzenie rozwiązań do kontroli stanu systemu i obserwacji (metryki, alerty, pulpity nawigacyjne),
  • Tworzenie i utrzymywanie:
    • elementy runbook,
    • standardowe procedury odzyskiwania,
    • zautomatyzowane mechanizmy samoleczenia,
  • Dokumentowanie typowych incydentów, przyczyn źródłowych i metod rozwiązywania problemów.

Współpraca i doskonalenie architektury

 

  • Bliska współpraca z zespołami programistycznymi i architektonicznymi,
  • Wkład w uproszczenie i standaryzację architektury,
  • Poprawa ogólnej stabilności i niezawodności systemu,
  • Wspieranie długoterminowych wysiłków mających na celu redukcję kosztów operacyjnych i interwencji ręcznych.
Oferujemy
  • Elastyczne godziny pracy
  • Opcje pracy zdalnej
  • Program opieki medycznej
  • MultiSport
  • Integracje firmowe
  • Umowa o pracę lub samozatrudnienie, w zależności od Użytkownika