xBerry Job DevOps / Infrastructure & Field Support Engineer

DevOps / Infrastructure & Field Support Engineer

Aplikuj
OpcjonalnieFull TimeRemoteWrocław20 000 - 28 000 + action fee
O nas
xBerry - jesteśmy firmą badawczo-rozwojową zdobywającą doświadczenie w dostarczaniu niestandardowych rozwiązań dla międzynarodowych klientów od 2016 roku. Zapewniamy szeroką wiedzę specjalistyczną w zakresie systemów wbudowanych, uczenia maszynowego, technologii AR / VR i przetwarzania obrazu.
Oczekiwania

Wyamagania techniczne

  • Duże doświadczenie w administrowaniu systemem Linux (Ubuntu) i rozwiązywaniu problemów, 
  • Praktyczne doświadczenie z Kubernetes, obejmujące rozwiązywanie problemów z klastrami i analizę kontenerów,

     

  • Praktyczna woedza z Dockera 
  • Solidna znajomość zagadnień sieciowych i diagnozowania problemów związanych z siecią, 
  • Doświadczenie w rozwiązywaniu problemów z NFS/pamięcią masową, 
  • Znajomość operacyjna środowisk GPU/CUDA (kompatybilność, stabilność), 
  • Doświadczenie pracy z: 
    • RabbitMQ, 
    • PostgreSQL. 

Dodatkowe wymagania

  • Gotowość do udziału w dyżurach/rotacjach, 
  • Gotowość do podróży służbowych, w tym wizyt klientów na miejscu, 
  • Umiejętność samodzielnej pracy w złożonych, rozproszonych środowiskach, 

Wysoko rozwinięte umiejętności analityczne i rozwiązywania problemów.

Obowiązki

Obsługa incydentów i konserwacja systemu

  • Diagnozowanie i rozwiązywanie problemów związanych z: 
    • Klastrami Kubernetes 
    • Kontenerami (Docker) 
    • Linux (Ubuntu) 
    • sieciami 
    • pamięć masowa (w tym NFS),

       
  • Analizowanie logów i stanu usług na różnych warstwach aplikacji i infrastruktury, 
  • Restoring full system functionality in production environments, 
  • Przywracanie pełnej funkcjonalności systemów w środowiskach produkcyjnych, 
  • Uczestnictwo w interwencjach na miejscu, gdy problemów nie można rozwiązać zdalnie.

     

Automatyzacja, obserwowalność i odporność systemu

  • Projektowanie i tworzenie zautomatyzowanych mechanizmów rozwiązywania problemów, 
  • Wczesne wykrywanie problemów na poziomie infrastruktury i aplikacji, 
  • Zautomatyzowana walidacja stanu kluczowych komponentów systemu: 
    • OS, 
    • Kubernetes, 
    • kontenery, 
    • storage, 
    • sieciami 
  • Tworzenie rozwiązań do kontroli stanu systemu i obserwacji (metryki, alerty, pulpity nawigacyjne), 
  • Tworzenie i utrzymywanie: 
    • elementy runbook, 
    • standardowe procedury odzyskiwania, 
    • zautomatyzowane mechanizmy samoleczenia, 
  • Dokumentowanie typowych incydentów, przyczyn źródłowych i metod rozwiązywania problemów. 

Współpraca i doskonalenie architektury

  • Bliska współpraca z zespołami programistycznymi i architektonicznymi, 
  • Wkład w uproszczenie i standaryzację architektury, 
  • Poprawa ogólnej stabilności i niezawodności systemu, 
  • Wspieranie długoterminowych wysiłków mających na celu redukcję kosztów operacyjnych i interwencji ręcznych.
Oferujemy
  • Elastyczne godziny pracy
  • Opcje pracy zdalnej
  • Program opieki medycznej
  • MultiSport
  • Pizza w piątki
  • Umowa o pracę lub samozatrudnienie, w zależności od Użytkownika