DevOps / Infrastructure & Field Support Engineer
AplikujO nas
xBerry - jesteśmy firmą badawczo-rozwojową zdobywającą doświadczenie w dostarczaniu niestandardowych rozwiązań dla międzynarodowych klientów od 2016 roku. Zapewniamy szeroką wiedzę specjalistyczną w zakresie systemów wbudowanych, uczenia maszynowego, technologii AR / VR i przetwarzania obrazu.
Oczekiwania
Wyamagania techniczne
- Duże doświadczenie w administrowaniu systemem Linux (Ubuntu) i rozwiązywaniu problemów,
- Praktyczne doświadczenie z Kubernetes, obejmujące rozwiązywanie problemów z klastrami i analizę kontenerów,
- Praktyczna woedza z Dockera
- Solidna znajomość zagadnień sieciowych i diagnozowania problemów związanych z siecią,
- Doświadczenie w rozwiązywaniu problemów z NFS/pamięcią masową,
- Znajomość operacyjna środowisk GPU/CUDA (kompatybilność, stabilność),
- Doświadczenie pracy z:
- RabbitMQ,
- PostgreSQL.
Dodatkowe wymagania
- Gotowość do udziału w dyżurach/rotacjach,
- Gotowość do podróży służbowych, w tym wizyt klientów na miejscu,
- Umiejętność samodzielnej pracy w złożonych, rozproszonych środowiskach,
Wysoko rozwinięte umiejętności analityczne i rozwiązywania problemów.
Obowiązki
Obsługa incydentów i konserwacja systemu
- Diagnozowanie i rozwiązywanie problemów związanych z:
- Klastrami Kubernetes
- Kontenerami (Docker)
- Linux (Ubuntu)
- sieciami
- pamięć masowa (w tym NFS),
- Analizowanie logów i stanu usług na różnych warstwach aplikacji i infrastruktury,
- Restoring full system functionality in production environments,
- Przywracanie pełnej funkcjonalności systemów w środowiskach produkcyjnych,
- Uczestnictwo w interwencjach na miejscu, gdy problemów nie można rozwiązać zdalnie.
Automatyzacja, obserwowalność i odporność systemu
- Projektowanie i tworzenie zautomatyzowanych mechanizmów rozwiązywania problemów,
- Wczesne wykrywanie problemów na poziomie infrastruktury i aplikacji,
- Zautomatyzowana walidacja stanu kluczowych komponentów systemu:
- OS,
- Kubernetes,
- kontenery,
- storage,
- sieciami
- Tworzenie rozwiązań do kontroli stanu systemu i obserwacji (metryki, alerty, pulpity nawigacyjne),
- Tworzenie i utrzymywanie:
- elementy runbook,
- standardowe procedury odzyskiwania,
- zautomatyzowane mechanizmy samoleczenia,
- Dokumentowanie typowych incydentów, przyczyn źródłowych i metod rozwiązywania problemów.
Współpraca i doskonalenie architektury
- Bliska współpraca z zespołami programistycznymi i architektonicznymi,
- Wkład w uproszczenie i standaryzację architektury,
- Poprawa ogólnej stabilności i niezawodności systemu,
- Wspieranie długoterminowych wysiłków mających na celu redukcję kosztów operacyjnych i interwencji ręcznych.
Oferujemy
- Elastyczne godziny pracy
- Opcje pracy zdalnej
- Program opieki medycznej
- MultiSport
- Pizza w piątki
- Umowa o pracę lub samozatrudnienie, w zależności od Użytkownika
Aplikujesz na pozycję:

