Witam
Od jakiegoś czasu serwer, który pracuje na systemie Windows Server 2012 sam się restartuje. Wcześniej było to raz w tygodniu, teraz 2-3 razy dziennie. Jak znaleźć przyczynę samoistnego resetowania?
Spróbować zacząć od logów i przeglądnięcia dumpa z bluescreeena (?). Restart ‘grzeczny’, czy zawiesza się? Co jest w logu?
Nie wiem gdzie dokładnie szukać.
Sprawdziłem błędy i mam dużo wpisów z informacją “Sterownik … wymagany dla drukarki … jest nieznany. Przed ponownym zalogowaniem skontaktuj się z administratorem w celu zainstalowania sterownika.”
Myślę że to jest mało istotne bo na serwerze nic się nie drukuje i nie są potrzebne drukarki.
Mam w błędach informacje “Poprzednie zamknięcie systemu przy 10:56:38 na 2021-04-12 było nieoczekiwane.” i to koniec opisu błędu.
Obok drugi wpis “Nastąpił ponowny rozruch komputera po operacji wykrywania błędów. Wyniki tej operacji były następujące: 0x000000ef (0xfffffa8012f0e980, 0x0000000000000000, 0x0000000000000000, 0x0000000000000000). Zrzut zapisano w: C:\Windows\MEMORY.DMP. Identyfikator raportu: 041221-21453-01.”
Plik MEMORY.DMP próbowałem otworzyć w Notepad++ ale mam komunikat, że plik jest za duży by go otworzyć w tym programie.
Gdzie dokładnie?
W temacie o resecie, w treści o restarcie…
Niedawno u kolegi, wprawdzie nie na serwerze a w zwykłym pececie, też były samoistne restarty. Przyczyną były za niskie napięcia bateryjki od CMOS.
Panel sterowania\Wszystkie elementy Panelu sterowania\Narzędzia administracyjne\Podgląd zdarzeń\Podgląd zdarzeń (Lokalny)
[quote=“bachus, post:2, topic:646765”] Restart ‘grzeczny’, czy zawiesza się? Co jest w logu? [/quote] Restart ‘grzeczny’, nie zawiesza się.
O co chodzi z tym linkiem? Coś ma zainstalować?
No to trochę mało Szukaj ostrzeżeń i błędów w logu System.
W zakładce system mam błąd krytyczny o treści “System został uruchomiony ponownie bez uprzedniego czystego zamknięcia. Przyczyną tego błędu może być fakt, że system przestał odpowiadać, uległ awarii lub nastąpiła nieoczekiwana utrata zasilania.”
W zakładce szczegóły tego błędu mam:
*EventData
BugcheckCode 239
BugcheckParameter1 0xfffffa8012f0e980
BugcheckParameter2 0x0
BugcheckParameter3 0x0
BugcheckParameter4 0x0
SleepInProgress 0
PowerButtonTimestamp 0
BootAppStatus 0"
No ale to jest post factum Nas interesuje, co się dzieje wcześniej.
Masz w ‘zasięgu’ kogoś bardziej technicznego? To jest jakiś produkcyjny serwer, czy używasz jako ‘desktopu’?
Jest to serwer (fizyczna maszyna stojąca w budynku). Nie jest używany jako desktop. Ten serwer udostępnia system do pracy na jednostki klienckie w sieci lokalnej. Jak się do niego loguje codziennie jest informacja, że system został nieoczekiwanie zamknięty i żeby podać przyczynę dlaczego został wyłączony (zrestartowany). Po restarcie nie trzeba się do niego (serwera) logować by system do pracy na jednostkach klienckich działał.
Wydaje mi się, że jak nie podstawowych masz umiejętności w przeglądaniu logów, oraz ‘dumpów’ z bluescreen będzie utrudniona diagnoza. Trzeba zacząć od podstawowej rzeczy co się dzieje w systemie przed samym wystąpieniem restartu. Event Viewer:
https://www.youtube.com/watch?v=J6vUOyxmU1o&ab_channel=DalePowell
Aby go otworzyć możesz np. tak:
Dzięki za film instruktażowy.
Tu mam kilka logów z zakładki System:
Błędy:
- Usługa Usługa licencji infrastruktury serwera niespodziewanie zakończyła pracę. Wystąpiło to razy: 1. W przeciągu 16 milisekund zostanie podjęta następująca czynność korekcyjna: Uruchom usługę ponownie.
- Nastąpił ponowny rozruch komputera po operacji wykrywania błędów. Wyniki tej operacji były następujące: 0x0000007a (0xfffff6fc4000db00, 0xffffffffc000000e, 0x0000000170dc5860, 0xfffff88001b60970). Zrzut zapisano w: C:\Windows\MEMORY.DMP. Identyfikator raportu: 041321-21796-01.
- Usługa Usługa licencji infrastruktury serwera niespodziewanie zakończyła pracę. Wystąpiło to razy: 1. W przeciągu 16 milisekund zostanie podjęta następująca czynność korekcyjna: Uruchom usługę ponownie.
Najwięcej jest błądów z drukarkami chociaż ich nie instalowałem (dla każdej drukarki sieciowej)
4. Sterownik Send to Microsoft OneNote 16 Driver wymagany dla drukarki OneNote (Desktop) jest nieznany. Przed ponownym zalogowaniem skontaktuj się z administratorem w celu zainstalowania sterownika.
Krytyczne:
System został uruchomiony ponownie bez uprzedniego czystego zamknięcia. Przyczyną tego błędu może być fakt, że system przestał odpowiadać, uległ awarii lub nastąpiła nieoczekiwana utrata zasilania.
Ostrzeżenia:
- Intel® Ethernet Connection I217-LM Network link is disconnected.
Najlepiej by było zacząć od analizy MEMORY.DUMP za pomocą https://www.nirsoft.net/utils/blue_screen_view.html - zainstalować na serwerze i zobaczyć co pokazuje.
Poniżej typ i kod błędów z programu blue screen view
KERNEL_DATA_INPAGE_ERROR 0x0000007a
CRITICAL_PROCESS_DIED 0x000000ef
Te 2 błędy powtarzają się na liście.
Szukając w Google czegoś o pierwszym błędzie znalazłem podejrzenie, że może to być problem z dyskiem lub pamięcią RAM. Przeskanowałem dysk programem HD Tune i szybki skan nie wykazał uszkodzeń dysku.
Co do testowania RAM-u jest możliwość przetestowania na uruchomionym w systemie Windows (memtest jest bootowalny więc podczas testu pamięci RAM usługi serwera nie będą dostępne dla klientów).
Przecież i tak nie są skoro co jakiś czas się ten wynalazek restartuje.
Nie ma tam żadnego ILO, iDRACa czy innego układu monitorującego pracę sprzętu? Jeżeli wystąpiła usterka sprzętowa a zwłaszcza pamięci, to tam na pewno zostanie odnotowane to zdarzenie wraz z informacją w którym slocie, kiedy i co właściwie się stało
No jak nie masz możliwości przetestowania pamięci, to dalej ciężko Ci pomóc. Wyznacz okno serwisowe i tyle, całkiem spora ilość pamięci powinna się przetestować w noc.
Jak też kolega wspomniał: podaj dokładny model serwera, może jest tam ILO/IMM/xClarity czy coś podobnego.
HdTune przy dokładnym sprawdzeniu dysku też nie znalazł błędów. Pamięć RAM postaram się przetestować w ciągu tygodnia.
Model serwera to Actina SOLAR 100 S6
Ten wpis został oflagowany przez społeczność i został tymczasowo ukryty.