Serveraussetzer alle 5 Minuten - Was kann der Grund sein?

Es gibt 75 Antworten in diesem Thema. Der letzte Beitrag () ist von Nitro-X.

    Serveraussetzer alle 5 Minuten - Was kann der Grund sein?

    Um dem Problem der aktuellen Serveraussetzer genauer auf den Grund gehen zu können, habe ich nun diesen neuen Thread eröffnet. Der Grund ist, dass meine beiden bereits zu dem Thema gestarteten Threads quasi eine Sackgasse waren und vor allem mittlerweile unübersichtlich geworden sind. Außerdem kann ich mittlerweile einiges ausschließen, was als Problem in Frage kommt.

    Folgende Fakten gibt es derzeit:
    - Die Aussetzer kommen exakt alle 5 Minuten.
    - Vor dem letzten Serverneustart vor einigen Tagen waren dies glatte Zeiten, wie z. B. 18:00, 18:05, 18:10 Uhr usw.
    - Mittlerweile (nach dem Neustart) sind diese um z. B. 17:59:23, 18:04:23, 18:09:23 Uhr usw.
    - Edit: Die Zeiten verschieben sich definitiv bei jedem Neustart, es bleibt lediglich der 5-Minuten-Intervall.
    - Zum Zeitpunkt der Aussetzer gibt das Tool "iotop" einen Eintrag auf Platz 1 aus, nämlich "md2_raid1". Dies steht bei 99,99% IO (was immer IO hier aussagt, denn Disk Read und Disk Write sind jeweils auf 0 Byte/s). Ansonsten gibt es keine relevanten Einträge in der Liste.
    - "nload" gibt zum Zeitpunkt des Aussetzers keinerlei Datenübertragung an, weder eingehend noch ausgehend.
    - "htop" (grafische Version von "top") gibt vor den Aussetzern einen Load von maximal 0.2 an, teilweise bis 0.02 (sehr gering), während des Aussetzers im Regelfall 4-6 (sehr hoch).
    - Weiterhin zeigt htop während des Aussetzers keinerlei CPU-Aktivität an.
    - Die Prozessliste (sortiert nach CPU-Auslastung) zeigt keine relevanten Prozesse. Es sind nur die üblichen bzw. während der Aussetzer sind sogar weniger aktiv.
    - Edit: Der Ping bleibt konstant niedrig. Keine Aussetzer, keine Erhöhungen.

    Was wurde geprüft/gemacht?
    - Sämtliche MySQL-Tabellen wurden (sofern dies aufgrund des Tabellentyps möglich war) optimiert ("OPTIMIZE")
    - Sämtliche System-Cronjobs und WBB-Cronjobs wurden geprüft - keiner ist Schuld an den Aussetzern bzw. es wird kaum etwas ausgeführt
    - Die PHP-Ausführung wurde von Fast-CGI auf mod_php umgestellt, bringt keinerlei Änderung
    - Es wurde kurzzeitig die Zeitmessung bei MySQL-Abfragen eingeschaltet. Ergebnis: Keine Abfrage braucht unnötig lange.
    - Das System wurde aktualisiert und neugestartet
    - Edit: Beide Festplatten wurden einem SMART-Langtest unterzogen. Ergebnis: Alles in Ordnung.
    - Edit: Mittlerweile kann ich durch einige Tests definitiv zu 100% ausschließen, dass Apache oder MySQL irgendwas mit den Aussetzern zu tun haben.

    Daten zum Server:
    - Debian 6.07 x64
    - CPU: 6x 2,8 GHz (AMD)
    - RAM: 16 GB DDR3
    - Festplatten: 2x 1 TB, RAID 1 (Software)
    - Jegliche Software ist auf dem neuesten Stand (zumindest auf dem neuesten Stand von Debian 6), Edit: Kernel ist Version 2.6.3.

    Was habt ihr noch für Ideen?
    Besucht auch mein anderes Forum:
    Das Amateurfilm-Forum

    Dieser Beitrag wurde bereits 4 mal editiert, zuletzt von „Marcus Gräfe“ ()

    So ist es. Wobei ich ja schrieb, dass ich mittlerweile auch dort keine Infos mehr brauche. Es geht jetzt konkret nur noch um die Lösung des Problems. Dass ihr teilweise sagt, ihr habt keine Probleme, wird wohl einfach daran liegen, dass ihr zufällig nicht in den paar Sekunden die Seite aufruft, in denen es den Aussetzer gibt.

    Edit. bzgl. deinem Edit: Nein, das ist ja mein Thread.
    Besucht auch mein anderes Forum:
    Das Amateurfilm-Forum
    könnte es vllt sein das alle 5 min irgentetwas auf dem server selber passiert?
    nur so eine idee
    ein server ist ja im grunde nix anderes als ein homerechner nur mit vielen weiteren extras (keine disskusion ich weiss was es ist)
    also könnte ja sein das sich alle 5 min irgentetwas startet? vllt ein virus oder so? vllt sollte man mal den ping vom server überprüfen um zu checken ob der serer alle 5min irgentwas runter bzw hochläd?
    könnte ja auch sein das das antivirprogramm alle 5 min die internetleitung kontrolliert und es dadurch zu laggs kommt...

    vllt kontrolliert der server auch nur die weltzeituhr und geht desshalb mit dem ping höher weil dan jeder wieder hier im forum auf "neu laden" klickt und der server für einige zeit überlastet ist?
    Das alles deutet auf kaputte Festplatten hin. SMART-Werte mal überprüfen mit einem Long-Test vorher.
    Siehe auch hier.
    To make foobar2000 a real random music player, I figured out the only way to achieve this is to use Windows Media Player.

    At some point in time, you recognize that knowing more does not necessarily make you more happy.
    @Renati: Habe parted nicht installiert. Ich kann's gerne installieren, aber evtl. erhält man die von dir erwartete Ausgabe auch von anderen Tools. Was würde man evtl. sehen können?

    @Chrisber: Den Thread hatte ich bei meiner Recherche auch gefunden. Aber warum tritt das Problem bei mir nur exakt alle 5 Minuten auf? Das müsste doch die ganze Zeit auftreten. Alles zwischen den 5 Minuten klappt wunderbar, Backups zippen (auch mit > 1 GB), Uploads, Downloads usw.
    Besucht auch mein anderes Forum:
    Das Amateurfilm-Forum
    @da-kid: Definitiv nicht. Es sei denn, das Software-RAID synchronisiert sich alle fünf Minuten. Aber eigentlich sollte das doch konstant erfolgen, oder? Auf jeden Fall wird nichts extern gesichert.
    Besucht auch mein anderes Forum:
    Das Amateurfilm-Forum

    Marcus Gräfe schrieb:

    @Renati: Habe parted nicht installiert. Ich kann's gerne installieren, aber evtl. erhält man die von dir erwartete Ausgabe auch von anderen Tools. Was würde man evtl. sehen können?


    Nach deinen Beschreibungen zu urteilen sind am ehesten regelmäßige I/O-Aktivitäten für die Aussetzer verantwortlich. Das könnte zum Beispiel das Schreiben des Caches sein. Abhängig vom Dateisystem könnte man sich dann auf diesem Weg weiter vorarbeiten. df -T sollte in dieser Hinsicht eine ebenso aufschlussreiche Tabelle liefern.

    Und /proc/mdstat sollte den Status des Soft-RAIDs anzeigen. Wäre ein komisches Symptom, aber man weiß ja nie. ;)
    /proc/mdstat prüfe ich regelmäßig. Nach meinem Wissen ist da nichts Auffälliges:

    Quellcode

    1. Personalities : [multipath] [faulty] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [linear]
    2. md0 : active raid1 sda1[0] sdb1[1]
    3. 488192 blocks [2/2] [UU]
    4. md2 : active raid1 sda3[0] sdb3[1]
    5. 972272320 blocks [2/2] [UU]
    6. md1 : active (auto-read-only) raid1 sda2[0] sdb2[1]
    7. 2000000 blocks [2/2] [UU]
    8. unused devices: <none>


    df -T liefert:

    Quellcode

    1. Dateisystem Typ 1K‐Blöcke Benutzt Verfügbar Ben% Eingehängt auf
    2. /dev/md2 ext3 957016428 99268512 809134300 11% /
    3. tmpfs tmpfs 8217912 0 8217912 0% /lib/init/rw
    4. udev tmpfs 8212896 132 8212764 1% /dev
    5. tmpfs tmpfs 8217912 0 8217912 0% /dev/shm
    6. /dev/md0 ext3 472744 28433 419902 7% /boot
    Besucht auch mein anderes Forum:
    Das Amateurfilm-Forum
    Hm ja, RAID sieht normal aus. Dann würde ich jetzt mal die Mount-Optionen der EXT3-Platten anschauen. Die Standardwerte sollte sudo tune2fs -l /dev/md2 ausgeben, die aktuelle Konfiguration einfach auf herkömmliche Weise mit mount.
    Starte doch einfach mal einen SMART Long-Test in der Nacht. Dauert ein paar Stündchen. Danach schaust du dir die Werte an.
    Schaden tut es sicher nicht und du hast Gewissheit.

    "Das kann theoretisch nicht sein"-Haltungen haben bei mir schon oft zu langen Suchen bei Problemen geführt, obwohl ein einfacher Check des Offensichtlichen gereicht hätte ;-)
    To make foobar2000 a real random music player, I figured out the only way to achieve this is to use Windows Media Player.

    At some point in time, you recognize that knowing more does not necessarily make you more happy.
    Ich habe via smartctl -t short /dev/sda (bzw. sdb) einen SMART-Kurztest angestoßen. Allerdings frage ich mich, wo man das Ergebnis sieht. Es steht dann dort, dass der Test in einer Minute beendet ist, aber nicht, wo man das Ergebnis abrufen kann.

    Auf jeden Fall gibt smartctl -a /dev/sda (bzw. sdb) folgende Daten aus:

    sda

    Quellcode

    1. smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
    2. Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
    3. === START OF INFORMATION SECTION ===
    4. Device Model: Hitachi HDS721010DLE630
    5. Serial Number: MSK5235H0BB4VG
    6. Firmware Version: MS2OA5R0
    7. User Capacity: 1.000.204.886.016 bytes
    8. Device is: Not in smartctl database [for details use: -P showall]
    9. ATA Version is: 8
    10. ATA Standard is: ATA-8-ACS revision 4
    11. Local Time is: Sat Jul 27 23:57:54 2013 CEST
    12. SMART support is: Available - device has SMART capability.
    13. SMART support is: Enabled
    14. === START OF READ SMART DATA SECTION ===
    15. SMART overall-health self-assessment test result: PASSED
    16. General SMART Values:
    17. Offline data collection status: (0x85) Offline data collection activity
    18. was aborted by an interrupting command from host.
    19. Auto Offline Data Collection: Enabled.
    20. Self-test execution status: ( 0) The previous self-test routine completed
    21. without error or no self-test has ever
    22. been run.
    23. Total time to complete Offline
    24. data collection: (8186) seconds.
    25. Offline data collection
    26. capabilities: (0x5b) SMART execute Offline immediate.
    27. Auto Offline data collection on/off support.
    28. Suspend Offline collection upon new
    29. command.
    30. Offline surface scan supported.
    31. Self-test supported.
    32. No Conveyance Self-test supported.
    33. Selective Self-test supported.
    34. SMART capabilities: (0x0003) Saves SMART data before entering
    35. power-saving mode.
    36. Supports SMART auto save timer.
    37. Error logging capability: (0x01) Error logging supported.
    38. General Purpose Logging supported.
    39. Short self-test routine
    40. recommended polling time: ( 1) minutes.
    41. Extended self-test routine
    42. recommended polling time: ( 137) minutes.
    43. SCT capabilities: (0x003d) SCT Status supported.
    44. SCT Error Recovery Control supported.
    45. SCT Feature Control supported.
    46. SCT Data Table supported.
    47. SMART Attributes Data Structure revision number: 16
    48. Vendor Specific SMART Attributes with Thresholds:
    49. ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
    50. 1 Raw_Read_Error_Rate 0x000b 088 088 016 Pre-fail Always - 5570560
    51. 2 Throughput_Performance 0x0005 139 139 054 Pre-fail Offline - 80
    52. 3 Spin_Up_Time 0x0007 115 115 024 Pre-fail Always - 200 (Average 199)
    53. 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 60
    54. 5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
    55. 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
    56. 8 Seek_Time_Performance 0x0005 115 115 020 Pre-fail Offline - 34
    57. 9 Power_On_Hours 0x0012 099 099 000 Old_age Always - 12275
    58. 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
    59. 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 60
    60. 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 69
    61. 193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 69
    62. 194 Temperature_Celsius 0x0002 162 162 000 Old_age Always - 37 (Lifetime Min/Max 23/39)
    63. 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
    64. 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
    65. 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
    66. 199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
    67. SMART Error Log Version: 1
    68. No Errors Logged
    69. SMART Self-test log structure revision number 1
    70. Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
    71. # 1 Short offline Completed without error 00% 12275 -
    72. # 2 Short offline Completed without error 00% 12275 -
    73. # 3 Short offline Completed without error 00% 8750 -
    74. # 4 Extended offline Completed without error 00% 303 -
    75. # 5 Extended offline Completed without error 00% 300 -
    76. # 6 Short offline Completed without error 00% 0 -
    77. SMART Selective self-test log data structure revision number 1
    78. SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
    79. 1 0 0 Not_testing
    80. 2 0 0 Not_testing
    81. 3 0 0 Not_testing
    82. 4 0 0 Not_testing
    83. 5 0 0 Not_testing
    84. Selective self-test flags (0x0):
    85. After scanning selected spans, do NOT read-scan remainder of disk.
    86. If Selective self-test is pending on power-up, resume after 0 minute delay.

    sdb

    Quellcode

    1. smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
    2. Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
    3. === START OF INFORMATION SECTION ===
    4. Device Model: Hitachi HDS721010DLE630
    5. Serial Number: MSK5235H07XVLG
    6. Firmware Version: MS2OA5R0
    7. User Capacity: 1.000.204.886.016 bytes
    8. Device is: Not in smartctl database [for details use: -P showall]
    9. ATA Version is: 8
    10. ATA Standard is: ATA-8-ACS revision 4
    11. Local Time is: Sat Jul 27 23:57:33 2013 CEST
    12. SMART support is: Available - device has SMART capability.
    13. SMART support is: Enabled
    14. === START OF READ SMART DATA SECTION ===
    15. SMART overall-health self-assessment test result: PASSED
    16. General SMART Values:
    17. Offline data collection status: (0x85) Offline data collection activity
    18. was aborted by an interrupting command from host.
    19. Auto Offline Data Collection: Enabled.
    20. Self-test execution status: ( 0) The previous self-test routine completed
    21. without error or no self-test has ever
    22. been run.
    23. Total time to complete Offline
    24. data collection: (7361) seconds.
    25. Offline data collection
    26. capabilities: (0x5b) SMART execute Offline immediate.
    27. Auto Offline data collection on/off support.
    28. Suspend Offline collection upon new
    29. command.
    30. Offline surface scan supported.
    31. Self-test supported.
    32. No Conveyance Self-test supported.
    33. Selective Self-test supported.
    34. SMART capabilities: (0x0003) Saves SMART data before entering
    35. power-saving mode.
    36. Supports SMART auto save timer.
    37. Error logging capability: (0x01) Error logging supported.
    38. General Purpose Logging supported.
    39. Short self-test routine
    40. recommended polling time: ( 1) minutes.
    41. Extended self-test routine
    42. recommended polling time: ( 123) minutes.
    43. SCT capabilities: (0x003d) SCT Status supported.
    44. SCT Error Recovery Control supported.
    45. SCT Feature Control supported.
    46. SCT Data Table supported.
    47. SMART Attributes Data Structure revision number: 16
    48. Vendor Specific SMART Attributes with Thresholds:
    49. ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
    50. 1 Raw_Read_Error_Rate 0x000b 088 088 016 Pre-fail Always - 81
    51. 2 Throughput_Performance 0x0005 142 142 054 Pre-fail Offline - 70
    52. 3 Spin_Up_Time 0x0007 114 114 024 Pre-fail Always - 201 (Average 201)
    53. 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 60
    54. 5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
    55. 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
    56. 8 Seek_Time_Performance 0x0005 118 118 020 Pre-fail Offline - 33
    57. 9 Power_On_Hours 0x0012 099 099 000 Old_age Always - 12272
    58. 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
    59. 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 60
    60. 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 317
    61. 193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 317
    62. 194 Temperature_Celsius 0x0002 162 162 000 Old_age Always - 37 (Lifetime Min/Max 23/39)
    63. 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
    64. 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
    65. 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
    66. 199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
    67. SMART Error Log Version: 1
    68. No Errors Logged
    69. SMART Self-test log structure revision number 1
    70. Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
    71. # 1 Short offline Completed without error 00% 12272 -
    72. # 2 Short offline Completed without error 00% 8747 -
    73. # 3 Extended offline Completed without error 00% 297 -
    74. # 4 Short offline Completed without error 00% 0 -
    75. SMART Selective self-test log data structure revision number 1
    76. SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
    77. 1 0 0 Not_testing
    78. 2 0 0 Not_testing
    79. 3 0 0 Not_testing
    80. 4 0 0 Not_testing
    81. 5 0 0 Not_testing
    82. Selective self-test flags (0x0):
    83. After scanning selected spans, do NOT read-scan remainder of disk.
    84. If Selective self-test is pending on power-up, resume after 0 minute delay.

    Bei sda steht:

    Quellcode

    1. 1 Raw_Read_Error_Rate 0x000b 088 088 016 Pre-fail Always - 5570560

    Sieht nicht gut, aus, oder?
    Besucht auch mein anderes Forum:
    Das Amateurfilm-Forum
    schau dir ma folgenden seite an: de.wikipedia.org/wiki/Self-Mon…rting_Technology#Beispiel
    dort ist m.M.n. ziemlich gut erklärt wie man die werte interpretieren sollte