Nedostupné disky po nějaké době běhu TO


#1

Zdravím.
Začalo se mi stávat že po nějaké době běhu TO s NAS rozšířením se nedostanu na HDD nebo je jeden nedostupný a druhý read-only. Po restartu TO je vše zas v pořádku, data poškozená nejsou.
Oba disky jsou přibližně rok staré, jinde bez problémů fungují.
Mám osazen jiný řadič ale se stejným chipem jako původní. Výměna byla provedena z důvodu snižování rychlosti sítových disků až za hranici použitelnosti (viz. https://forum.turris.cz/t/samba-sekani-hd-videa/7520) ( ne nemohl za to řadič )
Rovnež je dovnitř TO přidán ventilátor .
Zátěž se zdá že nemá vliv na dobu selhání.
Níže přikládám syslog https://drive.google.com/file/d/1T9XO8mD7yNQd9DhJ2rrNLTztgxTRPKj1/view?usp=sharing

Předem děkuji


#2

Mas na nasu taky btrfs? Moje osobni zkusenost s btrfs na root partition turrisu, na nas disku, i na raspbianu je ta, ze cas od casu proste kernel neco pokazi a filesystem znici. Restart zarizeni v lepsich pripadech zaridi, ze probehne btrfs check --repair a fs je zase ok. V horsim pripade (napr. dneska na root partition meho turrisu) se s tim neda delat nic nez flashnout fs z image… Ovsem pokud to mas jako nas disk, tak bude asi jednodussi cistej format a obnovit ze zalohy (mas-li nejakou :slight_smile: ).


#3

Je tam brtfs, dělané přes úložiště v omnii ( nevzpomenu si teď jak se to přesně jmenuje ).
Druhý disk je ext4 ale ten se stane nedostupný rovněž.
Reboot trva jen dobu než naběhne systém, netrval by ten brtfs check delší dobu?
Data po resetu jsou zcela v pořádku, z těch které jsem ověřoval. Nemám tam nic kritického ale mělo to sloužit i pro zálohy.
Pokud je to rozkopaným FS tak mám obrovskou radost protože 2TB dát není kam dát ( ze bych si zas koupil další disk?). Navíc brtfs je pod oknama nemožné a všechny live CD tučňáků odmítají spolupráci.
Poslední dobou jsem z TO zklamaný čím dál víc. Děravý router a QNAP NAS byli ve stylu nastav a zapomeň, tady je to ve stylu kazdej den něco řeš.:frowning:


#4

Podívejte se sem USB Port Down_disk se nepřipojí, strašně podobný případ a do dneška se nepřišlo, čím to bylo. Osobně si myslím, že to jsou kontakty ale ruku do ohně nedám.


#5

Btrfs na win jde: https://github.com/maharmstone/btrfs . Jen je to zatim trochu nestabilni, ja od toho mel nejake BSOD pri odpojeni flashdisku…

Jinak btrfs check muze byt hotovy uz cca za 10 vterin…

Ja bych si osobne netroufnul mit jedinou zalohu dat v systemu, ktery je neustale online. Zalohuju vicestupnove - na lokalni PC, na NAS, do cloudu, a na externi disk, ktery jednou za ctvrt roku pripojim k PC a odzalohuju na nej. Ten exterak neni az tak kriticky, proto staci jednou za ctvrt roku - ale je to takova prijemna pojistka treba pro pripad, ze se neco podela softwarove, znici to dulezite soubory, a ty se pak odzalohuji vsemi online zpusoby zalohovani (nebo treba ransomware)

K Omnii obecne - taky jsem cekal, ze to bude trochu vic bezstarostne, ale na druhou stranu toho po te sve chci mnohem vic, nez bych chtel po obycejnem routeru. Jedine, co si myslim, ze by se opravdu nemuselo stavat, jsou ty nahodne chyby btrfs driveru, ale tam tezko rict, kolik toho vyvojiari CZNICu zmuzou… Cekam na TOS 4, kde by mely byt vsechny drivery novejsi, tak doufam, ze pak se stabilita vyrazne zlepsi (az se odladi uvodni mouchy).


#6

Kabely, disky, řadič je všechno nové. A v mini PCIe slotu jsou “napružené” kontakty. Navíc před jakoukoli montáží čehokoli čistím všechny kontakty koukající ven isopropylalkoholem + tvrdou gumou.
Jedinně že mikrotrhlina některého pájeného spoje ale to reset je proveden vzdáleně, na TO vůbec nesáhnu. A po resetu to funguje.

@peci1 Díky za tip, ja jsem občas použil to od DiskInternals ( s ext to funguje bezvadně ).
Důležité zálohy ( pokud to tak nazvu honosně ) jsou samozřejmě v cloudu.
Ty data které tam mám mě sice budou trápit chvíli ale nejsou nijak kritická.

Já jsem takový spíš nadšenec, takže podle tutoriálu věci zvládnu, v shellu se trochu zvladnu orientovat ale víc do toho nevidím. Navíc to “úložiště” je dostupné přes TO webové rozhraní které je spíše pro neznalé uživatele, LUCI přeci jen už chce něco víc (si myslím aspoň).
Já to mám jen jako router + NAS, líbilo se mi že místo dvou krabic bude jedna, HW specifikace taky krásná ale realita už je taková kulhající bohužel :frowning: .


#7

Tak z Vašeho logu jsem zjisti tuto závadu:

2019-03-24 15:33:20 err kernel[]: [ 3482.273690] ata2.00: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6 frozen
2019-03-24 15:33:20 err kernel[]: [ 3482.281333] ata2.00: irq_stat 0x08000000, interface fatal error
2019-03-24 15:33:20 err kernel[]: [ 3482.287309] ata2.00: cmd 25/00:00:28:91:5f/00:08:76:00:00/e0 tag 11 dma 1048576 in
2019-03-24 15:33:20 err kernel[]: [ 3482.287309]          res 50/00:00:27:91:5f/00:00:76:00:00/e0 Emask 0x10 (ATA bus error)

Od tohoto okamžiku máte problémy jak s diskama, tak s FS ale i s SATA řadičem a pomůže jenom restart a autooprava FS.

To je zlé, osobně jsem se s tímto problémem nesetkal, tak jsem použil strýčka google (někde doporučují aktualizovat firmware řadiče, někde zase výměna kabelů stata2@stata3 apd. - kdo ví, jestli tam není nejaký spindown, který by vypnul řadič nebo disky při nečinosti):

https://forums.unraid.net/topic/57403-what-are-emask-0x0-sact-0x0-serr-0x0-action-0x6-frozen-errors
https://nixcasopis.com/questions/3138/jsou-tyto-chyby-sata-nebezpecne
https://bugzilla.redhat.com/show_bug.cgi?id=549981

Každopádně tyto řádky jsou příčinou Vašich problémů a nemám ponětí, čím by to mohlo být a jak to spravit. Možná se tady někdo už ozve, co a jak dál.


#8

Děkuji všem za podněty, zkusím nastudovat ten update FW řadiče.