NAS box a restarty routeru

Ahoj,
vím, že se to tady řešilo pár let zpět, nicméně bych toto téma chtěl znovu otevřít.

Mám Turris Omnia přemontovaný do NAS boxu zatím s jedním SSD diskem. Součástí balení byl SATA řadič do miniPCIe slotu (ASM1062). Vše jsem přestavěl z původního boxu, zapojil a na první pohled vše fungovalo. Na SSD jsem rozjel btrfs a nad ním Sambu a APFS.

Při kopírování nových dat se začal router zasekávat a to tím způsobem, že jakmile se zatížil disk, sběrnice se zhroutila a už to hlásilo v dmesg jen I/O errors a nešlo nic zapsat ani číst. Pomohl jen restart routeru.

Určitý workaround je snížení rychlosti SATA sběrnice pomocí doplnění parametru k jadernému modulu libata, konkrétně přidáním libata.force=3.0 do kernel cmd line.

Po zavedení workaroundu je router relativně stabilní a kopírování běží ještě rozumnou rychlostí. Nicméně tu a tam se router pro změnu samovolně restartuje. Vypozoroval jsem, že se tak stane opět při zatížení, jakmile začnou zařízení na síti zálohovat svoje data na Omnii.

Bohužel, po restartu routeru nezůstanou nikde žádné logy, dmesg nebo cokoliv, kde by se dala chytit nějaká chybová hláška nebo cokoliv. Prostě normálně pracuji a najednou vidím jak na Turrisu lítají LEDky tam a zpět a router restartuje.

Stalo se to někomu nebo máte nějakou zkušenost?

Díky

Mozna relevantni? Turris OS 5.4.4 is released - #9 by pete

1 Like

Mam take (nepotvrdene) podozrenie ze je to spotrebou tych sata diskov. Mam tam jeden star 3.5" 1tb wd black a jedno ssd (lacak adata).

Ked som tam skusal dat 5w noctua fan, tak mi to spolahlivo failovalo na kazdom boote. Vymenil som ho za lower rpm/power verziu a teraz je to hit/miss (raz nabehne OK a raz nie).

Oproti tvojmu problemu to mam stabilne, ked to uz raz nabehne.

Davas tomu velky load ked ti to pada? Kolko tam mas diskov?

Mám tam přesně 1 SSD disk Kingston. Ta věc s napájením mě také napadla. Zkoušel jsem i vyhodit wifi karty, aby to opravdu jelo jen samotnej board + SATA řadič + SSD, ale nespozoroval jsem rozdíl.

Nicméně mi nešlo do hlavy, že by to nezvládlo jeden disk, když je ten NAS box v podstatě dělanej na dva a i ten kablík, co tahá napájení z desky, má dva napajecí SATA konektory.

Ono je teda i možné, že mám prostě vadný board. Navzdory tomu, že jsem jinak s Omnií velmi spokojen, od začátku mi nefungovala moc spolehlivě wifi (odpojovala se jedna 5Ghz karta, po nějaké době byla prostě disabled). Ale spíše jsem kladl vinu zabugovanýmu kernel modulu. Pak se začaly v nabídce Turrisu objevovat i jiné ovladače na tutéž kartu, ale to už jsem jí nepoužíval a mám extra wifi AP od jiného výrobce.

Spíše ne. U mě není problém, že by disk nebyl vidět nebo se nemountnul. Vše běží bez problémů než to zatížím.

Ještě odpoveď k otázce loadu: Pokud nepoužiju kernel param na pomalejší SATA a jedu plnou rychlostí 6Gbit/s, stačí kopírovat na disk v zásadě libovolný soubor co má desítky MB a řadič crashne. Do rebootu to nejede.

Pokud použiju parametr jádra a degraduju rychlost na 3.0 nebo 1.5 Gbit/s, tak to v zásadě funguje. Kopíruju tam i zpět bez problémů třeba několik dní a pak se to jednoho dne prostě rebootne.

Pokud máš aktivní “Storage plugin” tak si v ReForisu aktivuj ukládání logů na ssd - budeš pak mít logy i po restartu:
Správa - Údržba - Uchování systémových záznamů

Pokud “Storage plugin” nepoužíváš tak ty logy na ssd jde nastavit i ručně v konfiguráku syslogu-ng …
/etc/syslog-ng.conf
takhle to tam mám já :

destination messages {
file("/var/log/messages");
file("/mnt/flashdisk/Syslog-ng/messages");

Super. Díky. Nastavil jsem. Třeba to něco napoví.

jen pro jistotu - restartoval jsi syslog-ng ? zkontroluj si, že se ti to ukládá kam potřebuješ :slight_smile:

Jo, restartoval jsem. Kontroloval jsem i ten soubor a sypalo to tam nejakej bordel od DHCP daemonu, takze to asi funguje.

Ahoj, nevím jestli to je řadičem nebo napájením, mně to dělá i USB3 disk od WD s externím napájením, při kopírování větších souborů (jednotky GB) v asi 50% nastane restart routeru (MOX).

Mno to je otázka, zda je to tedy HW problém. Možná kernel bug?

V mém případě jsem si ještě říkal, že to může být pochybnou kvalitou SATA řadiče. Přeci jenom jsem moc řadičů do miniPCIe nenašel, kromě teda této anomálie od ASMedia, kterou vlastním.

Ale pokud se dějou podobné podivnosti i na USB sběrnici… :face_with_raised_eyebrow:

1 Like

A keby si vyskusal mat disk nejaku dobu pripojeny cez USB3 cez nejaky ramik? Tym by si teoreticky vylucil vadu toho SATA radica.

Ja mam NAS box uz par rokov a tiez som s nim zazil vselico, ale nikdy mi nesposobil restart Omnie a to tam mam 2x 2,5" HDD (momentalne 5TB 12mm vysoky Seagate).

1 Like

Jako asi větší problém bylo to jak se to dostávalo do I/O erroru. To jsem pořešil tím workaroundem.

Ty restarty se dějí jen občas. Někdy to tu zátěž přežije, někdy ne. Dá se s tím žít, ale spíše mě trápí, že to není až tak spolehlivé a děje se tam něco, čemu nerozumím, takže jsem založil toto vlákno čistě pro sdílení zkušenosti.

Nicméně dobrej nápad byl od Jerryho, kterak zapnout logging i na externí disk. Je šance, že to hodí něco do logu než se to rebootne. Od té doby se to teda zrovna nestalo.

Jednu domu mi podobné chování v zátěži dělal USB disk na turrisu 1.x.
Disk byl prostě vadný.

Zkoušel jsi jej otestovat i v PC.

Tak, prave se odehral neplanovany reboot.

V syslogu vubec nic. Posledni hlaska 10:00 od cronu … a pak az 12:01 start syslogu a boot

Tohle je celkem frustrujici zarizeni, jakkoliv je jinak dobry :slight_smile:

1 Like

No, pokud dojde k selhani disku, tak uz asi tezko na ten disk neco zapises do logu :slight_smile: Spis bych zapojil do USB flashdisk a logy psal na nej… Treba se tam stihnou zapsat. Pokud ne, tak posledni zachrana je seriak a stary dobry debug pres terminal…

1 Like

Mozno je to blbe, ale ako original indiegogo backer - by som bol celkom happy ak by s tymto troubleshootingom pomohol napr. aj niekto z turris teamu…

Možnosti s tím něco dělat jsou nejspíš celkem omezené, s podobnou situací jsem se setkal u SAT receiveru ke kterému jsem si přes USB připojeli externí plotnový hard disk. Také to bylo nestabilní a havarovalo a pomohlo vyměnit napájecí adapter za výkonnější. Pokud to nepomůže ještě můžete zkusit jinou branch např HBK ale to už chce trochu odbornosti, ladění a zkoušení. Na druhou stranu v HBK je nyní liux kernel jádro 5.15.70. Je tedy možné že může mít trochu lepší ovladač toho ASM řadiče. Pokud bude chování úplně stejné tak to nejspíš bude HW problém. Tipnul bych na ten napaječ ale opravdu nevím. Pak ještě případně zaexperimentovat s tím jiným hard diskem. Takto bych asi postupoval já. Pokud opravdu potřebujete nas v routeru tak si tam dejte nějaké vhodně velké msata SSD případně zkusit dát místo plotnového disku přímo sata SSD přes ten řadič a uvidíte jak se to bude chovat.

OK, diky vsem za rady. Zkusim lepsi adapter a uvidime.

Ten NAS box byl spise takovy pokus. Mam doma Synology NAS s plotnama, ale je to starsi kousek a tehdy to byl nejaky hodne low-budget model, takze je celkem pomaly. (Jasne, mohl bych mu koupit SSD a byl by rychlejsi, ale i tak je to minimalni model, kde nektere fce nefunguji).

Chtel jsem ho vymenit za novejsi, lepsi, ale on i relativne zakladni model je 8-9k + 2xSSD 2TB za 4.500 a jsem v tom za 18.000, coz se mi moc nechtelo. Navic jsem linux clovek, tak mi NASbox na turrisu prislo jako prima napad. Necekal jsem teda tyto potize. Tvurci Turrisu se tvarili, ze to je velmi univerzalni zarizeni a dle dostupnych informaci jsem nabyl dojmu, ze NAS funkce je na tomto stroji vcelku bezna vec. Ackoliv chapu, ze je to primarne router a snazim se z toho delat server. Ale tak jsou filozofii pochopil, ze je to jako “vice nez router”.

Mozna to nakonec dopadne tak, ze proste koupim drazsi Syno, dokoupim druhe SSD a Turris bude jen routovat. Ale chci tomu jeste dat sanci, kdyz uz jsem si dal tu praci s prendanim Turrisu do toho obriho boxu :smiley: Zpatky se mi to moc predelavat nechce.