Nemožnost restartovat Omnii

Už pár měsícůmě trápí problém, který neumím vyřešit. Vždy je prvním projevem, že router pro některé weby odmítá resolvovat DNS dotazy, někdy vrcí ERROR, někdy NXDOMAIN.

V poslední době se k tomu ale přidalo velmi podivné chování, že v tohle stavu nejde restartovat přes admin. Foris se zachová velmi podivně (jen odscroluje stránku), LuCi zobrazí informaci, že reboot započal, ale za 2 sekundy je hotovo. Jediným řešením je vyškubnout kabel, nebo reboot -f.

Natočil jsem to zde: https://prnscr.jakub-boucek.cz/180717-mf3gy.mp4
SSH: https://prnscr.jakub-boucek.cz/180717-htwdu.png

Router je víceméně v defaultním nastavení. Co by to mohlo být?

Všiml jsem si ve Vašem videu, že ve Forisu svítí ,kroutítko" u Updateru … Jestli se nemýlím tak to znamená, že právě běží updater …

Nepřestane DNS resolver fungovat právě v době kdy se spustí update?

Tahle ikonka mi tam svítí už několik týdnů nepřetržitě – myslel jsem, že je to tlačítko pro manuální spuštění aktualizace. Takže mám problémů několik :frowning:

Můžu nějak manuálně odstranit tento problém?

Pokud máte router v defaultním nastavení, tak bych asi doporučil flash z USB (škody budou minimální, ba do budoucna naopak) = Přepis operačního systému novou verzí z USB disku z tohoto návodu: https://doc.turris.cz/doc/cs/howto/omnia_factory_reset. Není to těžké.

Mělo by to určitě vyřešit problém + v případě potíží v budoucnu bude factoray reset právě z naflashované verze OS a nebudete muset vše jak pitomec updatovat z té verze, se kterou byl router dodán. Přece jen je to už několik verzí a myslím si, že to také není úplně nejlepší řešení začínat od původní verze a postupně updatovat - je tam spousta prostoru pro nějakou komplikaci/selhání (klidně se to totiž mohlo stát při tom).

Co na to ostatní uživatelé? Také byste toto doporučili? Nechci někomu nutit něco úplně zbytečného.

1 Like

Super, díky za užitečné infromace. Chvíli počkám, jestli se nenajde ještě někdo s dalším tipem, pak to zkusím.

Neúspěšný DNS resolve po nějaké době většinou znamená nedostatek ram. To může obecně celý systém zpomalit natolik, že ho není možně ani skoro restartovat. Další možnost je, že prostě skutečně něco ten restart blokuje. Updater by to ale neměl být, ten ochodně zemře a jen za sebou nechá journal toho co vykonal/má ještě vykonat. Známým blokátorem jsou DDNS skripty ale kernel by je nakonec měl přecejen zabít a proto bych právě očekával nedostatek ram.
Pro dohledání prosím zašlete výstup z dmesg, free a hlavně du /tmp | sort -n (v tomto případě stačí jen pár řádků s největšími soubory). To by mohlo na první náhled problému stačit.

1 Like

NXDOMAIN je dost podezřelé, to by nemělo nastat pokud doména existuje, ani při nedostatku RAM nebo jiných problémech.

Tak v minulém týdnu jsem provedl factory reset podle návodu od @qxstyles. Vyřešil se tím tedy problém s ikonkou updateru, ale ostatní problémy zůstávají. Záměrně jsem v něm nic extra nenastavoval, pouze jsem nastavil heslo na Wi-Fi a nastavil jsem WWan (neberu internet z kabelu, pouze zesiluju sousední Wi-Fi z 2.4 a vysílám si jej na 5 GHz).

Celkem to dobře fungovalo asi půl dne. Pak se to vrátilo to rozbitého stavu podobného tomu předtím.

Diagnostika:
Po restartu router běží asi 30 minut, už v tu dobu jsou vidět výpadky latence. Připojení na 192.168.1.1 přes http je pomalé, mnohdy vyprší na timeout. To samé SSH.

Asi za půlhodinu router zdechne, respetive jediná funkční odezva je ping na 192.168.1.1 a funguje připojení na Wi-Fi (jen připojení, DHCP). Jiné služby ale nefungují. Na LEDkách mezi funkčním stavem a nefunkčním nepozoruji rozdíl, snad jen, že když zamrzne, tak PCI2 a PCI3 horlivě blikají jakoby se stahoval velký soubor.

Když se mi poštěstí, že se připojím na SSH, tak nechávám běžet příkazy htop a tail -f /var/log/messages v naději, že když dojde k zámrzu, tak tam zůstane viset něco, do mě poradí, ale není tam nic, čeho bych se chytil.

HTop ukazuje setrvale Load average: 0.01 0.04 0.04, tedy procesor se vyloženě fláká. Ani paměť není vytížená. Nic extra se nemění ani když router zrovna jede, nebo když se na tom špatně.

Současně monitoruji dostupnost stránky http://192.168.1.1/ na routeru a všiml jsem si souvislosti, že se zpravidla zpomalí a nebo úplně přestane reagovat, když ve svém browseru provednu nějakou aktivitu, hlavně otevření webu, kde je hodně reklam router vytíží. Naopak stahování jednoho souboru má minimální vliv. Myslel jsem si, že to je DNS, ale pak jsem si uvědomil, že už dávno mám na svých zařízeních aktivní buď DNS over http, nebo jedu přes DNS na čísle 1.1.1.1, protože DNS je v poslední době na routeru nepoužitelné (někdy prostě nenačte nic na DNSSECu).

Také jsem si všiml, že když mám puštěný htop a skenuji stránku 192.168.1.1, tak router vydrží živý déle, než když ho neměřím. A tomu už vůbec nerozumím.

Navíc mám v jiném bytě jiný Turris (v1.0, jiné město, úplně jiný provider), který už několik měsíců taky prakticky blokuje všechny domény s DNSSECem a žádná kombinace voleb v nastavení DNS nepomáhá. Vždy to funguje pár minut po restartu – takže mi to připadá, jako by se do routerů dostalo něco špatného s aktualizací.

Už nevím co dál, routery, co se musím každou půlhodinu restartovat mě nebaví a za tu cenu to vnímám jako špatný nákup. Ale to je jen pocit.

Prosím proto o pomoc, jak postupovat dál.

Hodně podivné … někdo další se tu snad ozve, ale já bych asi uvažoval o reklamaci (třeba je to ale přehnané).

Je mi divné, že to nějak běží půl hodinu, a pak konec. Mohla by to být i HW vada. Pokud by to bylo SW, tak by to dle mého názoru ten re-flash vyřešil.

1 Like

Len kontrolná otázka - je už Turris OS aktuálny? - t.j. 3.11.2? A čisto náhodou nepoužívate ddns?

Ano je.

To jsem zvážil, ale kupoval jsem to v rámci vstupní kampaně na Indiegogo v roce 2016, takže záruka pápá :-/

Tak právě zatuhnul úplně. Tentokrát vydržel hodinu a půl.

Nebudete z toho někdo moudřejší?
Screenshot: https://cdn.jakub-boucek.cz/screenshot/190305-ojs8n.png

Taky se přidám…
Mě zase udivuje jedna věta:

To mě totiž připadá zacyklení (zpětná vazba) sítě.

Možná Vám pomůže povolit na rozhranních protokol STP.

EDIT: … a ještě mě napadlo, jestli není kolize IP adres.

1 Like

Ale v rámci Indiegogo byl jeden ze Stretch goals “prodloužení záruky na 3 roky”. Takže záruka OK :wink:

2 Likes

Také si to myslím, mám to taky tak a v podvědomí si pamatuji zároku 3 roky.

Taky mi to pripada jako nejaka smycka v siti, mozna wifi0 se pripoji na wifi1 a je srandy kopec. Muzes sem vlozit obsah souboru z foldru etc/config/

 dhcp
 firewall
 network
 wireless 

(odstran hesla)