Crawler in Contao 4.9 indexiert nicht.

Druckbare Version

17.09.2020, 10:41
mimamuxx

Crawler in Contao 4.9 indexiert nicht.

Hallo,

ich habe eine Contao Neuistallation (Manager) und habe die Installation über eine Testdomain aufgebaut. Jetzt ist die Seite unter der endgültigen URL zu finden. Leider funktioniert jetzt der Crawler nicht mehr.

Code:

Broken link! Could not request properly: Couldn't resolve host name for "https://xyz.de/be.html"..

BE ist hierbei der Alias vom Root-Element. Wenn ich es manuell öffne werde ich automatisch auf die Startseite weitergeleitet.
Der Crawler findet keine Inhalte.
Der Startpunkt der Seite hat im BE den Domainnamen eingetragen.

Hat jemand ne Idee an was das liegen könnte?

Danke!
17.09.2020, 13:20
mokaki

schau mal ob

Seitenstruktur > Startseite
HTTPS verwenden - angeklickt ist...
17.09.2020, 22:00
mimamuxx

ja, ist aktiviert!
20.09.2020, 23:20
mimamuxx

irgend Jemand eine Idee?
17.12.2020, 13:44
MrLumbergh

Habe genau das gleiche Problem. Hat jemand ne Idee?
15.02.2021, 09:57
cube1893

Bei uns war es einen htaccess-Datei mit Passwort-Schutz - dann kann der Crawler natürlich die Seiten nicht aufrufen.
04.07.2021, 18:27
Sigmus

Nach wie vor reproduzierbar *solved*

Bei mir tritt ebenfalls das gleiche Problem auf, in Contao 4.9.16.

Sowohl der Broken Link Checker als auch der der Crawler fangen an, als erstes https://www.meine-domain.com/mein-startpunkt-alias.html durchsuchen zu wollen, verbuchen es als 404 und machen dann einfach nicht weiter sondern brechen beide mit einem Fehler ab. Die einzige Message des einzigen Eintrags im Log lautet entsprechend "Broken link! HTTP Status Code: 404."
Ich habe sowohl die Domain eingetragen als auch den Haken bei "https verwenden" gesetzt.

Das ist echt fatal, die Suchfunktion ist essentiell für unseren Kunden und auf dem Testserver lief auch alles.
Hat wirklich niemand hier eine Idee, woran das liegen könnte?

Und bevor jemand unter Bezug auf den Post vor Diesem fragt: Nein, natürlich hat die Seite keinen Basic-Auth-Verzeichnisschutz, die soll ja öffentlich erreichbar sein (und ist es auch).

EDIT: Hat sich erledigt.

So seltsam es scheinen mag: Es scheint, dass die Ursache des Problems war, dass der Server beim Crawling-Vorgang wohl über einen DNS gelaufen ist, der ihn nicht wieder zu sich selbst geführt hat, sondern unter der zu crawlenden Adresse noch die alte IP gefunden hat, obwohl der Domain-Transfer bereits erfolgreich vollzogen war. Es klingt wirklich absurd, dass der Crawler nicht realisiert, dass die aufgelöste IP-Adresse nicht seine eigene ist, aber das muss die Ursache gewesen sein. Ein Äquivelent zum Startpunkt gab es auf der alten Website halt nicht und ohne einen Einstiegspunkt hat der Crawler natürlich keine Links gefunden, um von da aus weiterzusuchen. Einen Tag später hatten sich die meisten DNS-Caches dann geleert und der Crawling-Prozess lief erfolgreich durch. Alles, was es nach einem frischen Domain-Umzug benötigt, ist also ein wenig Geduld. Daher mein Tipp: Suchfunktion für die ersten zwei Tage nach Go-Live via Domain-Zuweisung (vor allem bei einem Umzug von einem anderen Server/Anbieter) ausblenden, warten bis so ziemlich alle DNS-Einträge überall erneuert sind und dann erst crawlen und die Suche wieder anzeigen.
05.07.2021, 18:54
Birden

Zitat:

Zitat von Sigmus

https://www.meine-domain.com/mein-startpunkt-alias.html

Soll das die Startseite sein, oder ist es eine Untersteite?
05.07.2021, 21:53
Spooky

Laut der Beschreibung ist das der Alias des Website Roots.