Neuer Crawler in Contao 4.9
Hallo erst mal,
ich habe mal den Crawler ausprobiert um den Suchindex zu aktualisieren:
Zitat:
Der Crawler arbeitet gerade. Bitte warten Sie bis er fertig ist, um die Ergebnisse zu sehen.
Habs mal abgebrochen weil das nach 20 Minuten immer noch die Eieruhr lief.
Kann das sein oder fehlt da etwas?
Das ist das Log:
Zitat:
[2020-03-13 15:59:15] request.CRITICAL: Uncaught PHP Exception UnexpectedValueException: "The stream or file "/tmp/contao-crawl/c4907acd-b01e-4924-b18a-bbe5cce18aaa_log.csv" could not be opened: failed to open stream: Permission denied" at /var/www/vhosts/domain/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php line 108 {"exception":"[object] (UnexpectedValueException(code: 0): The stream or file "/tmp/contao-crawl/c4907acd-b01e-4924-b18a-bbe5cce18aaa_log.csv" could not be opened: failed to open stream: Permission denied at /var/www/vhosts/domain/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php:108)"} []
Die Profis können das sicher entziffern.
Liste der Anhänge anzeigen (Anzahl: 1)
Auf unserer Schul-Verwaltungs-Seite (4.9.3), die quasi nur aus einem passwortgeschützten Bereich für 60 Mitglieder besteht, werden zwei Suchen für Lehrer angeboten, deren Suchindex laufend aktualisiert werden sollte. Dies war in der Vergangenheit nie ein Problem (die Seite läuft seit 2.9.5). Mit dem Crawler gestaltet sich die ganze Sache nun allerdings recht schwierig:
Da ich eigentlich nicht möchte, dass die Seite von außen durchsucht wird, würde ich die xml-Sitemap gerne deaktiviert lassen. Leider schaffe es definitiv so nur, den Suchindex neu aufzubauen, wenn ich gleichzeitig auch nach defekten Links schaue. Dabei spielt es keine Rolle, ob eine xml-Sitemap angelegt/aktiviert ist, oder nicht. Dies dauert allerdings satte 4 Stunden und sorgt für ein 37 MB (!) großes debug file. Nicht schön...
Anhang 23638
Der Vorgang "Suchindex aktualisieren" lässt sich sonst nur alleine starten, wenn die xml-Sitemap aktiviert ist. Im Vergleich zur bisherigen Index-Aktualisierung und Suche mussten außerdem zusätzliche Seiten auf durchsuchbar gestellt werden (die Seiten mit den Eingabe-Formularen für die Kalender-Ereigisse). Sonst geht gar nichts.
Die Seiten, die nicht durchsucht werden sollen, wurden auf "no index, no follow" gesetzt, die Seiten, die durchsucht werden sollen, wurden auf "no index, follow" gesetzt.
Ich steige da noch nicht so ganz durch, warum ich bei gleichzeitiger Suche nach defekten Links keine Sitemap benötige, sonst aber doch?! Gibt es noch eine andere Möglichkeit, auf eine Sitemap zu verzichten? Diese Vorgehensweise wird ja bei geschützten Seiten wahrscheinlich auch eine Menge Fehler (401) hervorrufen.
Außerdem verstehe ich nicht, wie ich den Crawler per Cronjob starte, bzw. dies in den Aufruf der cronjobs (https://example.org/_contao/cron) mit einbinde. Hat jemand diesbezgl. einen Tipp?
Crawler läuft nicht durch
Guten Tag,
nochmal eine Frage zum Crawler.
Der startet und läuft bis ca. 30% und verharrt dort bis zum abwinken.
Im Log steht:
Zitat:
[2020-07-23 08:28:33] request.INFO: Matched route "contao_backend". {"route":"contao_backend","route_parameters":{"_ro ute":"contao_backend","_scope":"backend","_token_c heck":true,"_controller":"Contao\\CoreBundle\\Cont roller\\BackendController::mainAction"},"request_u ri":"https://www.domainds.de/contao?act=crawl&crawl_subscriber_names%5B0%5D=bro ken-link-checker&do=maintenance&jobId=3fe774bf-acfa-4145-8b48-cd2872e992c7&ref=G0nGX5Ha","method":"POST"} []
[2020-07-23 08:28:37] request.CRITICAL: Uncaught PHP Exception TypeError: "Argument 2 passed to Symfony\Component\HttpClient\Chunk\DataChunk::__co nstruct() must be of the type string, null given, called in /var/www/vhosts/domainds.de/httpdocs/vendor/symfony/http-client/Response/ResponseTrait.php on line 363" at /var/www/vhosts/domainds.de/httpdocs/vendor/symfony/http-client/Chunk/DataChunk.php line 26 {"exception":"[object] (Symfony\\Component\\Debug\\Exception\\FatalThrowa bleError(code: 0): Argument 2 passed to Symfony\\Component\\HttpClient\\Chunk\\DataChunk:: __construct() must be of the type string, null given, called in /var/www/vhosts/domainds.de/httpdocs/vendor/symfony/http-client/Response/ResponseTrait.php on line 363 at /var/www/vhosts/domainds.de/httpdocs/vendor/symfony/http-client/Chunk/DataChunk.php:26)"} []
Was bedeutet das: null given?