Ergebnis 1 bis 11 von 11

Thema: Neuer Crawler in Contao 4.9

  1. #1
    Contao-Fan Avatar von elwega
    Registriert seit
    15.09.2009.
    Ort
    Black Forest
    Beiträge
    378

    Standard Neuer Crawler in Contao 4.9

    Hallo erst mal,
    ich habe mal den Crawler ausprobiert um den Suchindex zu aktualisieren:
    Der Crawler arbeitet gerade. Bitte warten Sie bis er fertig ist, um die Ergebnisse zu sehen.
    Habs mal abgebrochen weil das nach 20 Minuten immer noch die Eieruhr lief.
    Kann das sein oder fehlt da etwas?
    Das ist das Log:
    [2020-03-13 15:59:15] request.CRITICAL: Uncaught PHP Exception UnexpectedValueException: "The stream or file "/tmp/contao-crawl/c4907acd-b01e-4924-b18a-bbe5cce18aaa_log.csv" could not be opened: failed to open stream: Permission denied" at /var/www/vhosts/domain/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php line 108 {"exception":"[object] (UnexpectedValueException(code: 0): The stream or file "/tmp/contao-crawl/c4907acd-b01e-4924-b18a-bbe5cce18aaa_log.csv" could not be opened: failed to open stream: Permission denied at /var/www/vhosts/domain/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php:108)"} []
    Die Profis können das sicher entziffern.
    Geändert von elwega (13.03.2020 um 16:16 Uhr)
    Beste Grüße
    Wenn der Reiter nichts taugt, ist das Pferd schuld.

  2. #2
    Contao-Nutzer
    Registriert seit
    06.11.2009.
    Beiträge
    123

    Standard Kann ich bestätigen

    Das kann ich bestätigen. Nach 20 Minuten steht der Crawler bei mir immer noch auf 0%.

  3. #3
    Contao-Urgestein Avatar von Kahmoon
    Registriert seit
    22.06.2009.
    Ort
    München
    Beiträge
    4.385

    Standard

    Funzt bei allen meinen 4.9er Installationen. Diese befinden sich bei All-Inkl und Ionos.

    Deine Fehlermeldung bemängelt Schreibrechte bzw. ein Rechteproblem


    Edit:
    Erster Post ist ja vom März

  4. #4
    Contao-Nutzer
    Registriert seit
    06.11.2009.
    Beiträge
    123

    Standard

    Zitat Zitat von Kahmoon Beitrag anzeigen
    Funzt bei allen meinen 4.9er Installationen. Diese befinden sich bei All-Inkl und Ionos.

    Deine Fehlermeldung bemängelt Schreibrechte bzw. ein Rechteproblem


    Edit:
    Erster Post ist ja vom März

    Ja, keine Ahnung, ob elwega das Problem inzwischen gelöst hat. Ich hatte den Crawler gestern zum ersten Mal getestet, und er funktioniert bei mir überhaupt nicht ... Provider: Hetzner, ist ja kein kleiner Krauter.

  5. #5
    Contao-Urgestein Avatar von Kahmoon
    Registriert seit
    22.06.2009.
    Ort
    München
    Beiträge
    4.385

    Standard

    Gibts ne Fehlermeldung? Ohne irgendwas wirds schwer mit der Diagnose :-P

  6. #6
    Contao-Nutzer
    Registriert seit
    06.11.2009.
    Beiträge
    123

    Standard

    Zitat Zitat von Kahmoon Beitrag anzeigen
    Gibts ne Fehlermeldung? Ohne irgendwas wirds schwer mit der Diagnose :-P
    Code:
    [2020-06-26 12:57:35] request.INFO: Matched route "contao_backend". {"route":"contao_backend","route_parameters":{"_route":"contao_backend","_scope":"backend","_token_check":true,"_controller":"Contao\\CoreBundle\\Controller\\BackendController::mainAction"},"request_uri":"https://[domain]/contao?act=crawl&crawl_subscriber_names%5B0%5D=search-index&do=maintenance&jobId=00aee4aa-4aaa-4434-9d6f-905c94bf7b0d&ref=upNmGMS1","method":"POST"} []
    [2020-06-26 12:57:35] request.CRITICAL: Uncaught PHP Exception UnexpectedValueException: "The stream or file "/tmp//contao-crawl/00aee4aa-4aaa-4434-9d6f-905c94bf7b0d_log.csv" could not be opened: fopen(/tmp//contao-crawl/00aee4aa-4aaa-4434-9d6f-905c94bf7b0d_log.csv) [<a href='https://secure.php.net/manual/en/function.fopen.php'>function.fopen.php</a>]: failed to open stream: Permission denied" at /home/wyssmar1/www/contao2020/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php line 108 {"exception":"[object] (UnexpectedValueException(code: 0): The stream or file \"/tmp//contao-crawl/00aee4aa-4aaa-4434-9d6f-905c94bf7b0d_log.csv\" could not be opened: fopen(/tmp//contao-crawl/00aee4aa-4aaa-4434-9d6f-905c94bf7b0d_log.csv) [<a href='https://secure.php.net/manual/en/function.fopen.php'>function.fopen.php</a>]: failed to open stream: Permission denied at /home/wyssmar1/www/contao2020/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php:108)"} []

  7. #7
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Vienna, Austria
    Beiträge
    24.116
    Partner-ID
    10107
    User beschenken
    Wunschliste

    Standard

    Zitat Zitat von Sitting Bull Beitrag anzeigen
    Code:
    [2020-06-26 12:57:35] request.INFO: Matched route "contao_backend". {"route":"contao_backend","route_parameters":{"_route":"contao_backend","_scope":"backend","_token_check":true,"_controller":"Contao\\CoreBundle\\Controller\\BackendController::mainAction"},"request_uri":"https://[domain]/contao?act=crawl&crawl_subscriber_names%5B0%5D=search-index&do=maintenance&jobId=00aee4aa-4aaa-4434-9d6f-905c94bf7b0d&ref=upNmGMS1","method":"POST"} []
    [2020-06-26 12:57:35] request.CRITICAL: Uncaught PHP Exception UnexpectedValueException: "The stream or file "/tmp//contao-crawl/00aee4aa-4aaa-4434-9d6f-905c94bf7b0d_log.csv" could not be opened: fopen(/tmp//contao-crawl/00aee4aa-4aaa-4434-9d6f-905c94bf7b0d_log.csv) [<a href='https://secure.php.net/manual/en/function.fopen.php'>function.fopen.php</a>]: failed to open stream: Permission denied" at /home/wyssmar1/www/contao2020/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php line 108 {"exception":"[object] (UnexpectedValueException(code: 0): The stream or file \"/tmp//contao-crawl/00aee4aa-4aaa-4434-9d6f-905c94bf7b0d_log.csv\" could not be opened: fopen(/tmp//contao-crawl/00aee4aa-4aaa-4434-9d6f-905c94bf7b0d_log.csv) [<a href='https://secure.php.net/manual/en/function.fopen.php'>function.fopen.php</a>]: failed to open stream: Permission denied at /home/wyssmar1/www/contao2020/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php:108)"} []

  8. #8
    Contao-Nutzer
    Registriert seit
    06.11.2009.
    Beiträge
    123

    Standard

    Alles getestet ... hat leider nichts geändert.

  9. #9
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Vienna, Austria
    Beiträge
    24.116
    Partner-ID
    10107
    User beschenken
    Wunschliste

    Standard

    Was genau hast du getestet? Die Lösungsvariante von ausi sollte das beheben. Davon abgesehen ist das Ticket ja noch offen, es gibt also noch keine finale Lösung.

  10. #10
    Contao-Nutzer
    Registriert seit
    26.08.2018.
    Beiträge
    90

    Standard

    Auf unserer Schul-Verwaltungs-Seite (4.9.3), die quasi nur aus einem passwortgeschützten Bereich für 60 Mitglieder besteht, werden zwei Suchen für Lehrer angeboten, deren Suchindex laufend aktualisiert werden sollte. Dies war in der Vergangenheit nie ein Problem (die Seite läuft seit 2.9.5). Mit dem Crawler gestaltet sich die ganze Sache nun allerdings recht schwierig:

    Da ich eigentlich nicht möchte, dass die Seite von außen durchsucht wird, würde ich die xml-Sitemap gerne deaktiviert lassen. Leider schaffe es definitiv so nur, den Suchindex neu aufzubauen, wenn ich gleichzeitig auch nach defekten Links schaue. Dabei spielt es keine Rolle, ob eine xml-Sitemap angelegt/aktiviert ist, oder nicht. Dies dauert allerdings satte 4 Stunden und sorgt für ein 37 MB (!) großes debug file. Nicht schön...

    Bildschirmfoto 2020-06-27 um 12.05.15.png

    Der Vorgang "Suchindex aktualisieren" lässt sich sonst nur alleine starten, wenn die xml-Sitemap aktiviert ist. Im Vergleich zur bisherigen Index-Aktualisierung und Suche mussten außerdem zusätzliche Seiten auf durchsuchbar gestellt werden (die Seiten mit den Eingabe-Formularen für die Kalender-Ereigisse). Sonst geht gar nichts.


    Die Seiten, die nicht durchsucht werden sollen, wurden auf "no index, no follow" gesetzt, die Seiten, die durchsucht werden sollen, wurden auf "no index, follow" gesetzt.

    Ich steige da noch nicht so ganz durch, warum ich bei gleichzeitiger Suche nach defekten Links keine Sitemap benötige, sonst aber doch?! Gibt es noch eine andere Möglichkeit, auf eine Sitemap zu verzichten? Diese Vorgehensweise wird ja bei geschützten Seiten wahrscheinlich auch eine Menge Fehler (401) hervorrufen.

    Außerdem verstehe ich nicht, wie ich den Crawler per Cronjob starte, bzw. dies in den Aufruf der cronjobs (https://example.org/_contao/cron) mit einbinde. Hat jemand diesbezgl. einen Tipp?
    Geändert von BubbleBass (27.06.2020 um 12:16 Uhr)

  11. #11
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Vienna, Austria
    Beiträge
    24.116
    Partner-ID
    10107
    User beschenken
    Wunschliste

    Standard

    Zitat Zitat von BubbleBass Beitrag anzeigen
    Auf unserer Schul-Verwaltungs-Seite (4.9.3), die quasi nur aus einem passwortgeschützten Bereich für 60 Mitglieder besteht, werden zwei Suchen für Lehrer angeboten, deren Suchindex laufend aktualisiert werden sollte. Dies war in der Vergangenheit nie ein Problem (die Seite läuft seit 2.9.5). Mit dem Crawler gestaltet sich die ganze Sache nun allerdings recht schwierig:

    Da ich eigentlich nicht möchte, dass die Seite von außen durchsucht wird, würde ich die xml-Sitemap gerne deaktiviert lassen. Leider schaffe es definitiv so nur, den Suchindex neu aufzubauen, wenn ich gleichzeitig auch nach defekten Links schaue. Dabei spielt es keine Rolle, ob eine xml-Sitemap angelegt/aktiviert ist, oder nicht. Dies dauert allerdings satte 4 Stunden und sorgt für ein 37 MB (!) großes debug file. Nicht schön...

    Bildschirmfoto 2020-06-27 um 12.05.15.png

    Der Vorgang "Suchindex aktualisieren" lässt sich sonst nur alleine starten, wenn die xml-Sitemap aktiviert ist. Im Vergleich zur bisherigen Index-Aktualisierung und Suche mussten außerdem zusätzliche Seiten auf durchsuchbar gestellt werden (die Seiten mit den Eingabe-Formularen für die Kalender-Ereigisse). Sonst geht gar nichts.


    Die Seiten, die nicht durchsucht werden sollen, wurden auf "no index, no follow" gesetzt, die Seiten, die durchsucht werden sollen, wurden auf "no index, follow" gesetzt.

    Ich steige da noch nicht so ganz durch, warum ich bei gleichzeitiger Suche nach defekten Links keine Sitemap benötige, sonst aber doch?! Gibt es noch eine andere Möglichkeit, auf eine Sitemap zu verzichten? Diese Vorgehensweise wird ja bei geschützten Seiten wahrscheinlich auch eine Menge Fehler (401) hervorrufen.
    Siehe https://github.com/contao/contao/issues/1407




    Zitat Zitat von BubbleBass Beitrag anzeigen
    Außerdem verstehe ich nicht, wie ich den Crawler per Cronjob starte, bzw. dies in den Aufruf der cronjobs (https://example.org/_contao/cron) mit einbinde. Hat jemand diesbezgl. einen Tipp?
    Siehe https://docs.contao.org/dev/framewor...g-the-cron-job

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •