Ergebnis 1 bis 7 von 7

Thema: contao:crawl --subscribers=broken-link-checker --enable-debug-csv

  1. #1
    Contao-Fan
    Registriert seit
    28.02.2011.
    Beiträge
    720

    Standard contao:crawl --subscribers=broken-link-checker --enable-debug-csv

    Hallo zusammen,

    ich habe Projekt mit isotope, das super lange beim Link crawlen dauert, deshalb wollte ich es über die Konsole probieren

    Code:
       /usr/bin/php8.2 vendor/bin/contao-console contao:crawl --subscribers=broken-link-checker --enable-debug-csv
    Ich bekomme diese Warnung

    Code:
    You are going to crawl localhost URIs. This is likely not desired and due to a missing domain configuration 
               in your root page settings. You may also configure a fallback request context using                         
               "router.request_context.*" if you want to execute all CLI commands with the same request context.
    In der Doku steht

    Code:
    Make sure you have defined the correct domain in either your website root or a default domain via the router.request_context.host parameter.
    Ist damit dies hier gemeint?:
    Startpunkt der Website
    URL-Einstellungen
    Domainname
    Hier können Sie den Zugriff auf die Webseite auf einen bestimmten Domainnamen ...

    Ich habe das probiert, meine Testumgebung ist aber eine Subdomain projekt1.firma.de und das hat die Warnung in der Konsole auch nicht geändert.


    Über parameters.yml habe ich auch probiert

    Der Crawler kann auch direkt über die Konsole ausgeführt werden:

    $ vendor/bin/contao-console contao:crawl

    Da über die Konsole aber ein HTTP-Request-Kontext fehlt, muss zwingend eine Domain angegeben werden. Daher sollte die jeweilige Domain immer im Startpunkt der Website eingetragen werden, auch wenn man nur eine Domain betreibt. Alternativ kann die Default-Domain für die Konsole auch über Konfigurations-Parameter angegeben werden:

    # config/parameters.yml
    parameters:
    router.request_context.host: 'example.org'
    router.request_context.scheme: 'https'
    und für meine Fall bearbeitet

    Code:
    # config/parameters.yml
    parameters:
        router.request_context.host: 'projekt1.firma.de'
        router.request_context.scheme: 'http'
    Prodcache gelöscht, aber die Warnung, dass nur localhost gecrawlt wird bleibt.

    Viele Grüße,
    conter
    Geändert von conter (14.12.2023 um 14:59 Uhr)

  2. #2
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    35.517
    Partner-ID
    10107

    Standard

    Zitat Zitat von conter Beitrag anzeigen
    ich habe Projekt mit isotope, das super lange beim Link crawlen dauert, deshalb wollte ich es über die Konsole probieren

    Code:
       /usr/bin/php8.2 vendor/bin/contao-console contao:crawl --subscribers=broken-link-checker --enable-debug-csv
    Broken Link Checker kann sehr lange dauern. Ist das wirklich das, was du machen wolltest?


    Zitat Zitat von conter Beitrag anzeigen
    Mir ist nicht klar, was damit gemeint ist ...

    Das hier vielleicht?
    Startpunkt der Website eine URL ein
    URL-Einstellungen
    Domainname
    Hier können Sie den Zugriff auf die Webseite auf einen bestimmten Domainnamen ...

    Ich habe das probiert, meine Testumgebung ist aber eine Subdomain projekt1.firma.de und das hat die Warnung in der Konsole auch nicht geändert.
    Du musst sicherstellen, dass alle deine Website Roots einer Domain zugewiesen sind. Ist das der Fall?
    » sponsor me via GitHub or PayPal or Revolut

  3. #3
    Contao-Fan
    Registriert seit
    28.02.2011.
    Beiträge
    720

    Standard

    Hallo Spooky,

    ja, ich wollte checken, ob alle Links in dem contao mit Shop okay sind, bevor es live geht.
    Es sind nicht sehr viele externe Links aber isotope erzeugt wohl ziemlich viele interne Verknüpfungen.
    Ich habe es zunächst über die contao/systemwartung/nach defekten Links suchen angestoßen. Das gerät aber irgendwand bei 11% ca 16000 Links ins stocken.

    alle deine Website Roots einer Domain zugewiesen sind. Ist das der Fall?
    Es gibt nur deutsch und dehalb nur einen Startpunkt einer Website.

    P.S. Beim gegenwärtigen Crawl ist contao gerade bei
    11%
    3881 / 33474
    Der Crawler arbeitet gerade. Bitte warten Sie bis er fertig ist, um die Ergebnisse zu sehen ...
    Geändert von conter (14.12.2023 um 15:27 Uhr)

  4. #4
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    35.517
    Partner-ID
    10107

    Standard

    Vor allem bei Isotope bekommst du da quasi unendlich viele URLs durch die ganzen Query Parameter. Du musst hier durch verschiedene Strategien die mögliche Anzahl an URLs reduzieren.
    » sponsor me via GitHub or PayPal or Revolut

  5. #5
    Contao-Fan
    Registriert seit
    28.02.2011.
    Beiträge
    720

    Standard

    den Eindruck macht es

    In der Systemwartung direkt ist ja nichts weiter einstellbar.

    Verschiedene Strategien geht dann ja wohl nur über unterschiedliche Parameter über Konsole, womit ich dann wieder beim ersten Teil meiner Frage bin.

    Mittlerweile haben meine Einstellungen Wirkung gezeigt, der Crawler im Terminal läuft ... aber fast so langsam wie im contao ...

    https://docs.contao.org/manual/en/sy...rotected-pages

    Wie ist die Syntax um einen Wert für --max-depth zuzuweisen?

  6. #6
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    35.517
    Partner-ID
    10107

    Standard

    Mögliche Strategien sind bspw.:

    • --max-depth beim Command (bspw. --max-depth=3 würde es auf die URLs aus der Sitemap einschränken, vorausgesetzt du hast die Domain korrekt im Website Root eingetragen und keine physische robots.txt angelegt. Macht aber für einen Broken Link Check vermutlich weniger Sinn).
    • URLs via robots.txt Eintrag im Website Root einschränken.
    • Verlinkungen via data-skip-broken-link-checker vom Broken Link Checker ausschließen.
    • Verlinkungen via data-escargot-ignore generell vom Crawler ausschließen.
    Geändert von Spooky (14.12.2023 um 15:50 Uhr)
    » sponsor me via GitHub or PayPal or Revolut

  7. #7
    Contao-Fan
    Registriert seit
    28.02.2011.
    Beiträge
    720

    Standard

    Vielen Dank!

    Code:
    /usr/bin/php8.2 vendor/bin/contao-console contao:crawl --subscribers=broken-link-checker --max-depth=3   --enable-debug-csv
    wirft recht schnell eine überschaubare Liste an broken Links aus.
    Die überprüfe ich jetzt erstmal.

    Viele Grüße,
    conter

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •