Contao-Camp 2024
Ergebnis 1 bis 37 von 37

Thema: Crawler bricht nach kurzer Zeit (auch) in der Konsole ab

  1. #1
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard Crawler bricht nach kurzer Zeit (auch) in der Konsole ab

    Habe gerade Contao von 4.8.7 auf 4.9.1 aktualisiert und wollte anschließend den Crawler im Backend laufen lassen. Der Job läuft 2 Tage durch, ohne dass was passiert...
    Dann habe ich mir das Crawler-Video von der Contao-Academy angesehen, den korrekten Domainnamen eingegeben und das Ganze über die Konsole versucht. Ebenfalls vergeblich. Nach kurzer Zeit bricht der Crawl-Vorgang ab. Mit dem Zusatz -vvv bekam ich dann u.a. folgende Fehlermeldung:

    Code:
    Crawling…
    402/3098 [===>------------------------]  12%
    19:12:20 ERROR     [console] Error thrown while running command "contao:crawl -vvv". Message: "The URL of the element is relative, so you must define its base URI passing an absolute URL to the constructor of the Symfony\Component\DomCrawler\AbstractUriElement class ("" was passed)."
    [
      "exception" => InvalidArgumentException {
        #message: "The URL of the element is relative, so you must define its base URI passing an absolute URL to the constructor of the Symfony\Component\DomCrawler\AbstractUriElement class ("" was passed)."
        #code: 0
        #file: "/www/htdocs/w007154e/contao/vendor/symfony/dom-crawler/AbstractUriElement.php"
        #line: 52
        trace: {
          /www/htdocs/w007154e/contao/vendor/symfony/dom-crawler/AbstractUriElement.php:52 { …}
          /www/htdocs/w007154e/contao/vendor/symfony/dom-crawler/Crawler.php:873 { …}
          /www/htdocs/w007154e/contao/vendor/terminal42/escargot/src/Subscriber/HtmlCrawlerSubscriber.php:58 { …}
          /www/htdocs/w007154e/contao/vendor/terminal42/escargot/src/Escargot.php:466 { …}
          /www/htdocs/w007154e/contao/vendor/terminal42/escargot/src/Escargot.php:408 { …}
          /www/htdocs/w007154e/contao/vendor/terminal42/escargot/src/Escargot.php:316 { …}
          /www/htdocs/w007154e/contao/vendor/contao/core-bundle/src/Command/CrawlCommand.php:127 { …}
          /www/htdocs/w007154e/contao/vendor/symfony/console/Command/Command.php:255 { …}
          /www/htdocs/w007154e/contao/vendor/symfony/console/Application.php:1019 { …}
          /www/htdocs/w007154e/contao/vendor/symfony/framework-bundle/Console/Application.php:97 { …}
          /www/htdocs/w007154e/contao/vendor/symfony/console/Application.php:271 { …}
          /www/htdocs/w007154e/contao/vendor/symfony/framework-bundle/Console/Application.php:83 { …}
          /www/htdocs/w007154e/contao/vendor/symfony/console/Application.php:147 { …}
          /www/htdocs/w007154e/contao/vendor/contao/manager-bundle/bin/contao-console:38 { …}
        }
      },
      "command" => "contao:crawl -vvv",
      "message" => "The URL of the element is relative, so you must define its base URI passing an absolute URL to the constructor of the Symfony\Component\DomCrawler\AbstractUriElement class ("" was passed)."
    ]
    19:12:20 DEBUG     [console] Command "contao:crawl -vvv" exited with code "1"
    [
      "command" => "contao:crawl -vvv",
      "code" => 1
    ]
    
    In AbstractUriElement.php line 52:
    
      [InvalidArgumentException]
      The URL of the element is relative, so you must define its base URI passing an absolute URL to
      the constructor of the Symfony\Component\DomCrawler\AbstractUriElement class ("" was passed).
    
    
    Exception trace:
      at /www/htdocs/w007154e/contao/vendor/symfony/dom-crawler/AbstractUriElement.php:52
    Symfony\Component\DomCrawler\AbstractUriElement->__construct() at /www/htdocs/w007154e/contao/vendor/symfony/dom-crawler/Crawler.php:873
    Symfony\Component\DomCrawler\Crawler->links() at /www/htdocs/w007154e/contao/vendor/terminal42/escargot/src/Subscriber/HtmlCrawlerSubscriber.php:58
    Terminal42\Escargot\Subscriber\HtmlCrawlerSubscriber->onLastChunk() at /www/htdocs/w007154e/contao/vendor/terminal42/escargot/src/Escargot.php:466
    Terminal42\Escargot\Escargot->processResponseChunk() at /www/htdocs/w007154e/contao/vendor/terminal42/escargot/src/Escargot.php:408
    Terminal42\Escargot\Escargot->processResponses() at /www/htdocs/w007154e/contao/vendor/terminal42/escargot/src/Escargot.php:316
    Terminal42\Escargot\Escargot->crawl() at /www/htdocs/w007154e/contao/vendor/contao/core-bundle/src/Command/CrawlCommand.php:127
    Contao\CoreBundle\Command\CrawlCommand->execute() at /www/htdocs/w007154e/contao/vendor/symfony/console/Command/Command.php:255
    Symfony\Component\Console\Command\Command->run() at /www/htdocs/w007154e/contao/vendor/symfony/console/Application.php:1019
    Symfony\Component\Console\Application->doRunCommand() at /www/htdocs/w007154e/contao/vendor/symfony/framework-bundle/Console/Application.php:97
    Symfony\Bundle\FrameworkBundle\Console\Application->doRunCommand() at /www/htdocs/w007154e/contao/vendor/symfony/console/Application.php:271
    Symfony\Component\Console\Application->doRun() at /www/htdocs/w007154e/contao/vendor/symfony/framework-bundle/Console/Application.php:83
    Symfony\Bundle\FrameworkBundle\Console\Application->doRun() at /www/htdocs/w007154e/contao/vendor/symfony/console/Application.php:147
    Symfony\Component\Console\Application->run() at /www/htdocs/w007154e/contao/vendor/contao/manager-bundle/bin/contao-console:38
    
    contao:crawl [-s|--subscribers SUBSCRIBERS] [-c|--concurrency CONCURRENCY] [--delay DELAY] [--max-requests MAX-REQUESTS] [--max-depth MAX-DEPTH] [--no-progress] [--enable-debug-csv] [--debug-csv-path DEBUG-CSV-PATH] [-h|--help] [-q|--quiet] [-v|vv|vvv|--verbose] [-V|--version] [--ansi] [--no-ansi] [-n|--no-interaction] [-e|--env ENV] [--] <command> [<job>]

    Christian Feneberg von der Contao-Academy, der sich das auch schon mal kurz angeschaut hat, meinte (Zitat aus seiner E-Mail):

    ...leider hab ich im Moment keine Idee wo das Problem liegt.
    Aus der Logfile sehe ich nur, dass es wohl ein Problem mit einem Link gibt, der relativ ist.
    Allerdings sehe ich nicht, welcher Link das sein soll und auf welcher Seite…

    Das Ganze passiert auf meiner Seite unter der URL: https://die-schreibmaus.de

    Vielleicht kann mir hier im Forum jemand helfen, oder mich anleiten, mir selbst zu helfen...

    Vielen Dank für eure Unterstützung!


    grashalm
    Geändert von grashalm (05.03.2020 um 17:04 Uhr)
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  2. #2
    Contao-Fan Avatar von Birden
    Registriert seit
    15.01.2011.
    Beiträge
    766

    Standard

    Zitat Zitat von grashalm Beitrag anzeigen
    wollte anschließend den Crawler im Backend laufen lassen. Der Job läuft .., ohne dass was passiert...
    Das ist bei mir bei zwei Installationen auch so, aber er verrichtet seine Arbeit dennoch und das viel schneller als noch in der 4.8
    Geändert von Birden (05.03.2020 um 18:11 Uhr)

  3. #3
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    hallo birden,

    vielen dank für deine antwort. beim abbruch zeigt er an, dass er 12 % indexiert hat. soll ich ihn dann quasi noch "ne weile laufen lassen", oder kann ich davon ausgehen, dass er mit dem abbruch dann schon fertig ist mit der indexierung? kann ich irgendwo prüfen oder sehen, dass die indexierung wirklich abgeschlossen ist?
    Die fehlermeldung sagt halt immer was von einem relativen link und "braucht" angeblich einen absoluten pfad... aber ich konnte eben auch noch nicht herausfinden, auf welchen link / welche seite sich das bezieht.

    grashalm
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  4. #4
    Contao-Fan Avatar von Birden
    Registriert seit
    15.01.2011.
    Beiträge
    766

    Standard

    Bei den zwei Installationen wo das bei mir so ist, wird überhaupt keine Bewegung angezeigt. Ich denke, das ist ein Fall für die Profis ;-)

  5. #5
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    woher weißt du denn dann, dass er die indexierung vornimmt und wann er fertig ist?


    nachtrag: hat vielleicht noch jemand mögliche antworten auf meine fragen aus posting nummer 3?

    bin für alle ideen dankbar!
    Geändert von grashalm (06.03.2020 um 00:02 Uhr)
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  6. #6
    Contao-Fan Avatar von Arno
    Registriert seit
    11.12.2009.
    Ort
    Potsdam-Babelsberg
    Beiträge
    290

    Standard

    Lass dir doch auf der Konsole mal das Debug Log erstellen:

    Code:
    vendor/bin/contao-console contao:crawl -s search-index --enable-debug-csv
    Dann sollte er dir in deinem Contao Root eine Datei crawl_debug_log.csv anlegen der du Details entnehmen kannst.

  7. #7
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    hallo arno,

    vielen dank für deine frühe hilfe. habe das crawling mit deinem befehl ausführen lassen und es fiel mir sofort auf, dass er erst nach mehr als doppelt so vielen seiten/links abbricht, nämlich diesmal erst bei 6412 anstatt der sonst gut 3047.
    die fehlermeldung in der konsole war allerdings gleichlautend:

    Code:
    Crawling…
     506/6412 [==>-------------------------]   7%
    09:16:28 ERROR     [console] Error thrown while running command "contao:crawl -s search-index --enable-debug-csv". Message: "The URL of the element is relative, so you must define its base URI passing an absolute URL to the constructor of the Symfony\Component\DomCrawler\AbstractUriElement class ("" was passed)." ["exception" => InvalidArgumentException { …},"command" => "contao:crawl -s search-index --enable-debug-csv","message" => "The URL of the element is relative, so you must define its base URI passing an absolute URL to the constructor of the Symfony\Component\DomCrawler\AbstractUriElement class ("" was passed)."]
    
    In AbstractUriElement.php line 52:
    
      The URL of the element is relative, so you must define its base URI passing an absolute URL to the constructor of th
      e Symfony\Component\DomCrawler\AbstractUriElement class ("" was passed).
    
    
    contao:crawl [-s|--subscribers SUBSCRIBERS] [-c|--concurrency CONCURRENCY] [--delay DELAY] [--max-requests MAX-REQUESTS] [--max-depth MAX-DEPTH] [--no-progress] [--enable-debug-csv] [--debug-csv-path DEBUG-CSV-PATH] [-h|--help] [-q|--quiet] [-v|vv|vvv|--verbose] [-V|--version] [--ansi] [--no-ansi] [-n|--no-interaction] [-e|--env ENV] [--] <command> [<job>]
    aber wo finde ich die csv-datei? welchen ordner meinst du mit contao root?
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  8. #8
    Contao-Fan Avatar von Arno
    Registriert seit
    11.12.2009.
    Ort
    Potsdam-Babelsberg
    Beiträge
    290

    Standard

    aber wo finde ich die csv-datei? welchen ordner meinst du mit contao root?
    Damit meine ich den Root deiner Contao Installation, also der Ordner in dem z.B. auch die composer.json und der Webroot /web liegen.

    Du kannst sonst auch mal auf der Konsole
    Code:
    vendor/bin/contao-console contao:crawl --help
    aufrufen. Da wird dir bei der entsprechenden Option auch der Default Pfad für die Ausgabe der Log Datei angzeigt.

  9. #9
    Contao-Fan Avatar von Ainschy
    Registriert seit
    24.06.2009.
    Ort
    Wenden
    Beiträge
    793
    Partner-ID
    5666
    User beschenken
    Wunschliste
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Wurde im Webseitenroot eine Domain im Backend eingetragen?

  10. #10
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    @ ainschy: ja, das habe ich gemacht nach der anleitung von christian feneberg's video.

    @arno: danke, habe den pfad gefunden, in dem die datei gespeichert wurde.

    mir sagt sie leider nicht allzu viel... aber ich hänge sie mal an. vielleicht findest du was...

    danke im voraus,

    lothar


    crawl_debug_log.txt
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  11. #11
    Contao-Fan Avatar von Arno
    Registriert seit
    11.12.2009.
    Ort
    Potsdam-Babelsberg
    Beiträge
    290

    Standard

    Irgendwas ist mit der CSV Datei komisch. Die ist jedenfalls anders aufgebaut als das bei mir der Fall war. Du bist aber auch auf einem Windows System, oder? So kann ich die jedenfalls erstmal nicht gut lesbar in Excel öffnen. Das erschwert die Analyse weil das Teilweise auch Zeilenumbrüche drin sind die nicht sein sollten etc.

    Eine Stelle ist mir aufgefallen, da könntest du auf jeden Fall mal schauen, ob du die in den Griff bekommst:
    Auf https://die-schreibmaus.de/ueber-meine-homepage.html: Da muss es irgendwo einen Link oder eine Referenz auf die Seite https://talkingcrow.eu/ geben. Die kann nicht über SSL aufgerufen werden und verursacht laut Log eine Exception.

    Das scheint mir aber eher nicht in Verbindung mit der ursprünglichen Fehlermeldung über eine relative Verlinkung zu stehen, wenn ich ehrlich bin.
    Ich könnte mir sonst noch vorstellen, dass sich irgendwo eben ein warum und wie auch immer "falsch" eingegebener Link verbirgt. Den kann ich aber von hier aus leider auch nicht finden. Der Crawler gibt ja leider keine Auskunft darüber auf welcher Seite und in welchem Kontext der Fehler auftrat.

  12. #12
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    hallo arno,

    ich musste die csv-datei in eine txt wandeln, weil ich weder das csv-format, noch das xlsx-format hier hochladen konnte und pdf noch besch... aussah. ja, ich bin auf einem windows-system. könnte die csv-datei höchstens noch mal zippen... wenn ich dir die originale csv-datei mailen soll, dann maile mir doch mal ne private mailadresse an foren@die-schreibmaus.de. dann schicke ich sie dir mal so rüber...

    ich habe zwar eine referenz / einen link auf die seite https://talkingcrow.eu, aber nicht auf der seite: https://die-schreibmaus.de/ueber-meine-homepage.html, sondern eigentlich nur über diese seite: https://die-schreibmaus.de/meine-link-tipps.html

    wegen des vermuteten fehlerhaften links irgendwo: soll ich den crawler nur mal mit dem link-checker durchlaufen lassen inklusive --help-befehl? vielleicht bringt die entsprechende log-datei was zutage...


    ergänzung: wenn ich den link-checker laufen lasse, prüft der genau 1 einzigen link (als fehlerfrei) und hört dann auf. wie kann ich denn die ganze seite nach links checken??? hier mal die gezippte csv-datei des berichtes davon:

    crawl_debug_log_blc.zip

    crawl_debug_log_si.zip

    die zweite gezippte datei ist die csv-datei vom search-index-vorgang heute vormittag. ich habe sie hier nochmal hinzugefügt. vielleicht hilft das weiter.
    Geändert von grashalm (06.03.2020 um 17:20 Uhr)
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  13. #13
    Contao-Fan Avatar von Arno
    Registriert seit
    11.12.2009.
    Ort
    Potsdam-Babelsberg
    Beiträge
    290

    Standard

    Zum dem Linkchecker kann ich dir leider gar nichts sagen, den habe ich selber noch nicht verwendet.
    Ansonsten bin ich jetzt auch mit der lesbareren CSV Datei nicht wirklich weiter gekommen. Irgendwie auffällig scheint mir der Banner unten auf deiner Seite. Der kommt jedenfalls öfter im Log vor und produziert eben unter anderem auch mal den vorher erwähnten SSL Fehler in Verbindung mit der URL https://talkingcrow.eu/

    Den könntest du ja z.B. mal ausblenden und dann den Indexer noch mal drüber schicken. Sonst fällt mir jetzt leider auch nichts mehr ein.

  14. #14
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    hallo arno,

    du bist genial: ich habe den banner deaktiviert und den such-index nochmal crawlen lassen. diesmal kam er bis 63 %.
    dann kam eine fehlermeldung wegen zu vollen speichers:

    PHP Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 204800 bytes) in /www/htdocs/xxxxxx/contao/vendor/symfony/dom-crawler/Crawler.php on line 1206
    das entspricht 128 MB.

    kann ich den speicher irgendwo irgendwie anpassen, oder etwas anderes tun, damit der vorgang mal ganz durchläuft?
    Geändert von grashalm (31.05.2020 um 22:32 Uhr)
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  15. #15
    Contao-Fan Avatar von Arno
    Registriert seit
    11.12.2009.
    Ort
    Potsdam-Babelsberg
    Beiträge
    290

    Standard

    kann ich den speicher irgendwo irgendwie anpassen, oder etwas anderes tun, damit der vorgang mal ganz durchläuft?
    Das hängt von deiner Hostingumgebung ab. Manchmal kann man über eine angepasste Datei .user.ini den Wert für das PHP memory_limit erhöhen. Allerdings wirkt sich das nicht auf die auf der Konsole ausgeführten Kommandos aus.

    In dem Fall kannst du mal versuchen beim Aufruf der Contao Console die PHP executable voran zu stellen und dieser den memory_limit Parameter mitzugeben.
    Das könnte ungefähr so aussehen (der tatsächliche Name der ausführbaren PHP Datei hängt von deiner Hostingumgebung ab):

    Code:
    php -d memory_limit=-1 vendor/bin/contao-console contao:crawl -s search-index
    Die -1 steht für unlimited, das Script darf also so viel Speicher verwenden wie es von der Umgebung bekommen kann.

  16. #16
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    hallo arno,

    vielen dank. habe zwischenzeitlich bei meinem hoster angerufen, der mir denselben befehl genannt hat. im moment läuft das script noch bei 90%. allerdings ohne den broken-link-checker.
    könnten ziel-urls meines banner-moduls, die kein www in der url haben, auslöser für die fehlermeldungen gewesen sein?

    nachtrag 1: er ist jetzt durchgelaufen. das hat geklappt. allerdings verstehe ich immer noch nicht, weshalb er mit
    Code:
    -s broken-link-checker
    nur einen einzigen link findet /scannt.
    ist das bei dir auch so? und wenn ich
    Code:
    --enable-debug-csv
    dranhänge, kriege ich diesmal auch keine debug-datei angezeigt...

    nachtrag 2: und jedes mal, wenn ich den crawl-vorgang über's backend anstoßen will, drehen sich die kringel ein loch in den bauch (auch einzeln), und der fortschrittsbalken bleibt immer bei 0 % stehen...
    habe das egfühl, da stimmt auch noch irgendetwas nicht. auf der konsole funktioniert zumindest die suche nach dem search-index.
    Geändert von grashalm (07.03.2020 um 16:38 Uhr)
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  17. #17
    Contao-Fan Avatar von Nightwing
    Registriert seit
    29.05.2013.
    Beiträge
    436

    Standard

    Hallo allerseits,

    ich habe gerade auch Probleme mit dem Crawler, habe allerdings zuerst mit dem Hoster (all-inkl @ Tarif private-plus) Ursachenforschung betrieben, denn bei 2 Hauptaccounts funktioniert es,
    nur ein Unteraccount hat Probleme (= alle Contao 4.9.1), was ja rein logisch ausschliessen sollte, das es an Contao liegt.

    Ich poste es hier mal, weil mir das etwas merkwürdig vorkommt. Brauchen tu ich die Funktion momentan nicht, aber es könnte Euch Entwicklern hoffentlich helfen.

    Ich wurde, als der Crawler einfach stehenblieb bei 11%, etwas stutzig: im Logfile meckert er fehlende Schreibrechte an:
    Code:
    request.CRITICAL: Uncaught PHP Exception UnexpectedValueException: "The stream or file "/tmp/contao-crawl/7126c7ee-344d-4075-a2b2-63c52d4775c2_log.csv" could not be opened: failed to open stream:
    Permission denied" at /www/htdocs/xxxxxxxx/_neu/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php line 108 {"exception":"[object] (UnexpectedValueException(code: 0):
    The stream or file \"/tmp/contao-crawl/7126c7ee-344d-4075-a2b2-63c52d4775c2_log.csv\" could not be opened: failed to open stream:
    Permission denied at /www/htdocs/xxxxxxxx/_neu/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php:108)"} []
    Daraufhin hat mich all-inkl gebeten, per .htaccess das temp Verzeichnis auf den Webspace umzuleiten (mit CHMOD 777), und das Logging zu aktivieren:
    Code:
    ##
    #  Umleitung /temp Speicher auf Webspace
    ##
    php_value session.save_path /www/htdocs/xxxxxxxx/temp
    php_value session.gc_probability 1
    
    ##
    #  Ausgabe PHP Error Logs @ Webspace
    ##
    php_flag log_errors on
    php_value error_log "/www/htdocs/xxxxxxxx/errorlog/errorlog.txt"
    php_flag display_errors off
    Hat sich nix geändert, worauf ich dann folgende Antwort bekam:
    die Änderung des Session-Pfad reicht nicht aus. Es muss der Pfad zum sys_temp_dir geändert werden. Dies ist nur durch uns möglich. Ich habe dieses nun für den Account xxxxxxxx auf /www/htdocs/xxxxxxxx/temp gesetzt.
    Ihre Skripte sollten nun funktionieren.
    Jetzt habe ich Schreibrechte, der Linkchecker funktioniert, Searchindexer bleibt immer noch bei 11% hängen, nun aber mit der Fehlermeldung von grashalm in seinem Anfangspost:
    Code:
    request.CRITICAL: Uncaught PHP Exception InvalidArgumentException:
    "The URL of the element is relative, so you must define its base URI passing an absolute URL to the constructor of the Symfony\Component\DomCrawler\AbstractUriElement class ("" was passed)." at /www/htdocs/xxxxxxxx/_hp/vendor/symfony/dom-crawler/AbstractUriElement.php line 52 {"exception":"[object] (InvalidArgumentException(code: 0):
    The URL of the element is relative, so you must define its base URI passing an absolute URL to the constructor of the Symfony\\Component\\DomCrawler\\AbstractUriElement class (\"\" was passed). at /www/htdocs/xxxxxxxx/_hp/vendor/symfony/dom-crawler/AbstractUriElement.php:52)"} []
    Mir wurde zu Analysezwecken ein php-fpm_slow.log eingerichtet, um:
    Ansonsten ist der Account xxxxxxxx ans FPM Limit von maximalen gleichzeitigen Prozessen gekommen, dh es gab wahrscheinlich PHP Prozesse die sehr lange liefen. Das war zuletzt xx:xx Uhr und xx:xx Uhr der Fall. Wir haben Ihnen einmal ein Slowlog angelegt, da ab jetzt alle Prozesse über 10 sek mitloggt.
    /www/htdocs/xxxxxxxx/logs/php-fpm_slow.log
    Inhalt Logfile:
    Code:
    [pool xxxxxxxx] pid 23213
    script_filename = /www/htdocs/xxxxxxxx/_hp/web/index.php
    [0x00007f1af5614490] stream_copy_to_stream() /www/htdocs/xxxxxxxx/_hp/vendor/symfony/http-foundation/BinaryFileResponse.php:303
    [0x00007f1af5614290] sendContent() /www/htdocs/xxxxxxxx/_hp/vendor/symfony/http-foundation/Response.php:378
    [0x00007f1af56141c0] send() /www/htdocs/xxxxxxxx/_hp/web/index.php:32
    
    [pool xxxxxxxx] pid 11837
    script_filename = /www/htdocs/xxxxxxxx/_hp/web/index.php
    [0x00007fad86013490] stream_copy_to_stream() /www/htdocs/xxxxxxxx/_hp/vendor/symfony/http-foundation/BinaryFileResponse.php:303
    [0x00007fad86013290] sendContent() /www/htdocs/xxxxxxxx/_hp/vendor/symfony/http-foundation/Response.php:378
    [0x00007fad860131c0] send() /www/htdocs/xxxxxxxx/_hp/web/index.php:32
    Was mich an der Sache wundert, ist die Tatsache, das die anderen Accounts keinerlei Probleme haben, deswegen auch zuerst die Recherche bei meinem Hoster.
    @ grashalm: Du scheinst es hinbekommen zu haben, Glückwunsch

    ToM

  18. #18
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    hallo nightwing und alle anderen,

    naja: "hinbekommen" ist eigentlich zuviel gesagt. nachdem ich jetzt den ganzen samstag rumprobiert habe, kann ich feststellen, dass der search-indexer nur auf der konsole läuft, und auch nur dann fehlerfrei, wenn ich das banner-modul von bugbuster im layout deaktiviere. sobald ich es aktiviere, bekomme ich früher oder später einen fehler, wie im eingangsposting beschrieben. vielleicht könnte das mal jemand überprüfen oder testen und dann ggf. in github melden (mit github kenne ich mich nicht wirklich aus).

    außerdem crawled er nach wie vor nur einen einzigen link, wenn ich ihn auf der konsole anweise, den link-checker laufen zu lassen. danach beendet er den job mit einer positiv-meldung. auch das wundert mich ziemlich...

    im backend funktioniert weder der link-checker, noch der search-indexer oder aber der fortschrittsbalken zeigt einfach keinen fortschritt an. jedenfalls kann ich da kein fortkommen erkennen.


    nachtrag: mittlerweile crawled er auf der konsole auch alle links, wenn ich nur "...vendor/bin/contao-console contao:crawl" eingebe. habe keine ahnung, warum er das bisher nicht gemacht hat.
    Geändert von grashalm (08.03.2020 um 13:54 Uhr)
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  19. #19
    Contao-Fan Avatar von elwega
    Registriert seit
    15.09.2009.
    Ort
    Black Forest
    Beiträge
    548

    Standard Crawler aktivieren

    Hallo,
    ich hänge mich hier mal dran.
    Ich möchte den Craqlwe auch gerne nutzen, aber dieser startet und das wars. Es kommt die Eieruhr und die läuft stundenlang.
    Mir ist nun aufgefallen, dass es ein Schreibrechte, bzw. Pfad Problem für den tmp Ordner gibt.
    Diesen möchte ich nun mittels der initconfog festlegen, bin mir aber über die richtige Vorgehensweise bei Contao 4.9.. nicht im klaren.
    Das betrifft eigentlich alle 4.9er Installationen.
    Den Inhalt:
    PHP-Code:
    putenv('TMP=' TL_ROOT '/system/tmp');
    putenv('TEMP=' TL_ROOT '/system/tmp');
    putenv('TMPDIR=' TL_ROOT '/system/tmp'); 
    möchte ich in die initconfig einfügen um den Pfad festzulegen.
    Wohin muss die initconfig denn nun?
    system/config/initconfig.php ist ja als DEPRECATED markiert.
    app/Resources/contao? oder contao/config?
    Ich wäre froh, wenn jemand helfen würde.
    Beste Grüße
    Wenn der Reiter nichts taugt, ist das Pferd schuld.

  20. #20
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.901
    Partner-ID
    10107

    Standard

    Der generelle tmp Ordner sollte in deiner Serverumgebung natürlich korrekt konfiguriert werden. Das ist eine Grundvoraussetzung für den Betrieb einer Web Applikation mit PHP.

  21. #21
    Contao-Fan Avatar von elwega
    Registriert seit
    15.09.2009.
    Ort
    Black Forest
    Beiträge
    548

    Standard

    Hallo Spooky,
    danke für die Rückantwort.
    Ok verstanden.
    Ich möchte das abstellen und wollte das über die tmp Einstellung lösen?
    CRITICAL: Uncaught PHP Exception UnexpectedValueException: "The stream or file "/tmp/contao-crawl/bf07334d-744c-4d0f-8667-8b0e1544b0b7_log.csv" could not be opened: failed to open stream: Permission denied" at /var/www/vhosts/domain.de/httpdocs/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php line 108 {"exception":"[object] (UnexpectedValueException(code: 0): The stream or file "/tmp/contao-crawl/bf07334d-744c-4d0f-8667-8b0e1544b0b7_log.csv" could not be opened: failed to open stream: Permission denied at /var/www/vhosts/domain.de/httpdocs/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php:108)"} []
    Das ist der einzige Fehler den ich feststellen kann.
    Das: https://de.contaowiki.org/Probleme_b...oder_tempnam()
    hat mich in die Richtung geführt.
    Beste Grüße
    Wenn der Reiter nichts taugt, ist das Pferd schuld.

  22. #22
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.901
    Partner-ID
    10107

    Standard

    Welche Contao Version?

  23. #23
    Contao-Fan Avatar von elwega
    Registriert seit
    15.09.2009.
    Ort
    Black Forest
    Beiträge
    548

    Standard

    Hi,
    4.9.2
    So, nach ewigem Suchen weil man bestimmt immer die falschen Begriffe hatte
    hier: https://community.contao.org/de/show...ll-Tools/page3 dann fündig geworden.
    Mit den Einträgen in der app.php sind alle Fehler im log weg und der Crawler arbeitet richtig.
    PHP-Code:
    putenv('TMP=/var/www/vhosts/tester.de/httpdocs/contao/system/tmp');
    putenv('TEMP=/var/www/vhosts/tester.de/httpdocs/contao/system/tmp');
    putenv('TMPDIR=/var/www/vhosts/tester.de/httpdocs/contao/system/tmp'); 
    ob das updatsicher ist?
    Geändert von elwega (08.04.2020 um 13:34 Uhr)
    Beste Grüße
    Wenn der Reiter nichts taugt, ist das Pferd schuld.

  24. #24
    Contao-Fan Avatar von Anke
    Registriert seit
    30.06.2009.
    Ort
    Rhein-Main-Gebiet
    Beiträge
    919

    Standard

    Scheint ja total gut zu funktionieren, der neue Crawler

    Ich habe eine Website mit recht vielen Seiten und Verlinkungen, da funktionierten sowohl der Indexer als auch der Link-Checker einwandfrei.

    Auf zwei anderen Websites (ohne Suche) ist der Link-Checker im Nu fertig und zeigt mir an, dass er 1 Link und 0 defekte Links gefunden hat. Beide Sites haben natürlich mehr als nur eine Verlinkung. Mit einem externen Link-Checker komme ich da um Welten weiter.

    Was mir mal wieder nicht einleuchtet, ist, warum man die Suche jetzt in der confi.yml deaktivieren muss. Das ist einer der vielen kleinen benutzerunfreundlichen Contao-Rückschritte.

  25. #25
    Contao-Nutzer
    Registriert seit
    12.03.2019.
    Beiträge
    7

    Standard

    nach Update auf 4.9, der Crawler verweigert sich:
    Code:
    The stream or file "/tmp//contao-crawl/5fd9b57a-4b6a-4a90-ab64-aaf30967a9aa_log.csv" could not be opened
    woher kann dieses doppelte '/tmp//' kommen?

  26. #26
    Contao-Nutzer
    Registriert seit
    12.03.2019.
    Beiträge
    7

    Standard

    Niemand eine Idee?
    Wo setzt der Contao-Crawler das tmp-Verzeichnis? Resp. wo kann ich das nur für den Crawler ändern?
    Alles andere funktioniert ja, nur die csv Log-Datei kann wegen dem trailing slash beim tmp-dir nicht geschrieben werden.

  27. #27
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.901
    Partner-ID
    10107

    Standard

    Hast du auf Contao 4.9.3 aktualisiert?

  28. #28
    Contao-Nutzer
    Registriert seit
    12.03.2019.
    Beiträge
    7

    Standard

    Zitat Zitat von Spooky Beitrag anzeigen
    Hast du auf Contao 4.9.3 aktualisiert?
    Ja, ist immer noch gleich.
    Hostpoint, aber ich denke nicht, dass der Hoster entscheidend ist, die Abfrage nach dem tmp-dir liefert ja sonst (passiert ja an diversen Orten) keine Fehler, nur beim Crawler.

  29. #29
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.901
    Partner-ID
    10107

    Standard

    Ersetze mal https://github.com/contao/contao/blo.../Crawl.php#L90
    PHP-Code:
    $crawLogsDir sys_get_temp_dir() . '/contao-crawl'
    mit
    PHP-Code:
    $crawLogsDir rtrim(sys_get_temp_dir(), '/') . '/contao-crawl'
    und https://github.com/contao/contao/blo...Crawl.php#L277
    PHP-Code:
    return sys_get_temp_dir() . '/contao-crawl/' $jobId '_' $subscriberName '_log.csv'
    mit
    PHP-Code:
    return rtrim(sys_get_temp_dir(), '/') . '/contao-crawl/' $jobId '_' $subscriberName '_log.csv'

  30. #30
    Contao-Nutzer
    Registriert seit
    12.03.2019.
    Beiträge
    7

    Standard

    Vielen Dank!
    Das löst zwar das Problem mit dem Pfad, der Crawler bleibt aber trotzdem hängen:
    Code:
    [2020-05-22 21:44:41] request.CRITICAL: Uncaught PHP Exception UnexpectedValueException: "The stream or file "/tmp/contao-crawl/55bee3d2-24de-40a2-b716-92da1732fee0_log.csv" could not be opened: fopen(/tmp/contao-crawl/55bee3d2-24de-40a2-b716-92da1732fee0_log.csv) [<a href='https://secure.php.net/manual/en/function.fopen.php'>function.fopen.php</a>]: failed to open stream: Permission denied" at .....forum-a.ch/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php line 112 {"exception":"[object] (UnexpectedValueException(code: 0): The stream or file "/tmp/contao-crawl/55bee3d2-24de-40a2-b716-92da1732fee0_log.csv" could not be opened: fopen(/tmp/contao-crawl/55bee3d2-24de-40a2-b716-92da1732fee0_log.csv) [<a href='https://secure.php.net/manual/en/function.fopen.php'>function.fopen.php</a>]: failed to open stream: Permission denied at .....forum-a.ch/vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php:112)"} []
    Mit den Berechtigungen des tmp-dir hat das nichts zu tun oder? (geht auch mit 0777 nicht)
    Mit der von elwega oben genannten Methode geht's und auch direkt auf der Konsole, nicht aber vom Backend aus ( nur das kann ich dem User zumuten).

  31. #31
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.901
    Partner-ID
    10107

    Standard

    Existiert das Verzeichnis /tmp/contao-crawl ?

  32. #32
    Contao-Nutzer
    Registriert seit
    12.03.2019.
    Beiträge
    7

    Standard

    Zitat Zitat von Spooky Beitrag anzeigen
    Existiert das Verzeichnis /tmp/contao-crawl ?
    macht keinen Unterschied

  33. #33
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.901
    Partner-ID
    10107

    Standard

    Das beantwortet zwar nicht meine Frage, aber ich vermute mal du meinst damit "ja" . Welche Rechte sind bei diesem Verzeichnis eingestellt?

  34. #34
    Contao-Nutzer
    Registriert seit
    12.03.2019.
    Beiträge
    7

    Standard

    ja, sorry, ich meinte, dass es mit und ohne dieses Verzeichnis zum gleichen Fehler führt.
    Das gilt auch für die Rechte, 755 oder 777, der Fehler bleibt immer der Gleiche

  35. #35
    Contao-Fan Avatar von Kopfnuss
    Registriert seit
    05.09.2012.
    Ort
    Zwickau
    Beiträge
    307
    Partner-ID
    11375
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Zitat Zitat von Spooky Beitrag anzeigen
    Existiert das Verzeichnis /tmp/contao-crawl ?
    Hey,

    bei mir funktioniert der Crawler leider auch nicht. Er starte aber es tut sich nichts.
    Contao 4.9.3
    Strato

    Ich habe mal geschaut und unter system/tmp/ gibt es bei mir kein Verzeichnis contao-crawl.
    Was kann ich da machen?

  36. #36
    Contao-Fan Avatar von designpilot
    Registriert seit
    16.06.2013.
    Ort
    9532 Rickenbach bei Wil
    Beiträge
    272
    Contao-Projekt unterstützen

    Support Contao

    Standard Crawler bricht nach kurzer Zeit (auch) in der Konsole ab

    Hallo bei mir geht das auch eeeehwig lange wenn ich bei beiden das häckchen in der Checkbox aktiviere (und auch einzeln). Hoster ist www.metanet.ch hab da auch eine frische Contao 4.9.3 installation, also ohne daten nur das Layout konfiguriert. Verzeichnisstruktur erstellt und die Templates die ich benötige.

    Weiss jemand da was genäueres wie ich den zum laufen kriege ????

    Hab auch die änderungen an der Crawl.php gemacht (von Spooky so vorgeschlagen) aber das hat nichts gebracht. Die Datei .csv wird auf dem ganzen Server nicht gefunden.

    Kann das sein das ich in Plesk noch etwas anpassen muss für das „temp“ Verzeichnis ?

    Gesendet von iPhone mit Tapatalk Pro
    Geändert von designpilot (03.06.2020 um 12:11 Uhr)

  37. #37
    Contao-Fan Avatar von designpilot
    Registriert seit
    16.06.2013.
    Ort
    9532 Rickenbach bei Wil
    Beiträge
    272
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Hallo

    Ich habe das Problem das der Crawler nicht funktioniert (der hat ewigkeiten) bei einer frischen Contao 4.9.3 Version und ein paar Module (sprich die Installation ist im Prinzip noch leer und ich hab einfach die die Grundkonfiguration in Contao gemacht).

    Kann mir da wer helfen.


    Gesendet von iPhone mit Tapatalk Pro

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •