Contao-Camp 2024
Ergebnis 1 bis 9 von 9

Thema: Geschütze Seiten: Crawler im Backend funktioniert, auf der Console leider nicht

  1. #1
    Contao-Nutzer
    Registriert seit
    22.06.2009.
    Beiträge
    45

    Standard Geschütze Seiten: Crawler im Backend funktioniert, auf der Console leider nicht

    Hi,

    ich habe eine Contao Intranet Installation von 4.4 auf 4.9.22 aktualisiert. Leider musste ich dabei lernen, dass das Indizieren von geschützen Inhalten jetzt nicht mehr so einfach klappt.

    Nachdem ich stundenlang mit Forensuchen und Google herausgefunden habe, was man beachten muss und irgendwann alles im Backend auch funktioniert hat, wollte ich den crawler über die SSH Console probieren, weil der Index über das Backend fast eine Stunde läuft.

    Leider bringt mir der Crawler nur die grüne "Erfolgsmeldung": [OK] Indexed 0 URI(s) successfully. 0 failed.

    Im Log steht dann bei allen offenen und geschützen Seiten: "Forwarded to the search indexer. Did not index because of the following reason: Was explicitly marked "noSearch" in page settings."

    Das ist schlicht falsch. Über den Backend Crawler funktioniert es ja auch.
    Alle Seiten stehen auf index,follow. Ich habe eine Sitemap (nur deshalb aktiviert) und auch den Domainnamen eingetragen in der Wurzel. Auch die config.yml ist für protected pages angepasst.

    Was kann noch der Unterschied sein zwischen Backend und SHH Crawler, dass er über die Console die Seiten als "Nicht durchsuchen" erkennt? Kann mir jemand einen Tipp geben?

  2. #2
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.062
    Partner-ID
    10107

    Standard

    Hast du in allen Website Roots die Domain eingetragen?
    » sponsor me via GitHub or PayPal or Revolut

  3. #3
    Contao-Nutzer
    Registriert seit
    22.06.2009.
    Beiträge
    45

    Standard

    Es gibt nur eine und da steht die Domain drin.

  4. #4
    Contao-Nutzer
    Registriert seit
    22.06.2009.
    Beiträge
    45

    Standard

    Gibt es hier vielleicht jemanden, der mit 4.9 und dem Crawler per Console schon mal geschützte Seiten indizieren konnte?
    Ich finde einfach keine Lösung für das Problem. Die URIs werden laut Log korrekt gefunden, nur werden die Seiten falsch als "noSearch" erkannt.

  5. #5
    Contao-Nutzer
    Registriert seit
    22.06.2009.
    Beiträge
    45

    Standard

    Nachdem ich in meiner Verzweiflung auch vermeintlich sinnlose Einstellungen probiert habe, bin ich etwas weiter gekommen.

    Es ist wohl so, dass der Konsolen-Crawler eine Variable nicht aktualisiert beim Durchlauf und er, sobald er einmal "noSearch" in einer Seite gefunden hat, das nicht mehr für die folgenden Seiten aktualisiert. In unserem Fall war die oberste Seite (Home) auf "noSearch" gestellt. Nachdem ich den Haken hier entfernt habe, hat der Crawler auch die folgenden Seiten indiziert. Wenn das kein Bug, sondern ein Feature ist, sollte das irgendwo dokumentiert sein.

    Was jetzt noch klemmt: man kann den gewünschten Frontend-User laut Doku nicht per Parameter auswählen, wenn man über SSH Konsole crawlen möchte. Dort steht nur:

    "Lege danach einen neuen Frontend-Benutzer an, und erlaube ihm den Zugriff auf die zu indizierenden geschützten Seiten. Beim Aufbauen des Suchindexes wird dieser Benutzer dann automatisch angemeldet.
    Später bei der Suche erscheinen die geschützten Seiten natürlich nur in den Ergebnissen, wenn der angemeldete Frontend-Benutzer auch auf sie zugreifen darf."

    Welchen User nimmt der Crawler dann? Ich habe hier 6 Benutzergruppen, die auf unterschiedliche Seiten beschränkt sind und ca. 80 User. Um den Suchindex neu aufzubauen, hatten wir da bisher einen Master-User angelegt, der in allen Gruppen war und auf alles Zugriff hatte und diesen nur für die Indexerstellung ausgewählt. Aber welchen User wählt der Crawler über die Konsole?

  6. #6
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.062
    Partner-ID
    10107

    Standard

    Zitat Zitat von Joachim Beitrag anzeigen
    Wenn das kein Bug, sondern ein Feature ist, sollte das irgendwo dokumentiert sein.
    Bugs meldest du hier: https://github.com/contao/contao/iss..._Bug_report.md
    » sponsor me via GitHub or PayPal or Revolut

  7. #7
    Contao-Nutzer
    Registriert seit
    22.06.2009.
    Beiträge
    45

    Standard

    Ich weiß nicht, ob es einer ist.

    Was meinst du zu der Frage mit dem Frontend-User und dem Crawler? Idee?

  8. #8
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.062
    Partner-ID
    10107

    Standard

    Zitat Zitat von Joachim Beitrag anzeigen
    Ich weiß nicht, ob es einer ist.
    Klingt für mich ungewollt. noSearch sollte sich meines Erachtens nicht vererben. Unabhängig davon schadet es nicht ein Issue zu öffnen.
    » sponsor me via GitHub or PayPal or Revolut

  9. #9
    Contao-Nutzer
    Registriert seit
    22.06.2009.
    Beiträge
    45

    Standard

    Welchen User nimmt der Konsolen Crawler für die Indizierung von geschützten Seiten?

    Ich habe hier 6 Benutzergruppen, die auf unterschiedliche Seiten beschränkt sind und ca. 80 User. Um den Suchindex neu aufzubauen, hatten wir da bisher einen Master-User angelegt, der in allen Gruppen war und auf alles Zugriff hatte und diesen nur für die Indexerstellung ausgewählt. Aber welchen User wählt der Crawler über die Konsole?

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •