MServer icon indicating copy to clipboard operation
MServer copied to clipboard

ARTE: Bugs in neuen Crawler

Open pidoubleyou opened this issue 2 months ago • 1 comments

  • [ ] ArteVideoLinkTask: teilweise 503 http Fehler, obwohl die Url korrekt abrufbar ist. Ursache zu viele parallele Requests?
  • [ ] Einträge mit Audiodeskription fehlen, vgl. MV-Web
  • [ ] Datumswerte im neuen Crawler häufig mit krummen Minuten/Sekunden, im alten Crawler eher vernünftige Werte. Liegen keine exakteren vor?

pidoubleyou avatar Nov 04 '25 20:11 pidoubleyou

@codingPF kannst du dir das mal anschauen?

pidoubleyou avatar Nov 04 '25 20:11 pidoubleyou

Zu den Punkten … a) Ich habe es so angepasst, dass man mit wenigen Änderungen auf ein Rate-Limit-Modell umstellen könnte, aber aktuell noch nicht umgestellt. Momentan bekomme ich eine Fehlerquote von 0,1 %, was praktisch vernachlässigbar ist. Mit dieser Fehlerquote liegt die Laufzeit bei 15 Minuten. Mit Rate-Limiting wären es über 30 Minuten. Daher würde ich es vorerst so lassen. Sollten bei anderen Parametern (z. B. bessere Anbindung) mehr Fehler auftreten, kann man es schnell umbauen.

b) Für AD konnte ich das nicht nachvollziehen. Allerdings fehlte die zusätzliche UT-Version in NEU. Diese habe ich ergänzt.

c) In der API gibt es ein firstBroadcastDate. Das scheint auch mit der Ausstrahlung übereinzustimmen. Oft ist dieses Feld jedoch nicht gefüllt, und dann greift das creationDate, welches häufig etwa 3 Minuten vor der Ausstrahlung liegt. Dadurch entstehen einige ungerade bzw. unerwartete Datumswerte.

codingPF avatar Nov 16 '25 16:11 codingPF