CDPedia icon indicating copy to clipboard operation
CDPedia copied to clipboard

Reorganizar scraper y utilities

Open fzuccolo opened this issue 5 years ago • 1 comments

Scraping

Podríamos agrupar todo lo relacionado a la descarga de páginas y listas en el directorio src/scraping (con una sola p).

  • [x] Mover utils/scraper.py y utils/workerpool.py a scraping/.
  • [ ] Extraer info relevante de utils/como_hacer_un_dump.txt y agregarla a scraping/readme.md
  • [ ] Mover src/list_articles_by_namespaces.py a src/scraper/
  • [ ] Mover la función get_lists de cdpetron a src/list_articles.py

Me parece que quedaría más lógico y fácil de extender, independiéntemente de la futura reimplementación del scraper:

src/
`-- scraping/
    |-- __init__.py
    |-- list_articles.py
    |-- list_articles_by_namespaces.py
    |-- portals.py
    |-- scraper.py
    `-- readme.md

Utilities

  • [x] Mover src/xml_vs_html/ a utilities/xml_vs_html/

En src/utilities quedarían sólo scripts que no son usados por cdpedia o cdpetron. Habría que revisarlos para determinar si aún son relevantes:

utilities/
|-- xml_vs_html/
|-- benchmarkIndice.py
|-- buscarEnBloque.py
|-- descargaImagenes.py
|-- distrib_image.py
|-- makeLista.py
|-- parseaImagenes.py
|-- pick_samples.sh
|-- verComprimido.py
|-- verIndice.py
`-- xpm2pickle.py

fzuccolo avatar Jun 11 '20 23:06 fzuccolo

+1, con el detalle que utils/workerpool.py desaparece, y estaría bueno esperar a que scraper.py se use como lib, no como "script".

facundobatista avatar Jun 16 '20 19:06 facundobatista