CDPedia
CDPedia copied to clipboard
Reorganizar scraper y utilities
Scraping
Podríamos agrupar todo lo relacionado a la descarga de páginas y listas en el directorio src/scraping (con una sola p).
- [x] Mover
utils/scraper.pyyutils/workerpool.pyascraping/. - [ ] Extraer info relevante de
utils/como_hacer_un_dump.txty agregarla ascraping/readme.md - [ ] Mover
src/list_articles_by_namespaces.pyasrc/scraper/ - [ ] Mover la función
get_listsde cdpetron asrc/list_articles.py
Me parece que quedaría más lógico y fácil de extender, independiéntemente de la futura reimplementación del scraper:
src/
`-- scraping/
|-- __init__.py
|-- list_articles.py
|-- list_articles_by_namespaces.py
|-- portals.py
|-- scraper.py
`-- readme.md
Utilities
- [x] Mover
src/xml_vs_html/autilities/xml_vs_html/
En src/utilities quedarían sólo scripts que no son usados por cdpedia o cdpetron. Habría que revisarlos para determinar si aún son relevantes:
utilities/
|-- xml_vs_html/
|-- benchmarkIndice.py
|-- buscarEnBloque.py
|-- descargaImagenes.py
|-- distrib_image.py
|-- makeLista.py
|-- parseaImagenes.py
|-- pick_samples.sh
|-- verComprimido.py
|-- verIndice.py
`-- xpm2pickle.py
+1, con el detalle que utils/workerpool.py desaparece, y estaría bueno esperar a que scraper.py se use como lib, no como "script".