GreynirServer icon indicating copy to clipboard operation
GreynirServer copied to clipboard

News datasource suggestion

Open Loknar opened this issue 6 years ago • 5 comments

https://skessuhorn.is/

About Skessuhorn

Blaðið Skessuhorn hefur mjög góða dreifingu á öllu Vesturlandi og er eitt útbreiddasta héraðsfréttablað landsins. Með því er fylgst og í það vitnað hvarvetna í stærri fjölmiðlum á landsvísu og meðal almennings innan sem utan Vesturlands. Auk útgáfu héraðsfréttablaðs er umsjón með síkvikum og fræðandi miðli á netinu, www.skessuhorn.is önnur aðalstarfsemi fyrirtækisins.

They seem to provide RSS XML feed here: https://skessuhorn.is/feed/

Loknar avatar Nov 21 '19 13:11 Loknar

Hmmm.... skraparinn okkar fær upp 403 villur þegar hann reynir að sækja fréttir af skessuhorn.is. Sé að þetta er WordPress vefur, gæti verið að einhvers konar róbotavörn sé í gangi...

sveinbjornt avatar Nov 21 '19 16:11 sveinbjornt

prófaðirðu að maska User-Agent? 😈

res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'}

Loknar avatar Nov 21 '19 16:11 Loknar

Ef umsjónarmenn vefsins vilja ekki að róbotar skrapi hann þá virðum við það nú bara :).

sveinbjornt avatar Nov 21 '19 16:11 sveinbjornt

https://skessuhorn.is/robots.txt

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

robots.txt skráin gefur ekki til kynna neitt robots bann ...

Loknar avatar Nov 21 '19 16:11 Loknar

Nei, þetta er greinilega vefforritið sjálft sem skilar 403 http status kóða af einhverri ástæðu.

sveinbjornt avatar Nov 21 '19 16:11 sveinbjornt