News datasource suggestion
https://skessuhorn.is/
Blaðið Skessuhorn hefur mjög góða dreifingu á öllu Vesturlandi og er eitt útbreiddasta héraðsfréttablað landsins. Með því er fylgst og í það vitnað hvarvetna í stærri fjölmiðlum á landsvísu og meðal almennings innan sem utan Vesturlands. Auk útgáfu héraðsfréttablaðs er umsjón með síkvikum og fræðandi miðli á netinu, www.skessuhorn.is önnur aðalstarfsemi fyrirtækisins.
They seem to provide RSS XML feed here: https://skessuhorn.is/feed/
Hmmm.... skraparinn okkar fær upp 403 villur þegar hann reynir að sækja fréttir af skessuhorn.is. Sé að þetta er WordPress vefur, gæti verið að einhvers konar róbotavörn sé í gangi...
prófaðirðu að maska User-Agent? 😈
res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'}
Ef umsjónarmenn vefsins vilja ekki að róbotar skrapi hann þá virðum við það nú bara :).
https://skessuhorn.is/robots.txt
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
robots.txt skráin gefur ekki til kynna neitt robots bann ...
Nei, þetta er greinilega vefforritið sjálft sem skilar 403 http status kóða af einhverri ástæðu.