chinatelacom
chinatelacom
还有就是有些网站访问不存在地址时返回的响应码为200 这时候会导致 Dir.txt中的所有内容都会存储到urlout.txt中 可不可以加上一个判断 如果返回包的hash一致则不保存 import hashlib encountered_hashes = set() valid_pages = [] content_hash = hashlib.md5(r.content).hexdigest() if content_hash not in encountered_hashes: # 如果是新的哈希值,保存页面内容并记录哈希值 valid_pages.append(r.content) encountered_hashes.add(content_hash) f2 = open("urlout.txt", "a") f2.write(u...
嗯嗯 期待更新😁