crawl4ai icon indicating copy to clipboard operation
crawl4ai copied to clipboard

[Bug]: Unable to crawl a Wechat link. It is a special case in 20 example.

Open Weltberg opened this issue 11 months ago • 0 comments

crawl4ai version

0.5.0.post4

Expected Behavior

Type in a cell of Jupyter lab: ###################################### !crwl https://mp.weixin.qq.com/s/tWTzOhDM1UxzOZjTBlbaZQ -o markdown ######################################

Expected result return like: ###################################### // 热点聚焦 // 1、美国总统在白宫签署两项关于所谓“对等关税”的行政令,宣布美国对贸易伙伴设立10%的“最低基准关税”,并对某些贸易伙伴征收更高关税。美国宣布对进口汽车加征25%的关税,将于4月3日生效。 2、中办、国办近日印发《关于完善价格治理机制的意见》,部署五方面重点任务及17项具体措施,通过健全市场价格形成机制、创新价格引导机制、完善价格调控机制、优化价格监管机制、强化价格治理基础能力建设,加快构建市场有效、调控有度、监管科学的高水平价格治理机制。《意见》提出,要综合考虑总供给和总需求以及经济增长、市场预期、输入性影响等因素,合理确定价格水平预期目标,强化宏观调控导向作用。 3、贵州茅台公布2024年业绩,全年实现营业总收入1741.44亿元,同比增长15.66%;归属上市公司股东净利润862.28亿元,同比增长15.38%。拟每10股派发现金红利276.24元,合计派现金346.71亿元。对于2025年经营计划,贵州茅台提出实现营业总收入较上年度增长9%左右的目标。 ... and so on ######################################

Current Behavior

Type in a cell of Jupyter lab: ###################################### !crwl https://mp.weixin.qq.com/s/tWTzOhDM1UxzOZjTBlbaZQ -o markdown ######################################

The result in Jupyter lab is: ###################################### [INIT].... → Crawl4AI 0.5.0.post4 [FETCH]... ↓ https://mp.weixin.qq.com/s/tWTzOhDM1UxzOZjTBlbaZQ... | Status: True | Time: 0.99s [SCRAPE].. ◆ https://mp.weixin.qq.com/s/tWTzOhDM1UxzOZjTBlbaZQ... | Time: 0.042s [COMPLETE] ● https://mp.weixin.qq.com/s/tWTzOhDM1UxzOZjTBlbaZQ... | Status: True | Total: 1.03s Error: 'gbk' codec can't encode character '\u2022' in position 7696: illegal multibyte sequence ######################################

So what is wrong with this tool?

Is this reproducible?

Yes

Inputs Causing the Bug


Steps to Reproduce


Code snippets


OS

Windows

Python version

3.10.16

Browser

No response

Browser version

No response

Error logs & Screenshots (if applicable)

No response

Weltberg avatar Apr 03 '25 06:04 Weltberg