[Feature Request] 集成 Semantic Scholar API 获取文献
一个小建议,关于 Query 与实际检索结果匹配度不高的问题或许可以通过引入 Semantic Scholar API 来解决,可参见文档。
- Semantic Scholar 的检索效果比 ArXiv 自带的要强 (个人感觉,未经过严格测试)
- 数据来源更广,可以解决 ArXiv 不能查到想要文献的问题
- Semantic Scholar API 的接入成本比较低
- Semantic Scholar API 提供了按照作者、引文分析的的功能,进一步扩展的空间比较大
问题在于最好找到支持Semantic Scholar的开源python包
可以看下这个项目 https://github.com/danielnsilva/semanticscholar
我知道这个项目,但是相比目前项目中使用的arxiv包,它只实现了相当有限的功能。
其他支持 Semantic Scholar 的 Python 包维护状态似乎都不太好,要集成的话得从 HTTP API 重新封装了。
emmm,我再看一看它的代码
·对Semantic Scholar 的支持https://github.com/kaixindelele/ChatPaper/pull/81
两位好,尤其是@tenthousands同学,我这边其实有考虑过直接用arxiv网页爬虫,获取官网的数据,示例代码也写了。 所以关于你说的这个semantic scholar的功能,我不知道有没有必要?他们是只提供论文的url,标题,和摘要吗?可以提供下载吗?
emmm,其实semantic scholar是一个收录了Arxiv的论文库(不清楚是部分还是全部),一些特点上面也提到了。Pull requests中实现了和示例中一样的效果,包括论文url,标题,和摘要等等,以及pdf下载和解析输出markdown。 ·下一步是增强代码对多种多样论文格式的支持。
不知道我的描述是否清楚?@kaixindelele