ChatPaper icon indicating copy to clipboard operation
ChatPaper copied to clipboard

[Feature Request] 集成 Semantic Scholar API 获取文献

Open hyacz opened this issue 2 years ago • 9 comments

一个小建议,关于 Query 与实际检索结果匹配度不高的问题或许可以通过引入 Semantic Scholar API 来解决,可参见文档

  1. Semantic Scholar 的检索效果比 ArXiv 自带的要强 (个人感觉,未经过严格测试)
  2. 数据来源更广,可以解决 ArXiv 不能查到想要文献的问题
  3. Semantic Scholar API 的接入成本比较低
  4. Semantic Scholar API 提供了按照作者、引文分析的的功能,进一步扩展的空间比较大

hyacz avatar Mar 16 '23 07:03 hyacz

问题在于最好找到支持Semantic Scholar的开源python包

mhliang21 avatar Mar 20 '23 04:03 mhliang21

可以看下这个项目 https://github.com/danielnsilva/semanticscholar

hyacz avatar Mar 20 '23 04:03 hyacz

我知道这个项目,但是相比目前项目中使用的arxiv包,它只实现了相当有限的功能。

mhliang21 avatar Mar 20 '23 04:03 mhliang21

其他支持 Semantic Scholar 的 Python 包维护状态似乎都不太好,要集成的话得从 HTTP API 重新封装了。

hyacz avatar Mar 20 '23 04:03 hyacz

emmm,我再看一看它的代码

mhliang21 avatar Mar 20 '23 04:03 mhliang21

·对Semantic Scholar 的支持https://github.com/kaixindelele/ChatPaper/pull/81

mhliang21 avatar Mar 21 '23 13:03 mhliang21

两位好,尤其是@tenthousands同学,我这边其实有考虑过直接用arxiv网页爬虫,获取官网的数据,示例代码也写了。 所以关于你说的这个semantic scholar的功能,我不知道有没有必要?他们是只提供论文的url,标题,和摘要吗?可以提供下载吗?

kaixindelele avatar Mar 21 '23 14:03 kaixindelele

emmm,其实semantic scholar是一个收录了Arxiv的论文库(不清楚是部分还是全部),一些特点上面也提到了。Pull requests中实现了和示例中一样的效果,包括论文url,标题,和摘要等等,以及pdf下载和解析输出markdown。 ·下一步是增强代码对多种多样论文格式的支持。

mhliang21 avatar Mar 21 '23 14:03 mhliang21

不知道我的描述是否清楚?@kaixindelele

mhliang21 avatar Mar 22 '23 07:03 mhliang21