【无标题】

2023-12-14 23:47:19

一款计算机顶会爬取解析系统 paper info

- 背景
- 项目实现的功能
技术方案
- 架构设计
- 项目使用的技术选型
使用方法
百度网盘
- pfd文件
- json文件
Q&A

github链接：https://github.com/codebricking/paper-info
paper info 可以爬取顶会或者arxiv论文，并且利用ChatGPT对论文的关键信息进行理解，然后利用es进行检索，实现用中文检索英文论文，并快速了解论文核心内容。

当然，对于不从事开发工作的用户来说，部署这个项目，会有一点繁琐，本项目提供了爬取的顶会论文，以及解析的文本信息，用户可以将其直接上传至ChatGPT或者国内的大模型的语料库中，也可以实现和论文直接对话的功能。

背景

AI计算机领域很多新的成果都是通过论文的形式发出来的，高效的检索，下载和了解论文核心内容对于科研十分重要。在计算机领域，尤其是顶会论文。本人在读研初期，没有及时关注最新的高水平论文，阅读了一些质量不算高或者是方法不够新的论文，浪费了不少时间。随着研究的主键深入，对于在哪里寻找高水平论文才有了进一步的了解。因此，在周末空余实现，根据之遇到的问题，写了这样一个工具。

项目实现的功能

使用Jsoup抓取顶会论文和arxiv的论文关键信息。
批量下载论文到本地
使用XEasyPdf解析pdf为纯文本，方便后续处理
调用ChatGPT梳理论文关键信息
使用xxl-job定时任务功能，结合Jsoup检测arxiv最新的论文，紧跟研究方向前沿
使用xxl-job定时定频率地调用api接口，以免频率过高导致调用失败
使用es进行查询，让用户可以直接在众多论文中进行关键词查找，提高了检索速度
封装了调用ChatGPT的接口
封装了调用Google翻译的借口
封装了ChatGPT和Google代理，需要部署在国外服务器上

技术方案

架构设计

请添加图片描述

项目使用的技术选型

Java8

MySQL8

mybatis-plus

springboot 2.7

elastic search

xxl-job

Jsoup

knife4j

hutool

使用方法

本地项目部署

1、安装MySQL

2、安装es

3、xxjob(可选)

4、运行项目

可以将自己关注的领域的文章导入（JSON数据链接：https://pan.baidu.com/s/1Y3IlR0N2phD6AlKWfkXAdQ
提取码：umgd），调用接口进行翻译和核心内容提取。

使用ChatGPT等大模型

本项目所积累的数据还可以作为和大模型对话的个人数据，将其上传到大模型中，利用ChatGPT或者阿里云等服务自带的向量数据库，可以直接与论文进行对话。

JSON数据链接：https://pan.baidu.com/s/1Y3IlR0N2phD6AlKWfkXAdQ
提取码：umgd

创建一个ChatGPT助手

进入 https://platform.openai.com/assistants
点击create创建
上传数据

使用阿里云

//todo

顶会数据量

年份	AAAI	AISTATS	ACML	COLT	ICML	CVPR	ICCV	WACV	ECCV	JMLR	NIPS	sum
2022	1623	72	83	162	1232	802	0	406	1645	351	2671	9047
2021	1961	455	115	139	1183	1047	836	406	0	289	2271	8702
2020	1861	419	54	125	1081	1466	0	378	1358	251	1897	8890
2019	1340	359	78	124	771	1294	1075	0	0	184	1426	6651
2018	1098	216	57	93	618	979	0	0	661	84	1006	4812
2017	0	167	41	75	431	783	621	0	0	231	677	3026
2016	691	162	29	68	320	643	0	0	0	234	566	2713
2015	673	123	28	77	269	602	526	0	0	118	401	2817
2014	474	121	25	58	302	540	0	0	0	120	406	2046
2013	276	71	32	50	281	471	454	0	0	115	357	2107

详细列表见

data/paper/


top_conference_2013.md	337 kB
top_conference_2014.md	310 kB
top_conference_2015.md	444 kB
top_conference_2016.md	414 kB
top_conference_2017.md	535 kB
top_conference_2018.md	800 kB
top_conference_2019.md	1.1 MB
top_conference_2020.md	1.5 MB
top_conference_2021.md	1.5 MB
top_conference_2022.md	1.5 MB

百度网盘

pfd文件

链接：https://pan.baidu.com/s/1FKK27KgbYHm_2n5iDy3WZA
提取码：z8a9

json文件

JSON数据链接：https://pan.baidu.com/s/1Y3IlR0N2phD6AlKWfkXAdQ
提取码：umgd

Q&A

1、项目所部署的机器无法访问ChatGPT和谷歌翻译

A：使用项目中提供的API-Reverse-Proxy模块，将其部署在可以访问的机器上，然后将本地项目调用的接口地址改为代理机器的地址。或者使用国产的替代

文章来源:https://blog.csdn.net/LiMarrtin/article/details/135005963
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！