毕设


3/19/2020 所有文章 进阶 数据层 全文检索引擎 大数据 ELK 分布式 爬虫🕷 知识图谱

TIP

这次项目做的是一个爬虫,搜索引擎的一部分,用的是scrapy框架和django,django写后台管理,利用mysql的binlog机制增量同步到es,为搜索引擎提供基础的数据检索服务。

数据采集

Scrapy爬虫

爬取思否编程网站的问题和文章,使用Scrapy的Crawl全站爬取,url去重,全异步框架,效率高不阻塞.

django后台

用的是xadmin,数据通过后台直接保存到mysql增删改查同步ES

mysql同步es

基础功能

用户中心

数据检索

知识图谱优化

知识抽取

知识整合

部署

nginx部署

数据库部署

Last Updated: 3/20/2020, 3:10:16 AM