搜索引擎个性化模块超强升级
1、数据爬取模块:作用就是应用爬虫顺序追踪网上的超链接找到并下载新的页面,为树立初始的数据库做好充足的资源预备;经过回访曾经抓到的互联网网页看其能否发作了变化,依次保证抓取到的信息有效;并将抓取到的 HTML、XML、AdobePDF 等格式的网页转换成文本文档的格式。
2、索引模块:对网络爬虫抓取到的网页停止数据清洗、数据分类等,即对文本停止去除停用词、分词之后,从中找到索引项,并且用来表示文档以及生成文档库的索引表,并存储在索引数据库中。
3、用户兴味建模模块:应用用户检查网页的内容以及检查信息进程中的行为特征,找到用户的兴味喜好点,为用户树立兴味模型并保证用户兴味的更新,为用户停止查询优化提供基础。
4、查询日志:寄存用户检查的历史网页,为查询扩展提供候选查询词文本集。
5、查询扩展模块:依据已有的用户兴味和用户的历史查询日志,在用户查询时对用户的查询停止优化扩展。
6、信息检索模块:搜索引擎的功用模块,抓取网页、网页预处置,停止查询和网页的婚配计算,给出和用户查询词相关网页结果列表。该模块输入的是查询词和处置后的文档,输入的是依照相关度大小停止排序的相关文档和检索结果。
7、用户界面模块:与用户交互的接口,可以注册登录,输入查询词停止搜索并可以检查前往结果。