博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
写一个自己的搜索引擎(1)
阅读量:4315 次
发布时间:2019-06-06

本文共 331 字,大约阅读时间需要 1 分钟。

本人大三学生一枚,最近突发奇想,想写一个搜索引擎。

git地址:git@github.com:liuxiaohao/cqusearch.git

先从爬虫开始写吧。

初步决定使用java+mysql完成。

初步完成数据库设计

完成hibernate配置。

完成页面的抓取,这里借助了java的htmlparser工具。

完成 宽度优先的抓取网页界面,url表储存在java的hashset里面(便于查找)。

开始网页正文提取,依旧借助htmlparser。

网页正文提取有进展,开始完成爬虫的多线程。

多线程完成,开始尝试线程池。

转载于:https://www.cnblogs.com/lxhomj/archive/2012/11/05/2755564.html

你可能感兴趣的文章
Java中关键词之this,super的使用
查看>>
人工智能暑期课程实践项目——智能家居控制(一)
查看>>
前端数据可视化插件(二)图谱
查看>>
kafka web端管理工具 kafka-manager【转发】
查看>>
获取控制台窗口句柄GetConsoleWindow
查看>>
Linux下Qt+CUDA调试并运行
查看>>
51nod 1197 字符串的数量 V2(矩阵快速幂+数论?)
查看>>
OKMX6Q在ltib生成的rootfs基础上制作带QT库的根文件系统
查看>>
zabbix
查看>>
多线程基础
查看>>
完美解决 error C2220: warning treated as error - no ‘object’ file generated
查看>>
使用SQL*PLUS,构建完美excel或html输出
查看>>
前后台验证字符串长度
查看>>
《算法导论 - 思考题》7-1 Hoare划分的正确性
查看>>
win64 Python下安装PIL出错解决2.7版本 (3.6版本可以使用)
查看>>
获取各种类型的节点
查看>>
表达式求值-201308081712.txt
查看>>
centos中安装tomcat6
查看>>
从Vue.js窥探前端行业
查看>>
学习进度
查看>>