写一个自己的搜索引擎(1)-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

写一个自己的搜索引擎(1)

阅读量：4315 次

发布时间：2019-06-06

本文共 331 字，大约阅读时间需要 1 分钟。

本人大三学生一枚，最近突发奇想，想写一个搜索引擎。

git地址：git@github.com:liuxiaohao/cqusearch.git

先从爬虫开始写吧。

初步决定使用java+mysql完成。

初步完成数据库设计

完成hibernate配置。

完成页面的抓取，这里借助了java的htmlparser工具。

完成宽度优先的抓取网页界面，url表储存在java的hashset里面（便于查找）。

开始网页正文提取，依旧借助htmlparser。

网页正文提取有进展，开始完成爬虫的多线程。

多线程完成，开始尝试线程池。

转载于:https://www.cnblogs.com/lxhomj/archive/2012/11/05/2755564.html

你可能感兴趣的文章

Java中关键词之this,super的使用

人工智能暑期课程实践项目——智能家居控制（一）

前端数据可视化插件（二）图谱

kafka web端管理工具 kafka-manager【转发】

获取控制台窗口句柄GetConsoleWindow

Linux下Qt+CUDA调试并运行

51nod 1197 字符串的数量 V2（矩阵快速幂+数论？）

OKMX6Q在ltib生成的rootfs基础上制作带QT库的根文件系统

多线程基础

完美解决 error C2220: warning treated as error - no ‘object’ file generated

使用SQL*PLUS,构建完美excel或html输出

前后台验证字符串长度

《算法导论 - 思考题》7-1 Hoare划分的正确性

win64 Python下安装PIL出错解决2.7版本（3.6版本可以使用）

获取各种类型的节点

表达式求值-201308081712.txt

centos中安装tomcat6

从Vue.js窥探前端行业

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-06 07:13:43 当前IP: 3.129.71.88 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我