招聘网站数据抓取爬虫程序的设计与开发
招聘网站数据抓取爬虫程序的设计与开发
摘要 “ ” :为了快速地获取职位信息, 根据 前程无忧 的网页特点, 设计了 3种基于 Python 的爬
虫程序, 进行职位相关数据的抓取。通过对关键字的提取, 匹配符合条件的职位信息, 并且
抓取相关内容存入 Excel 文件中, 便于寻找相关职位信息及具体要求。实验结果表明:该程序
能够快速且大量地抓取相关职位信息, 针对性强, 简单易读, 有利于对职位信息的进一步挖
掘及分析。
Design on 51-job Data Scraping Program Based on Python
Abstract:In order to obtain job information quickly, according to the characteristics of web pages
with“Worry-free Future”, three kinds of Python-based crawler programs are designed to capture job-
related data. Through the extraction of the keywords, the job information is matched, and the relevant
content is captured in an Excel file, so that the related job information and specific requirements can
be easily found. The experimental results show that this program can quickly and massively capture
relevant job information, and it is highly targeted and easy to read, which is conducive to further
mining and analysis of job information.
Keyword:Python; crawler; position; Worry-free Future;
0、引言
随着互联网时代的高速发展, 大量的数据可以通过互联网来获得, 可以足不出户就能获知世
界上的千变万化[1]. 我们可以在互联网上获取招聘信息, 而不再局限于报纸、杂志等纸质媒
介, 这使得求职者可以快速有效地获得心仪的招聘信息。每年的 9月和 4月都是毕业生找工作
的高峰时期, 快速有效地获得招聘信息成为求职过程中关键一步。为此, 本文设计了一款基
于python “ ”“ ”“的爬虫程序, 目前国内比较着名的求职软件有 智联招聘 前程无忧 58 ” 同城 等,
“ ” 本文主要对 前程无忧 的招聘信息进行抓取并分析。现有的数据抓取程序抓取方式单一, 用户
不能选择最快的抓取方法, 该程序针对此问题进行了进一步的优化, 设计 3种数据抓取的方
法, 用户可自行选择, 并且可以输入关键字, 匹配招聘信息的地点。设计更合理, 则用户使
用体验效果会更好[2].
本文提出的程序通过爬虫获取职位信息, 包括:工作名称、标题、地点、公司名称、待遇范
围、工作内容、招聘网址以及发布日期。并将获得的信息保存在本地, 以供后续的数据挖掘及
分析。本文的爬虫程序包含 3 种爬虫的方法, 包括 Re、XPath、Beatuiful Soup, 用户可以自行
选择想要的爬虫方法, 并且输入职位的关键词, 通过关键词匹配, 获得相应的职位信息。
1、相关概念
1.1 Python 语言
Python 语言语法简单清晰、功能强大, 容易理解。可以在 Windows、Linux 等操作系统上运
行;Python 是一种面向对象的语言, 具有效率高、可简单地实现面向对象的编程等优点[3-
4].Python 是一种脚本语言, 语法简洁且支持动态输入, 使得 Python 在很多操作系统平台上都
是一个比较理想的脚本语言, 尤其适用于快速的应用程序开发[5].Python 包括针对网络协议的
各个层次进行抽象封装的网络协议标准库, 这使得使用者可以对程序逻辑进行进一步的优化。
其次, Python 非常擅长处理字节流的各种模式, 具有很快的开发速度[6-7].
1.2 网络爬虫
网络爬虫[8] (Web Crawler ), 是一种按照一定的规则, 自动提取 Web 网页的应用程序或者脚
本, 它是在搜索引擎上完成数据抓取的关键一步, 可以在 Internet 上下载网站页面。爬虫是为
了将 Internet 上的网页保存到本地, 以供参考[9-10].爬虫是从一个或多个初始页面的 URL, 通过
分析页面源文件的 URL, 抓取新的网页链接, 通过这些网页链接, 再继续寻找新的网页链接
[11], 反复循环,直到抓取和分析所有页面。当然这是理想情况下的执行情况, 根据现在公布
的数据, 最好的搜索引擎也只爬取整个互联网不到一半的网页[12].
2、程序设计
本文的爬虫程序主要分为 5 个模块,首先根据 Request URL 获取需要爬取数据的页面, 通过
Re、XPath、Beautiful Soup 三种方法, 利用关键词筛选符合条件的职位信息, 其中包括工作
名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期, 并保存在本
地, 以便后续的数据挖掘及分析。
2.1 获取网页信息
爬取网页信息之前需要获取网页的信息, 并从中找出需要的信息进行抓取。首先打开Chrome
浏览器, 进入前程无忧的网页, 打开开发者选项, 找到其中的 network, 获取 URL 以及请求头
中的 headers[13].在preview 中可以看到当前网页的源代码, 可以从源代码中找到需要爬取的信
息, 即工作名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期,
并找出当前页与下一页的 offset 值, 以便在以下的爬虫设计中使用。
2.2 主程序设计
将Beautiful Soup、XPath、Regex 三种方法的文件名打包成字典, 并标上序号, 设计进入程序
的页面, 在页面上显示提示信息, 请用户选择一种爬虫方法, 根据用户的选择, 进入对应的
程序, 待用户输入需要查询的职位关键词之后启动爬虫程序, 开始抓取数据[14].在抓取完毕
之后, 提示用户数据抓取完毕, 以保存至本地文件, 以供用户的使用及分析。
2.3 Re 程序设计
正则表达式(Re )是对字符串 (包括普通字符 (例如,a~z 之间的字母) 和特殊字符 (称
“ ” 为元字符 ) ) 操作的一种逻辑公式, 就是用事先定义好的一些特定字符及这些特定字符的
“ ”组合, 组成一个 规则字符串[15], “ ”这个 规则字符串用来表达对字符串的一种过滤逻辑。正则
表达式是一种文本模式, 模式描述在搜索文本时要匹配的一个或多个字符串。
根据上文获取的网页信息, 可以将所需信息的字符串用Re 表示出来, 其中:
通过获取的日期, 用户可以了解最新的职位信息。根据职位的详细信息, 求职者可以快速地
了解到公司的要求以及职位的相关工作信息。通过上述的正则表达式获取的信息, 存入本地的
Excel 文件, 方便求职者查看。
2.4 XPath 程序设计
标签: #设计
摘要:
展开>>
收起<<
招聘网站数据抓取爬虫程序的设计与开发摘要“”:为了快速地获取职位信息,根据前程无忧的网页特点,设计了3种基于Python的爬虫程序,进行职位相关数据的抓取。通过对关键字的提取,匹配符合条件的职位信息,并且抓取相关内容存入Excel文件中,便于寻找相关职位信息及具体要求。实验结果表明:该程序能够快速且大量地抓取相关职位信息,针对性强,简单易读,有利于对职位信息的进一步挖掘及分析。Designon51-jobDataScrapingProgramBasedonPythonAbstract:Inordertoobtainjobinformationquickly,accordingtothechar...
相关推荐
-
2024年党建工作要点工作计划5篇供参考
2023-12-16 999+ -
2025年专题生活会对照带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”个人对照检查发言材料4110字文稿
2024-12-21 999+ -
2025年医保局局长、科技局领导干部专题“四个带头”方面对照检查材料2篇例文(附:反面典型案例剖析情况)
2025-02-09 474 -
2025年国有企业党委书记、市总工会党组书记民主生活会“四个带头”方面对照个人检查发言材料2篇文(附:典型案例、上年度整改+个人情况)
2025-02-09 521 -
2025年市委组织部部长、教育局党委书记生活会“四个带头”个人对照检查发言材料2篇文(典型案例+个人事项)
2025-02-09 643 -
2025年市财政局党组书记、局长、市检察院党组领导班子对照“四个带头”方面生活会个人对照检视发言材料2篇文(含以案为鉴反思、以案促改促治方面)
2025-02-09 528 -
市检察院党组、市财政局领导班子2025年生活会对照“四个带头”方面检视发言材料2份文【含以违纪行为为典型案例剖析】
2025-02-09 469 -
2025年市财政局领导对照“四个带头”生活会检视发言材料2篇例文【含以违纪行为为典型案例剖析】
2025-02-09 591 -
单位领导班子2025年聚焦“四个带头”生活会对照检查材料2篇文(含:典型案例剖析反思、落实意识形态责任制)
2025-02-09 772 -
2025年镇党委副书记、市科学技术局领导班子生活会对照“四个带头”检视材料2篇文【含违纪行为典型案例分析】
2025-02-09 263
作者:闻远设计
分类:其它行业资料
价格:免费
属性:5 页
大小:508.64KB
格式:DOCX
时间:2024-03-16

