招聘网站数据抓取爬虫程序的设计与开发

3.0 闻远设计 2024-03-16 19 4 508.64KB 5 页 免费
侵权投诉
招聘网站数据抓取爬虫程序的设计与开发
摘要 :为了快速地获取职位信息, 根据 前程无忧 的网页特点, 设计了 3种基于 Python 的爬
虫程序, 进行职位相关数据的抓取。通过对关键字的提取, 匹配符合条件的职位信息, 并且
抓取相关内容存入 Excel 文件中, 便于寻找相关职位信息及具体要求。实验结果表明:该程序
能够快速且大量地抓取相关职位信息, 针对性强, 简单易读, 有利于对职位信息的进一步挖
掘及分析。
Design on 51-job Data Scraping Program Based on Python
Abstract:In order to obtain job information quickly, according to the characteristics of web pages
with“Worry-free Future”, three kinds of Python-based crawler programs are designed to capture job-
related data. Through the extraction of the keywords, the job information is matched, and the relevant
content is captured in an Excel file, so that the related job information and specific requirements can
be easily found. The experimental results show that this program can quickly and massively capture
relevant job information, and it is highly targeted and easy to read, which is conducive to further
mining and analysis of job information.
Keyword:Python; crawler; position; Worry-free Future;
0、引言
随着互联网时代的高速发展, 大量的数据可以通过互联网来获得, 可以足不出户就能获知世
界上的千变万化[1]. 我们可以在互联网上获取招聘信息, 而不再局限于报纸、杂志等纸质媒
介, 这使得求职者可以快速有效地获得心仪的招聘信息。每年的 9月和 4月都是毕业生找工作
的高峰时期, 快速有效地获得招聘信息成为求职过程中关键一步。为此, 本文设计了一款基
python ”“ ”“的爬虫程序, 目前国内比较着名的求职软件有 智联招聘 前程无忧 58 同城 等,
本文主要对 前程无忧 的招聘信息进行抓取并分析。现有的数据抓取程序抓取方式单一, 用户
不能选择最快的抓取方法, 该程序针对此问题进行了进一步的优化, 设计 3种数据抓取的方
法, 用户可自行选择, 并且可以输入关键字, 匹配招聘信息的地点。设计更合理, 则用户使
用体验效果会更好[2].
本文提出的程序通过爬虫获取职位信息, 包括:工作名称、标题、地点、公司名称、待遇范
围、工作内容、招聘网址以及发布日期。并将获得的信息保存在本地, 以供后续的数据挖掘及
分析。本文的爬虫程序包含 3 种爬虫的方法, 包括 ReXPathBeatuiful Soup, 用户可以自行
选择想要的爬虫方法, 并且输入职位的关键词, 通过关键词匹配, 获得相应的职位信息。
1、相关概念
1.1 Python 语言
Python 语言语法简单清晰、功能强大, 容易理解。可以在 WindowsLinux 等操作系统上运
行;Python 是一种面向对象的语言, 具有效率高、可简单地实现面向对象的编程等优点[3-
4].Python 是一种脚本语言, 语法简洁且支持动态输入, 使得 Python 在很多操作系统平台上都
是一个比较理想的脚本语言, 尤其适用于快速的应用程序开发[5].Python 包括针对网络协议的
各个层次进行抽象封装的网络协议标准库, 这使得使用者可以对程序逻辑进行进一步的优化。
其次, Python 常擅长处理字节流的各种式, 具有很快的开发速[6-7].
1.2 网络爬虫
网络爬虫[8] Web Crawler , 是一种按照则, 自动提取 Web 网页的应用程序者脚
本, 是在搜索引擎成数据抓取的关键一步, 可以在 Internet 下载页面。爬虫是为
了将 Internet 上的网页保存本地, 以供参考[9-10].爬虫是一个多个初始页面的 URL, 通过
分析页面文件的 URL, 抓取的网页链接, 通过这网页链接, 再续寻找的网页链接
[11], 反复循环直到抓取和分析有页面。当然这是理想情况下情况, 根据现在公布
的数据, 最好的搜索引擎也只爬取个互联网不的网页[12].
2、程序设计
本文的爬虫程序主要分为 5 模块首先根据 Request URL 获取要爬取数据的页面, 通过
ReXPathBeautiful Soup 种方法, 利用关键词选符合条件的职位信息, 其中包括工作
名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期, 并保存在本
地, 以便后续的数据挖掘及分析。
2.1 获取网页信息
爬取网页信息要获取网页的信息, 并中找出要的信息进行抓取。首先打Chrome
浏览器, 进入前程无忧的网页, 开开发者选, 找其中的 network, 获取 URL 以及
中的 headers[13].preview 中可以看到当前网页的, 可以从源中找到需要爬取的信
息, 工作名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期,
并找出前页与下一页的 offset , 以便在以的爬虫设计中使用。
2.2 主程序设计
Beautiful SoupXPathRegex 种方法的文件名包成字, 并标上序, 设计进入程序
的页面, 在页面上显示信息, 用户选择一种爬虫方法, 根据用户的选择, 进入对应的
程序, 待用户输入查询的职位关键词动爬虫程序, 开抓取数据[14].在抓取
后, 提用户数据抓取毕, 以保存本地文件, 以供用户的使用及分析。
2.3 Re 程序设计
则表Re 是对字符串 (包括通字符 (例如a~z 之间的字母) 和特字符
字符 ) ) 操作的一种逻辑公式, 就是用事先定义好的一字符及这字符的
合, 成一个 则字符[15], 这个 则字符用来表对字符的一种过逻辑。
式是一种文本式, 描述搜索文本时要匹配的一个多个字符
根据上文获取的网页信息, 可以将所需信息的字符Re 出来, 其中:
通过获取的日期, 用户可以了解最的职位信息。根据职位的详细信息, 求职者可以快速地
了解公司的要求以及职位的相关工作信息。通过上则表式获取的信息, 存入本地的
Excel 文件, 方便求职者查看
2.4 XPath 程序设计

标签: #设计

摘要:

招聘网站数据抓取爬虫程序的设计与开发摘要“”:为了快速地获取职位信息,根据前程无忧的网页特点,设计了3种基于Python的爬虫程序,进行职位相关数据的抓取。通过对关键字的提取,匹配符合条件的职位信息,并且抓取相关内容存入Excel文件中,便于寻找相关职位信息及具体要求。实验结果表明:该程序能够快速且大量地抓取相关职位信息,针对性强,简单易读,有利于对职位信息的进一步挖掘及分析。Designon51-jobDataScrapingProgramBasedonPythonAbstract:Inordertoobtainjobinformationquickly,accordingtothechar...

展开>> 收起<<
招聘网站数据抓取爬虫程序的设计与开发.docx

共5页,预览2页

还剩页未读, 继续阅读

作者:闻远设计 分类:其它行业资料 价格:免费 属性:5 页 大小:508.64KB 格式:DOCX 时间:2024-03-16

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 5
客服
关注