Python爬虫实现抓取电影网站信息并入库

发布日期:2025-01-04 11:04    点击次数:181

一.环境搭建 1.下载安装包 访问 Python官网下载地址:https://www.python.org/downloads/ 下载适合自己系统的安装包: 我用的是 Windows 环境,所以直接下的 exe 包进行安装。 下载后,双击下载包,进入 Python 安装向导,安装非常简单,你只需要使用默认的设置一直点击"下一步"直到安装完成即可。 2.修改环境变量 右键点击"计算机",点击"属性"; 然后点击"高级系统设置"-“环境变量”; 选择"系统变量"窗口下面的 “Path” ,添加 python 安装路径; 设置成功以后,在cmd命令行,输入命令"python",有显示则说明配置成功。 3.安装依赖模块 我们的爬取程序需要安装的依赖模块包括 requests,lxml,pymysql ,步骤如下: 进入python安装目录下的Scripts目录,点击地址栏输入“cmd” 打开命令行工具: 在这个路径下安装对应的 requests,lxml,pymysql 依赖: 需要输入的命令: 二.代码开发 开发 collectMovies.py 三.运行测试 1.新建电影信息表 2.代码运行 打开 collectMovies.py 所在目录,输入命令运行: 运行结果如下: 查看数据库表,数据已成功插入: 四.问题排查和修复 1.空白字符报错 第一次使用 Python,不太熟悉它的规则,空格和Tab混用,运行会报如下错: 解决方法 下载 Notepad++,选择 “编辑” – “空白字符操作” – "空格转 Tab (行首)"即可。 2.请求报错 修改好格式之后再次运行,反反复复的报请求的错,报错信息主要包括以下内容: 解决方法 本来以为是请求设置出了问题,各种百度,还安装了 pip install incremental ,但是依然没有奏效。 后来把请求的网址换成百度网就不报错了,这样可以定位到是原网址的访问出了问题,更换了采集源路径,该问题解决。 以上就是Python爬虫实现抓取电影网站信息并入库的详细内容,更多关于Python抓取网站信息的资料请关注脚本之家其它相关文章!