Python爬虫实现抓取电影网站信息并入库

发布日期：2025-01-04 11:04 点击次数：247

一.环境搭建 1.下载安装包访问 Python官网下载地址：https://www.python.org/downloads/ 下载适合自己系统的安装包：我用的是 Windows 环境，所以直接下的 exe 包进行安装。下载后，双击下载包，进入 Python 安装向导，安装非常简单，你只需要使用默认的设置一直点击"下一步"直到安装完成即可。 2.修改环境变量右键点击"计算机"，点击"属性"；然后点击"高级系统设置"-“环境变量”；选择"系统变量"窗口下面的 “Path” ，添加 python 安装路径；设置成功以后，在cmd命令行，输入命令"python"，有显示则说明配置成功。 3.安装依赖模块我们的爬取程序需要安装的依赖模块包括 requests，lxml，pymysql ，步骤如下：进入python安装目录下的Scripts目录，点击地址栏输入“cmd” 打开命令行工具：在这个路径下安装对应的 requests，lxml，pymysql 依赖：需要输入的命令：二.代码开发开发 collectMovies.py 三.运行测试 1.新建电影信息表 2.代码运行打开 collectMovies.py 所在目录，输入命令运行：运行结果如下：查看数据库表，数据已成功插入：四.问题排查和修复 1.空白字符报错第一次使用 Python，不太熟悉它的规则，空格和Tab混用，运行会报如下错：解决方法下载 Notepad++，选择 “编辑” – “空白字符操作” – "空格转 Tab (行首)"即可。 2.请求报错修改好格式之后再次运行，反反复复的报请求的错，报错信息主要包括以下内容：解决方法本来以为是请求设置出了问题，各种百度，还安装了 pip install incremental ，但是依然没有奏效。后来把请求的网址换成百度网就不报错了，这样可以定位到是原网址的访问出了问题，更换了采集源路径，该问题解决。以上就是Python爬虫实现抓取电影网站信息并入库的详细内容，更多关于Python抓取网站信息的资料请关注脚本之家其它相关文章！