标题:基于Selenium框架的定向网络数据获取的设计与实现 作者:何苗;张蕴 作者单位:陕西工业职业技术学院信息工程学院,陕西 咸阳 712000;西安科技大学计算机科学与技术学院,陕西 西安 710054 关键字:Selenium框架;网络爬虫;大数据;自动化测试;可视化览 摘要:随着大数据和人工智能时代的到来,数据已经成为每一个行业的重要生产因素以及企业命脉,而获得数据并对数据进行分析已成为大数据时代最重要的部分。提出了一种基于Selenium框架的定向网络爬虫设计方法。通过Python操作自动化测试框架模拟人工浏览网页的方式,绕过一些动态网页中通过复杂JavaScript编辑的复杂反爬虫加密算法而获取指定页面信息,完成数据正常获取,提高爬行效率。利用该爬虫对豆瓣网页电影评论页面数据分类爬取,具有针对性强、操作简单且数据准确等优点。 |