2021年度  第2期


标题:基于Python多重解析的图像爬虫的设计与实现
作者:杨松 刘佳欣
作者单位:大连外国语大学软件学院网络空间多语言大数据智能分析研究中心,辽宁 大连 116044
关键字:多重解析;非法字符过滤;大容量文件;地址解析;图像爬虫;多线程
摘要:深度学习已经被广泛应用在自然语言处理和图像识别领域。深度学习模型需要大量的训练数据,而大量的训练数据能够有效地防止模型的过拟合。图像情感分类研究基于社交媒体的海量图像集,这些数据集往往不直接提供图像下载,而采用记录图像地址信息的专有格式文件。这些文件通常存在非法字符、解析困难、图像真实地址隐藏等问题,这给图像地址解析和下载带来诸多困难。以Python为工具,研究多重解析技术解决非法字符、大容量文件标签遍历和解析图像真实地址问题,并利用异常处理和多线技术实现图像准确快速地下载,帮助研究人员方便地采集图像数据集。