• python爬虫如何将采集到的内容和图片关联起来?

    2016/02/18 拳拳 5 评论

采集一个网页的内容,有文字和其相关的图片。我处理的方式是将匹配格式的内容存储数据库,将页面上的图片下载到文件夹中。

采集的结果需要调用文字及和其相关的图片,该怎么关联呢

我想的办法

1、采集内容的时候,将绝对路径的图片的地址修改后再存储内容,图片的名称不变

2、调用内容和图片的时候就不需要去关联图片了

1、在内容存储数据库中加一列图片名称字段,将内容和图片在数据库关联

2、在调用网页内容时,再修改图片的地址。

这两种方法可以吗?第一种采集效率会不会底下,第二种会不会遇到一个内容对应多张图片,不易处理

或者有没有别的办法啦

2 收藏


直接登录
最新评论
  • 蒋生武 Coder 2016/02/18

    1. 内容表里存图片文件夹路径,文件夹里是这个内容的所有图
    2. 内容表一个字段存所有图片路径,规定好格式就是,逗号分隔或者json数组等等
    3. 图片路径单独存个表,加个字段是内容id

    怎么好要看读取时候实际需求了

    • 拳拳 我也不知道我在做的啥 2016/02/19

      3挺好的,单独在建一个图片表,在图片表里将图片地址通过内容ID和内容进行关联。
      一般一个url页面的图片放在一个文件夹里,可以通过url来关联图片地址,这样的话图片表里的值可以减少很多。
      图片从网站下载到本地,我需要将采集的内容中的图片的src属性修改成我本地的地址,这个修改动作是采集的时候修改好,还是在引用采集内容的时候修改好呢

      • 蒋生武 Coder 2016/02/19

        爬网页 -> url放进阻塞队列 -> 多线程取url -> 处理

        其中处理的步骤怎么方便以后使用就怎么来,慢一点也没事

  • v7   2016/02/19

    第一种的话 图片名称不能不变
    两个网页都有一个 logo.png 总不能给出每个网页一个文件夹
    不过第一种方法不是不可行,图片src做uid,网页做extract更新img的src成自己本地路径 这里没有依赖关系可以异步

    • 拳拳 我也不知道我在做的啥 2016/02/19

      现在是每个网页生成一个文件夹,改名字感觉不是很方便