spark streaming的读取路径如果是hdfs的路径,直接hadoop fs -put 到你的监测路径就可以,如果是本地目录用file:///home/data

注意:不能移动文件到这个目录,也不能读取已存在的文件数据,必须用流的形式写入到这个目录形成文件才能被监测到

以上内容参考csdn博客: http://blog.csdn.net/u013013024/article/details/78133861

另外,结合网络资源总结:

如果要用spark读取已存在的静态文件,可以用SparkContext的textFile() 方法,示例如下:

2 收藏


直接登录
最新评论
  • I'm中瞌睡ing 软件工程师 01/15

    上次我就是读文件怎么都读不出来,最后写个小程序把文件内容写入kafka,再用spark streaming从kafka读取

    • swt925 C/C++, spark 01/15

      这个就要理解streaming这个词的意境了,streaming,“流”, 是一个动态的概念,他是动态的读取数据,所以处理静态数据的时候最好用SparkContext这个类,而不是StreamingContext这个类

    • swt925 C/C++, spark 01/15

      如果要用StreamingContext处理文件的话,SteamingContext适合读取某目录下以动态字节流的形式输入的文件