初学者 ES 问题在这里
将 Spark Dataframe 推送到 Elastic Search 的工作流程或步骤是什么?
根据研究,我相信我需要使用Spark.newAPIHadoopFile() https://spark.apache.org/docs/1.5.1/api/python/pyspark.html方法。
然而,通过挖掘弹性搜索文档 https://www.elastic.co/guide/en/elasticsearch/reference/current/docs.html, and 其他堆栈问答 https://stackoverflow.com/questions/39559121/python-spark-dataframe-to-elasticsearch我仍然对参数需要采用什么格式以及为什么有点困惑
请注意,我使用的是 pyspark,这是 ES 的一个新表(尚无索引),并且 df 为 5 列(2 个字符串类型、2 个长类型和 1 个整数列表),约有 350 万行。
这对我有用 - 我的数据在df
.
df = df.drop('_id')
df.write.format(
"org.elasticsearch.spark.sql"
).option(
"es.resource", '%s/%s' % (conf['index'], conf['doc_type'])
).option(
"es.nodes", conf['host']
).option(
"es.port", conf['port']
).save()
我使用这个命令来提交我的工作 -/path/to/spark-submit --master spark://master:7077 --jars ./jar_files/elasticsearch-hadoop-5.6.4.jar --driver-class-path ./jar_files/elasticsearch-hadoop-5.6.4.jar main_df.py
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)