-
我希望我的地图和减少任务并行运行 然而 尽管尝试了所有的技巧 它们仍然按顺序运行 我读自如何在 Elastic MapReduce 上的 Hadoop 2 4 0 中设置每个节点并发运行任务的精确最大数量 https stackoverfl
-
我不确定这是否是提出这个问题的正确平台 但我的问题陈述是 我有一家书店 客户数量为 x x 很大 客户可以告诉我一本书是好还是坏 不推荐 我有一个将书籍放在一起的内在逻辑 所以如果客户说一本书不好 他是在说类似的书也不好 但不要向他展示这一
-
我有 4 列 clienttimestamp sensor id activity incidents 从 kafka 流中 我在窗口中消费数据 预处理和聚合 如果我使用 count 进行 groupby 操作 则该流可以很好地在控制台中写
-
我有一个 100 GB 的 json 文件 当我尝试用 jq 读取它时 我的计算机继续运行我们的 ram 有没有办法在限制内存使用的同时读取文件 或者有其他方法来读取非常大的 json 文件 我在命令中输入的内容 jq keys fileN
-
现在我实现了行计数ResultScanner像这样 for Result rs scanner next rs null rs scanner next number 如果数据达到百万次计算量很大 我想实时计算我不想使用Mapreduce
-
每当新文件到达特定文件夹时 我就尝试将文件从远程计算机获取到我的 hdfs 我在flume中遇到了spool dir的概念 如果spool dir位于运行flume代理的同一台机器上 那么它工作得很好 有什么方法可以在远程计算机中配置假脱机
-
我有一个很大的 CSV 文件 磁盘上约 50 GB 但无法立即将其完全读入内存 数据集本身是面板数据 看起来像 ID Time Col 1 Col N 1 2000 1 1 1 2000 1 2 2 2000 1 1 我加载这些数据的想法是
-
我需要在 Apache Hive 中挂钩自定义执行挂钩 如果有人知道该怎么做 请告诉我 我当前使用的环境如下 Hadoop Cloudera 版本 4 1 2 操作系统 Centos 谢谢 阿伦 有多种类型的挂钩 具体取决于您要在哪个阶段注
-
我正在学习蜂巢并遇到倾斜的表格 帮助我理解它 Hive 中的倾斜表是什么 我们如何创建倾斜表 它如何影响性能 Hive 中的倾斜表是什么 倾斜表是一种特殊类型的表 其中经常出现的值 严重倾斜 被分成单独的文件 其余的值转到其他文件 我们如何
-
到目前为止我有 require clojure csv core as csv require clojure java io as io def csv file getFile clojure java io resource verb
-
我在 stackexchange 中广泛搜索了一个将巨大 2GB dat 文件加载到 numpy 数组中的简洁解决方案 但没有找到合适的解决方案 到目前为止 我设法以非常快的方式 list f open myhugefile0 for li
-
我一直在尝试让 Apache Beam 可移植性框架与 Python 和 Apache Flink 一起使用 但我似乎找不到一套完整的指令来让环境正常工作 是否有任何参考资料包含使简单的 python 管道正常工作的先决条件和步骤的完整列表
-
我正在研究用于存储时间序列的 Cassandra 数据模型 我是 Cassandra 新手 我有两个应用程序 日内股票数据和传感器数据 股票数据将以一分钟的时间分辨率保存 七个数据字段构建一个时间范围 符号 日期时间 开盘价 最高价 最低价
-
我在尝试将大型数据帧插入 Postgres 时收到此错误 NoSuchMethodError sun nio ch DirectBuffer cleaner 这是一个完整的错误 之前有很多操作 所以没有理由将它们附加到问题中 您能否给一些建
-
我想将 data frame 转换为 ff 对象 并使用 as ffdf 进行描述here https stackoverflow com questions 15787221 how can i apply ffdf to non ato
-
我正在编写一个 Flink 流程序 其中我需要使用一些静态数据集 信息库 IB 来丰富用户事件的数据流 对于例如假设我们有一个买家的静态数据集 并且有一个传入的事件点击流 对于每个事件 我们希望添加一个布尔标志来指示事件的执行者是否是买家
-
我的 Hbase shell 上有多个表 我想将它们复制到我的文件系统上 有些表超过 100GB 但是 我的本地文件系统中只剩下 55GB 可用空间 因此 我想知道 hbase 表的大小 以便我可以仅导出小尺寸的表 任何建议表示赞赏 谢谢
-
尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
-
我有 17 个文件支持的 big matrix 对象 暗淡 10985 x 52598 每个 4 3GB 我想计算其中的元素平均值 结果可以存储在另一个big matrix gcm res outputM 中 biganalytics ap
-
我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre