spark

【毕业设计】基于Spark的海量新闻文本聚类（新闻分类）

文章目录 0 前言 1 项目介绍 2 实现流程 3 开发环境 4 java目录功能介绍 5 scala目录功能介绍 5 1 求TF IDF 5 2 调用K means模型 5 3 评价方式 6 聚类结果 7 最后 0 前言 Hi 大家好这

大数据 毕业设计 spark 新闻分类 文本聚类

Java接入Spark之创建RDD的两种方式和操作RDD

首先看看思维导图我的spark是1 6 1版本 jdk是1 7版本 spark是什么 Spark是基于内存计算的大数据并行计算框架 Spark基于内存计算提高了在大数据环境下数据处理的实时性同时保证了高容错性和高可伸缩性允许用户将S

大数据与云计算 spark 大数据生态系统技术

请别再问我Spark的MLlib和ML库的区别

机器学习库 MLlib 指南 MLlib是Spark的机器学习 ML 库其目标是使实际的机器学习可扩展和容易在高层次上它提供了如下工具 ML算法通用学习算法如分类回归聚类和协同过滤特征提取特征提取转换降维和选择管道

spark

Spark Standalone和yarn区别

Spark Standalone模式提交任务 Cluster模式 spark submit master spark node01 7077 deploy mode cluster class org apache spark exampl

数据仓库 spark Bigdata big data

大数据技术——Scala语言基础

Scala语言概述计算机的缘起数学家阿隆佐邱奇 Alonzo Church 设计了入演算这是一套用于研究函数定义函数应用和递归的形式系统入演算被视为最小的通用程序设计语言入演算的通用性就体现在任何一个可计算函数都能用这种形

大数据 spark 分布式 Powered by 金山文档

在idea中pom.xml添加sparkSQL依赖

在idea中如果没有sparkSQL的依赖需要现在pom xml 中添加依赖

spark intellijidea Java IntelliJ idea SparkSQL

Spark kryo Jar包冲突问题排查

错误日志 Exception in thread adaptive query stage 0 java lang NoSuchMethodError com esotericsoftware kryo Kryo setInstantiat

spark

嘴说手画Spark的存储系统

Spark本身并不存储数据这里所说的存储系统是指计算过程中管理内存中数据如读到内存的源数据缓存的RDD数据广播数据 Shuffle文件数据的功能模块如果没有存储管理系统计算是无法完成的存储系统的主要由以下组件构成 Block

hadoop实战 spark big data 大数据

Spark大数据分析与实战笔记（第一章 Scala语言基础-1）

文章目录章节概要 1 1 初识Scala 1 1 1 Scala的概述 1 1 2 Scala的下载安装 1 1 3 在IDEA开发工具中下载安装Scala插件 1 1 4 开发第一个Scala程序章节概要 Spark是专为大规模数据处

Spark大数据分析与实战 spark 笔记 scala

基于大数据框架的协同过滤算法餐饮推荐系统【Update2023-6-25】

开始之前设计思路首先这位作者的推荐系统给了我很大的构思启发 Github地址 https github com share23 Food Recommender 他的系统采用实时大数据技术组件具体有Spark Streaming HD

Hadoop生态 算法 Hadoop spark HDFS

scala.collection.map 和 scala.collection.mutable.map有什么区别

一类型 1 Map 映射是一种可迭代的键值对 key value 结构 2 所有的值都可以通过键 key 来获取 3 Map 中的键都是唯一的 Map 也叫哈希表 Hash tables 二两种类型 scala collection

scala spark

Spark Streaming实现WordCount

利用Spark Streaming实现WordCount 需求监听某个端口上的网络数据实时统计出现的不同单词个数 1 需要安装一个nc工具 sudo yum install y nc 2 执行指令 nc lk 9999 v import

spark

大数据课程K13——Spark的距离度量&&相似度度量

文章作者邮箱 yugongshiye sina cn 地址广东惠州本章节目的掌握Spark的距离度量和相似度度量掌握Spark的欧氏距离掌握Spark的曼哈顿距离掌握Spark的切比雪夫距离掌握Spark的最小二乘法一距离

大数据 spark 分布式

SparkStreaming与Kafka010之05之01 Consumer

package Kafka010 import Kafka010 Utils MyKafkaUtils import org apache kafka clients consumer ConsumerRecord import org a

kafka spark

PySpark环境配置

首先要知道PySpark是Spark为Python提供的API库因此使用 pip install pyspark 下载pyspark不等于下载了spark 因此配置pyspark环境首先需要下载spark 1 linux下载spar

大数据 spark 分布式

RoaringBitmap和Bitmap的区别与原理

背景此文只针对应用于实时数仓离线数仓领域的标签圈选问题以企业为例企业和标签之间一般是多对多的关系这种情况下对于计算不同标签下的企业数量或者查询不同企业对应的标签会有较大的性能压力因此使用Bitmap或者RoaringBitma

flink 大数据 spark

spark-sql运行脚本报错 tasks bigger than bigger than spark.driver.maxResult

spark sql执行脚本导出数据的脚本爆出如下异常 Caused by org apache spark SparkException Job aborted due to stage failure Total size of ser

spark

【Apache Spark 】第 11 章使用 Apache Spark 管理、部署和扩展机器学习管道

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore

Apache Spark 机器学习 spark 人工智能