Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
【毕业设计】基于Spark的海量新闻文本聚类(新闻分类)
文章目录 0 前言 1 项目介绍 2 实现流程 3 开发环境 4 java目录功能介绍 5 scala目录功能介绍 5 1 求TF IDF 5 2 调用K means模型 5 3 评价方式 6 聚类结果 7 最后 0 前言 Hi 大家好 这
大数据
毕业设计
spark
新闻分类
文本聚类
Java接入Spark之创建RDD的两种方式和操作RDD
首先看看思维导图 我的spark是1 6 1版本 jdk是1 7版本 spark是什么 Spark是基于内存计算的大数据并行计算框架 Spark基于内存计算 提高了在大数据环境下数据处理的实时性 同时保证了高容错性和高可伸缩性 允许用户将S
大数据与云计算
spark
大数据生态系统技术
请别再问我Spark的MLlib和ML库的区别
机器学习库 MLlib 指南 MLlib是Spark的机器学习 ML 库 其目标是使实际的机器学习可扩展和容易 在高层次上 它提供了如下工具 ML算法 通用学习算法 如分类 回归 聚类和协同过滤 特征提取 特征提取 转换 降维和选择 管道
spark
Spark Standalone和yarn区别
Spark Standalone模式提交任务 Cluster模式 spark submit master spark node01 7077 deploy mode cluster class org apache spark exampl
数据仓库
spark
Bigdata
big data
大数据技术——Scala语言基础
Scala语言概述 计算机的缘起 数学家阿隆佐 邱奇 Alonzo Church 设计了 入演算 这是一套用于研究函数定义 函数应用和递归的形式系统 入演算被视为最小的通用程序设计语言 入演算的通用性就体现在 任何一个可计算函数都能用这种形
大数据
spark
分布式
Powered by 金山文档
在idea中pom.xml添加sparkSQL依赖
在idea中 如果没有sparkSQL的依赖 需要现在pom xml 中添加依赖
spark
intellijidea
Java
IntelliJ idea
SparkSQL
Spark kryo Jar包冲突问题排查
错误日志 Exception in thread adaptive query stage 0 java lang NoSuchMethodError com esotericsoftware kryo Kryo setInstantiat
spark
嘴说手画Spark的存储系统
Spark本身并不存储数据 这里所说的存储系统是指计算过程中 管理内存中数据 如读到内存的源数据 缓存的RDD数据 广播数据 Shuffle文件数据的功能模块 如果没有存储管理系统 计算是无法完成的 存储系统的主要由以下组件构成 Block
hadoop实战
spark
big data
大数据
Spark大数据分析与实战笔记(第一章 Scala语言基础-1)
文章目录 章节概要 1 1 初识Scala 1 1 1 Scala的概述 1 1 2 Scala的下载安装 1 1 3 在IDEA开发工具中下载安装Scala插件 1 1 4 开发第一个Scala程序 章节概要 Spark是专为大规模数据处
Spark大数据分析与实战
spark
笔记
scala
基于大数据框架的协同过滤算法餐饮推荐系统【Update2023-6-25】
开始之前 设计思路 首先这位作者的推荐系统给了我很大的构思启发 Github地址 https github com share23 Food Recommender 他的系统采用实时大数据技术组件 具体有Spark Streaming HD
Hadoop生态
算法
Hadoop
spark
HDFS
scala.collection.map 和 scala.collection.mutable.map有什么区别
一 类型 1 Map 映射 是一种可迭代的键值对 key value 结构 2 所有的值都可以通过键 key 来获取 3 Map 中的键都是唯一的 Map 也叫哈希表 Hash tables 二 两种类型 scala collection
scala
spark
Spark Streaming实现WordCount
利用Spark Streaming实现WordCount 需求 监听某个端口上的网络数据 实时统计出现的不同单词个数 1 需要安装一个nc工具 sudo yum install y nc 2 执行指令 nc lk 9999 v import
spark
大数据课程K13——Spark的距离度量&&相似度度量
文章作者邮箱 yugongshiye sina cn 地址 广东惠州 本章节目的 掌握Spark的距离度量和相似度度量 掌握Spark的欧氏距离 掌握Spark的曼哈顿距离 掌握Spark的切比雪夫距离 掌握Spark的最小二乘法 一 距离
大数据
spark
分布式
SparkStreaming与Kafka010之05之01 Consumer
package Kafka010 import Kafka010 Utils MyKafkaUtils import org apache kafka clients consumer ConsumerRecord import org a
kafka
spark
PySpark环境配置
首先 要知道PySpark是Spark为Python提供的API库 因此使用 pip install pyspark 下载pyspark不等于下载了spark 因此 配置pyspark环境 首先需要下载spark 1 linux下载spar
大数据
spark
分布式
RoaringBitmap和Bitmap的区别与原理
背景 此文只针对应用于实时数仓 离线数仓领域的标签圈选问题 以企业为例 企业和标签之间一般是多对多的关系 这种情况下对于计算不同标签下的企业数量 或者查询不同企业对应的标签会有较大的性能压力 因此使用Bitmap或者RoaringBitma
flink
大数据
spark
spark-sql运行脚本报错 tasks bigger than bigger than spark.driver.maxResult
spark sql执行脚本 导出数据的脚本爆出如下异常 Caused by org apache spark SparkException Job aborted due to stage failure Total size of ser
spark
【Apache Spark 】第 11 章使用 Apache Spark 管理、部署和扩展机器学习管道
大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
Apache Spark
机器学习
spark
人工智能
«
1 ...
21
22
23
24
25
26
27
28
»