2019年安徽省大数据与人工智能应用赛总结---本科组

2023-11-07

前言

2019年安徽省大数据与人工智能决赛于10月13日在安徽省职业经济管理学院举办。现场赛共计90支队伍,经过4个小时的激烈追逐,我们组获得了22名的不错成绩,荣获省级二等奖 。严格意义上说,这是我第一次参加省级比赛,因为缺少比赛经验,所以过程异常艰辛,但是收获也很多。正式收到比赛通知是6月底,之前对大数据没有过了解,但是却十分感兴趣,所以想去尝试一下。于是跟随着老师去了合肥工业大学进行了两天的培训。跟我一同去的是学校的两个“大佬”,比赛经验丰富,相对他们而言,我有着明显的差距。 在培训阶段搭建hadoop环境阶段已经让我手忙脚乱,当时自己连简单的linux基础都不会, 但是正因为这次的培训激起了我浓厚的学习兴趣。于是,暑假一到来,我就投入到紧张的学习中,从liunx基础 到hadoop 再到hive 和hbase等,一点点进步,在这期间也开始了第一次csdn博客的撰写,第一次使用linux系统。暑假过后,我们就进入了初赛的选拔,初赛是网络赛,比赛时间6个小时,参赛队伍大概有220队左右,最终我们队有幸取得了33名的成绩成功晋级。下面就来介绍一下初赛的相关。

初赛

初赛的题目类型以及评分标准如下所示

  • 大数据平台部署 根据要求完成大数据平台的部署,并能够对部署环境的平台参数进行调试 初赛考察了hadoop和hive的搭建占比10%
  • 大数据预处理 给给定的数据进行预处理,使的数据准确,完整一致 。初赛这部分要求用mapreduce来处理 占比25%
  • 大数据分析 在已经搭建好的平台上进行数据的分析 占比20% 主要是运用hive进行分析
  • 大数据可视化 在给定的数据进行可视化展示,并能够对可视化结果进行解读说明 可以基于java,如echars 也可以是python出图。占比15%
  • 人工智能技术应用 主要是完成人工智能平台的部署 并能够对部署的平台参数进行调试 占比 10%。
  • 综合案例 主要运行spark进行数据处理
    因为暑假只有短短的一个半月,所以没有时间将考纲的内容全部考虑到,所以在综合案例的20分也就是spark进行处理时失分严重。

决赛

决赛的题目和初赛的题型几乎是一样的,唯一的区别就是预处理部分没有强制的让我们使用spark还是mapreduce。所以spark的学习还是很重要的,spark相对于mapreduce来说是一种更高效的计算框架。spark可以基于多种语言开发,如scala,python,java 甚至R语言。但比赛只提供了python java和scala相关jar包 ,所以在学习过程中选择三种之一就可以,个人推荐scala和python。下面说一下决赛的一些注意点

  • 比赛平台机器很卡,做好心里准备,有时候可能eclipse都能卡住半个小时之久,所以心态很重要,坚持下去你就胜利了一半。
  • 决赛是断网的,但是可以带纸质材料,所以在平时的学习过程中要学会做笔记,在现场时可以将自己的笔记打印带过去方便查找。
  • 分工 。比赛是提供5台虚拟机 三台是用于搭建环境,另外两台是用于解题。解题和搭建环境是同时在不同机器上进行的。所以团队之前一定要做好分工.

重点部分介绍

  • 环境的搭建
    搭建环境主要是Hadoop和hive,因为这都是基于linux系统,所以linux基础的命令必须要熟悉。推荐可以去看小牛学堂的视频,讲解的很详细。基础的考试应用的linux操作包括:sudo,长,mkdir,ls,ssh,scp,vi,rm -rf,cp,tar -zxvf,mv等。

  • 预处理部分
    预处理部分主要是应用mapreduce和spark进行数据的处理,包括数据的去重,排序,和分区分组,以及求最值等。mapreduce是基于java的一种计算框架,所以java基础一定要牢固。spark提供了很多算子,是一种“聪明”的计算框架,相比mapreduce而言,处理效率高出很多。

  • 数据分析阶段
    数据分析阶段主要运用的是hive进行数据分析,hive大部分知识点在hive-SQL。把sql数据库学好还是由必要的。掌握MySQL的基本命令行操作,SQL语句。熟练的使用Hive数据仓库和HQL。比赛时,我们那个赛场,用Python的队伍很多,实话说Python在大数据中的优势地位真的很大。数据挖掘,分析,处理,可视化都能用。后期我也会深入学习Python,这个当今很流行的语言。

学习进阶之路

  • 资料获取
    刚开始学习大数据时,仅仅看着同学分享给我的小牛学堂的视频。看完了视频后发现练习的实例很少,只能说熟悉基本了解了大数据相关阶段,但是对于比赛的强度和深度来说,这点知识是远远不够的。于是自己寻找了一些大数据相关视频和资料。找资料期间,访问了很多网站,比如:千锋大数据,尚学堂,传智播客,bibi,还有网易云课堂,厦门大学林子雨实验室等。经过一番的对比试听,找到了大数据各阶段相对来说比较不错的几个视频。hadoop阶段(包括linux部分)推荐小牛学堂的视频,讲解的很细致,很适合小白入门。同时这一阶段,尚学堂的视频可不错,尤其是尚学堂的几个mapreduce的讲解视频,很细致透彻。但是唯一的缺点就是每一集的视频时间过长,都是1个小时左右。hbase和hive阶段推荐传智播客的视频。spark阶段(scala)版推荐林子雨的视频,可以在bibi和网易云课堂上搜索到。看完视频,可能还不够,要想了解的更深入必须要花时间去多练习,并且研读书籍。这里可以去学校的图书馆借阅。

  • 学习优良习惯
    之前学习java的时候,在一个学期的时间里敲了很多代码,做了几个小项目。但是由于当时没有一个良好的学习习惯,导致后期复习的时候根本看不懂自己写的代码。吸取了教训,在这次大数据的学习过程中,我学会了分类整理,我把每一阶段的内容都分类做了笔记,并且把这部分笔记内容是出自那个视频的都写在了开头便于后期复习查看。把代码都重点加了注释,甚至包括代码类和包的名称都有了规范。最最重要的学习习惯就是养成了写csdn的好习惯,在学习过程中,可能会遇到一些问题,有的问题可能会困住你一天甚至几天的时间,当你解决了这些问题后,把它们记录并且分享是一件很有必要的事情。写博客的过程中不仅能加深印象方便自己以后查找,同时也能把自己的知识分享给别人。这是一种很奇妙的感觉,也从侧面促进了我的学习。

  • 比赛总结
    这次比赛因为平时一个不好的习惯,失去了很多分。说出来连自己都不相信,就是写spark程序的时候导scala相关程序包这个看似再简单不过的事情。平时练习的时候太过依赖spark-shell,当时觉得用eclipse写spark,又要安装scala插件,又要导包很麻烦,于是一直依赖spark-shell,自认为比赛的时候肯定能启动spark–shell,可是。。。。。结果大家都预料到了,比赛时候scala的相关包不会在eclipse部署,导致在综合案例和数据处理相关可以用spark的部分丢了很多本该能拿到的分,自己平时进行了大量的spark练习,但没想到连“门”都没进去,以至于和省一擦肩而过。所以说,细节决定成败,在平时的练习中,一定要不放过任何一个细节,否则当他影响到你的时候,你的后悔是无法挽回局面的。强烈建议大家熟练掌握maven和手动导入相关依赖包。(这里主要针对mapreduce和spark)!!!下面分享2018年的大数据竞赛试题和1019年网络赛试题供大家学习!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

2019年安徽省大数据与人工智能应用赛总结---本科组 的相关文章

  • 前端音波绘制

    好久不曾写博客了 忙忙碌碌大半年 毕业就工作果然还是有点意思 本人贼懒 但是只要是研究了点东西的话 还是分享一下供其他感兴趣的小伙伴前车之鉴吧 回归正题 用过手机百度音乐的朋友们 这里算打个广告吧 估计会注意音乐播放后左下角那个音波绘制的看
  • 基于yolov3源码的训练过程

    基于yolov3源码的训练过程 在yolo官网上使用一下指令可以对模型的数据集进行训练 darknet detector train cfg voc data cfg yolov3 voc cfg darknet53 conv 74 但是训
  • fatfs移植和使用(在SPI_FLASH上建立文件系统)

    文件系统对于嵌入式系统的重要性是不言而喻的 有了文件系统管理数据和外设变得方便许多 同时简化了应用的开发 今天我们来以在SPI FLASH上建立文件系统为例 看看FATFS文件系统怎么移植和使用 需要准备的材料有 1 FATFS文件系统源码
  • VC项目中文件类型说明

    APS 存放二进制资源的中间文件 VC把当前资源文件转换成二进制格式 并存放在APS文件中 以加快资源装载速度 资源辅助文件 BMP 位图资源文件 BSC 浏览信息文件 由浏览信息维护工具 BSCMAKE 从原始浏览信息文件 SBR 中生成
  • Elasticsearch与Clickhouse数据存储对比

    1 背景 京喜达技术部在社区团购场景下采用JDQ Flink Elasticsearch架构来打造实时数据报表 随着业务的发展Elasticsearch开始暴露出一些弊端 不适合大批量的数据查询 高频次分页导出导致宕机 存储成本较高 Ela
  • 从键盘输入一个字符,若为小写,则改为大写再输出

    include
  • React学习笔记

    一 基础 1 概念 React是用于构建用户界面的JavaScript库 只关注视 2 特点 声明式编程 React 使创建交互式 UI 当数据变动时 React 能高效更新并渲染合适的组件 组件化 构建管理自身状态的封装组件 然后对其组合
  • 华为技术支持面试

    一面 技术面 不同面试官 面试内容差别较大 班里有些同学随便聊4 5分钟就通过了 我 大概面了15分钟 首先是三分钟的中文自我介绍 然后针对简历提问 被问到毕业课题 而且问得比较详细 叫我画出整个方案的框架图 I2C LCD的时序图 项目工
  • Linux驱动

    HC SR04超声波模块 工作原理参考 超声波模块 star air的博客 CSDN博客 超声波模块 https blog csdn net qq 41262681 article details 95940707 使用超声波测距的操作步骤
  • java获取post数据_java通过HttpServletRequest获取post请求中的body内容的方法

    在java web应用中 我们如何获取post请求body中的内容 以及需要注意的问题 通常利用request获取参数可以直接通过req getParameter name 的方式获取url上面或者ajax data提交上来的参数 但是bo
  • centos7.9 安装使用kafka

    安装kafka之前需要安装java8 以上版本 yum install java 1 8 0 openjdk x86 64 yum install java 1 8 0 openjdk devel x86 64 安装kafka 软件下载地址
  • 64GU盘装机后变成32G,且电脑无法识别问题解决

    问题描述 借助64G的闪迪U盘给电脑装了系统后 直接拔出后 忘记点弹出了 然后这个电脑的此电脑中就找不到这个U盘 别的电脑可以 但是在电脑右下角可以看到 64G变成32G这个问题网上解决办法很多 我是下载了DiskGenius然后格式化就好
  • scribe日志收集

    https www xiaomastack com 2014 11 11 scribe nginx php 日志管理 4 用scribe收集nginx和php日志 By 小马 十一月 11 2014 Scribe 日志管理 Leave a
  • win7 和 linux双系统安装教程,win7和centos7双系统完美安装攻略

    笔记本 台式机配置都太差了 装Vbox VM Hyper v都不能顺畅运行 太卡 于是想到开启台式机Wind7 CentOS7双系统运行模式 几经周折整理出以下安装过程 准备工作 准备辅助工具 所用工具包整理好 https pan baid
  • Centos安装python3导入ssl时解决 ModuleNotFoundError: No module named ‘_ssl‘问题

    当装好python3导入ssl模块时报以下错误 ModuleNotFoundError No module named ssl import ssl if we can t import it let the error propagate
  • 【标准解读】Autosar 复杂驱动(CDD)开发--看这一篇就够了

    系列文章目录 提示 写完文章后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 系列文章目录 前言 一 Introduction to CDD 二 CDD设计建议 CDD开发需要注意的事项 2 1 文档 2 2行为和接口描述 2
  • Netty线程模型

    说明 1 Netty抽象出两组线程池 BossGroup专门负责接收客户端的链接 WorkerGroup专门负责网络的读写 2 BossGroup和WorkerGroup类型都是NioEventLooGroup 3 NioEventLoog
  • (转)非常好的WebApi入门文章

    如何在VS中创建基于 NET的后端应用程序 该应用程序使用C 语言从Web API中提取 让我们开始吧 为服务器后端逻辑选择语言的问题是几乎每个开发人员最重要的问题之一 特别是对于初学者 目前已经有很多不同的语言 Java NET C VD

随机推荐

  • 嵌入式数据结构(栈)

    嵌入式自学笔记 1 2 后进先出 3 栈的应用 从A出发进是入栈 红色的出是出栈 4 创建栈的思路 zhan zhancreat int len zhan s if s zhan malloc sizeof zhan NULL printf
  • css选择class中的第一个怎么选?使用first-of-type?

    Dom结构 div span class hha 我是span span h1 class hha 我是h1 h1 h1 我是h1 h1 h1 class hha 我是h1 h1 h1 class hha 我是h1 h1 h1 我是h1 h
  • 如何限制同一客户端登录的用户数量以及禁止同一用户同时在不同客户端登录?

    在web应用系统中 出于安全性考虑 经常需要对同一客户端登录的用户数量和一个客户同时在多个客户端登陆进行限制 具体一点就是 1 在同一台电脑上一次只允许有一个用户登录系统 2 一个用户在同一时间只允许在一个客户端登录 我最近做的一个系统就遇
  • Linux基本命令(二) 文件处理命令

    文件处理命令 touch 命令名称 touch 命令所在路径 bin touch 执行权限 所有用户 语法 touch 文件名 功能描述 创建空文件 范例 touch chen list 文件处理命令 cat 命令名称 cat 命令所在路径
  • UE4 中C++读取Json文件

    本篇文章介绍C 读取Json文件前我们先了解下Json格式 Json格式不同读取会有所区别 踩了一波坑 Json文件有三种格式 这三种格式都是正确的 这边提供一个很有用的Json文件在线编辑平台的网址 在线编辑Json网站 Json文件的三
  • STM32----中断优先级设置

    步骤一 设置中断分组 STM32中断规则 中断优先级分为抢占式优先级和子优先级 对于每一个中断需事先设置其抢占式优先级和子优先级 抢占式优先级级别高的中断可以打断抢占式优先级级别地的中断 抢占式优先级级别相同时 互相均不能打断对方中断执行
  • 计算机专业考研复试上机算法学习

    计算机专业考研复试上机算法学习 这篇博客是博主在准备可能到来的线下上机复试基于王道机试指南的学习 将各道习题链接和代码记录下来 这篇博客权且当个记录 文章目录 计算机专业考研复试上机算法学习 1 STL容器学习 1 1 vector动态数组
  • 网络爬虫之css选择器

    文章目录 通过id class选择元素 元素内部筛选 通过属性值筛选 取值 参考 通过id class选择元素 container 选择id为container的元素 container 选择所有class包含container的元素 di
  • 你不知道的JavaScript-----强制类型转换

    目录 值类型转换 抽象值的操作 JSON 字符串化 ToNumber 非数字值到数字值 Number value ToBoolean 转换为布尔类型 Boolean value 强制类型转换 字符串和数字之间的显式强制类型转换 奇特的 运算
  • Eclipse/MyEclipse闪退之后打不开工作空间的问题解决

    Eclipse MyEclipse闪退之后打不开工作空间的问题解决 在开发过程中偶尔会出现Eclipse MyEclipse闪退之后再启动时打不开工作空间的情况 可以这样解决 1 找到工作空间的目录 例如 E workspace 2 再进入
  • code review

    方法有多种 目前最被认可或运用的方法莫过于CodeReview活动了 那么 CodeReview到底能给团队带来什么 什么样的团队需要进行CodeReview活动 如何有效开展CodeReview活动 用哪种方式会比较好呢 笔者为了接地气地
  • 工业物联网的巨控GRM530无线模块与西门子PLC通信,远程上下载程序

    西门子逆天技术出来了 西门子smart200PLC的数据无线远程传输到上位机 手机APP 概述 随着移动互联网的普及 越来越多的用户希望通过智能手机APP监控工业现场PLC的各种状态 报警等数据 通过手机APP来实现减少人力的投入 还可以实
  • vue中属性key的作用(了解diff),为什么不建议index作为key

    1 官方文档有关key的说明 key 的特殊 attribute 主要用在 Vue 的虚拟 DOM 算法 在新旧 nodes 对比时辨识 VNodes 如果不使用 key Vue 会使用一种最大限度减少动态元素并且尽可能的尝试就地修改 复用
  • 一篇搞定,Kettle详细教程

    文章目录 第一章 Kettle概述 1 1 Kettle发展历程 1 2 Kettle简介 1 3 Kettle相关俗语 1 4 Kettle设计与组成 1 5 Kettle功能模块 1 6 Kettle的执行 Transformation
  • OPT3001光强传感器驱动实现(STM32F407)

    上面是我的微信和QQ群 欢迎新朋友的加入 写了个光强传感器的代码 产品特点 精密光学滤波以匹配人眼 拒绝IR gt 99 典型值 自动满量程设定功能简化了软件 并确保正确的配置 0 01勒克斯至83K勒克斯 23位有效动态范围 自动增益范围
  • 批量汇总nmon结果文件Excel数据

    1 原由 在使用nmon监控服务器资源以后 因为服务器较多 生成了几十个结果文件 现在需要统计每个文件中cpu 内存 disk等平均值 最大值信息 太多表了 就写了个Python脚本 以后可能用的上 先记录一下 nmon生成的Excel中
  • Xml外部实体注入漏洞(XXE)与防护

    Xml外部实体注入 XXE 除了json外 xml也是一种常用的数据传输格式 对xml的解析有以下几种常用的方式 DOM SAX JDOM DOM4J StAX等 然而这几种解析方式都可能会出现外部实体注入漏洞 如微信支付的回调就出现过 见
  • 电脑启机时出\windows\system32\drivers\bootsafe64.sys什么

    开机时出现如下故障解决办法 用老毛桃制作PE启动盘 把C WINDOWS system32 drivers下bootsafe64 sys删除还有一个kavbootc sys删除 重启即可 此问题就出在金山的产品给系统加入的这个文件 它不知出
  • 注释转换(C的多行注释 转换为C++的单行注释)

    目录 题目描述 AnnotationConvert h 状态划分 AnnotationConvert c 处理每个字符 main c 测试代码 Makefile 编译 test in 待测试数据 test out 输出 题目描述 把C的多行
  • 2019年安徽省大数据与人工智能应用赛总结---本科组

    前言 2019年安徽省大数据与人工智能决赛于10月13日在安徽省职业经济管理学院举办 现场赛共计90支队伍 经过4个小时的激烈追逐 我们组获得了22名的不错成绩 荣获省级二等奖 严格意义上说 这是我第一次参加省级比赛 因为缺少比赛经验 所以