Pandas第三次作业20200907

2023-05-16

练习1

• 读取北向.csv 指定trade_date为行索引
• 查看数据的基本信息 有无缺失值 对其缺失值进行处理
• 删除缺失值所在行
• 查看数据的基本信息 查看数据是否清洗完毕
• index列没啥用 将index列删除
• 观察数据是否有重复行
• 将重复行进行删除
• 将行索引 进行升序
• 将处理好的数据 保存至 北向(副).csv

#!/user/bin/env python
#-*-coding: utf-8-*-
#@Time           : 2020/9/719:53
#@Author         : GodSpeed
#@File           : Pandas作业03_20200907.py
#@Software       : PyCharm
'''
作业03
练习1
• 读取北向.csv   指定trade_date为 行索引
• 查看数据的基本信息 有无缺失值 对其缺失值进行处理
• 删除缺失值所在行
• 查看数据的基本信息 查看数据是否清洗完毕
• index列没啥用 将index列删除
• 观察数据是否有重复行
• 将重复行进行删除
• 将行索引 进行升序
• 将处理好的数据 保存至 北向(副).csv
'''

import pandas as pd
import numpy as np

#1.1 读取 北向.csv   指定trade_date为行索引
northward_data  = pd.read_csv("北向.csv",index_col=1)

#print(northward_data.head())
'''
            index   ggt_ss  ggt_sz      hgt      sgt  north_money  south_money
trade_date                                                                    
20190624        0  -541.17  792.38  -757.96 -1153.14     -1911.10       251.21
20190621        1   -97.40  701.36  3722.36  3608.14      7330.50       603.96
20190620        2   660.05  555.23  1914.44  3650.47      5564.91      1215.28
20190619        3  -491.58  186.47  2092.51  2831.23      4923.74      -305.11
20190618        4  1667.40  832.29   974.92   617.24      1592.16      2499.69
'''

#1.2.1 查看数据的基本信息
#print(northward_data.info())
'''
<class 'pandas.core.frame.DataFrame'>
Int64Index: 884 entries, 20190624 to 20190605
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   index        884 non-null    int64  
 1   ggt_ss       850 non-null    float64
 2   ggt_sz       850 non-null    float64
 3   hgt          870 non-null    float64
 4   sgt          870 non-null    float64
 5   north_money  884 non-null    float64
 6   south_money  884 non-null    float64
dtypes: float64(6), int64(1)
memory usage: 55.2 KB
None
'''

#1.2.2 有无缺失值
#判断缺失值做在的行

print(northward_data.isnull().sum()) #isnull.sum()返回每一列缺失值统计个数
'''
trade_date      0
ggt_ss         34
ggt_sz         34
hgt            14
sgt            14
north_money     0
south_money     0
dtype: int64
'''

#isnull().any() #是对列表对象迭代对象(True or False)进行一个再统计,
# 如果某一列有一个True则这一列的结果返回True
print(northward_data.isnull().any())
'''
trade_date     False
ggt_ss          True
ggt_sz          True
hgt             True
sgt             True
north_money    False
south_money    False
dtype: bool
'''
#print(northward_data.isnull().values)
'''
[[False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]
 ...
 [False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]]
'''


'''
any()一个序列中满足一个True,则返回True;
all()一个序列中所有值为True时,返回True,否则为False。

'''

# 判断数据是否存在nan
if northward_data.isnull().values.any():
    print('存在nan数据')
    #打印nan所在的行
    #print(northward_data[northward_data.isnull().values == True])
else:
    print('不存在nan数据')


'''
            index   ggt_ss   ggt_sz      hgt     sgt  north_money  south_money
trade_date                                                                    
20190510       29  1763.55  1294.88      NaN     NaN         0.00      3058.43
20190510       29  1763.55  1294.88      NaN     NaN         0.00      3058.43
20190430       34      NaN      NaN  -463.88  -83.01      -546.89         0.00
20190430       34      NaN      NaN  -463.88  -83.01      -546.89         0.00
20190429       35      NaN      NaN  3819.12  713.61      4532.73         0.00
...           ...      ...      ...      ...     ...          ...          ...
20190912      230      NaN      NaN  2488.84  806.64      3295.48         0.00
20190911      231      NaN      NaN  1804.94  627.08      2432.02         0.00
20190911      231      NaN      NaN  1804.94  627.08      2432.02         0.00
20190628      283  1411.88   218.06      NaN     NaN         0.00      1629.94
20190628      283  1411.88   218.06      NaN     NaN         0.00      1629.94

[96 rows x 7 columns]

'''



# 1.3 删除缺失值所在行
northward_data.dropna(axis=0,inplace=True)


# 1.4 查看数据的基本信息 查看数据是否清洗完毕
print(northward_data.info())
'''
<class 'pandas.core.frame.DataFrame'>
Int64Index: 836 entries, 20190624 to 20190605
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   index        836 non-null    int64  
 1   ggt_ss       836 non-null    float64
 2   ggt_sz       836 non-null    float64
 3   hgt          836 non-null    float64
 4   sgt          836 non-null    float64
 5   north_money  836 non-null    float64
 6   south_money  836 non-null    float64
dtypes: float64(6), int64(1)
memory usage: 52.2 KB
None
处理后不存在nan数据

Process finished with exit code 0

'''
if northward_data.isnull().values.any():
    print('处理后,仍然存在nan数据')
else:
    print('处理后不存在nan数据')

#1.5 index列没啥用 将index列删除

#del northward_data['index']
northward_data.drop(['index'],axis=1,inplace=True)
#print(northward_data)

#1.6 观察数据是否有重复行

if northward_data.duplicated().values.any():
    print('存在重复行')
    #print(northward_data[northward_data.duplicated().values == True])
else:
    print('不存在重复行')

#1.7 将重复行进行删除
northward_data = northward_data.drop_duplicates()
print(northward_data)

if northward_data.duplicated().values.any():
    print('处理后,仍然存在重复行')
    #print(northward_data[northward_data.duplicated().values == True])
else:
    print('处理后,不存在重复行') #处理后,不存在重复行

#1.8 将行索引 进行升序
northward_data = northward_data.sort_index(ascending=False)   # 默认为0轴 并且默认为升序
print(northward_data)
'''
[822 rows x 6 columns]
处理后,不存在重复行
             ggt_ss   ggt_sz      hgt      sgt  north_money  south_money
trade_date                                                              
20200904    1977.81  2827.44 -3106.19 -3211.42     -6317.61      4805.25
20200903      80.46  1470.66   917.30 -1921.12     -1003.82      1551.12
20200902    1113.10  2915.24 -6007.57  -606.69     -6614.26      4028.34
20200901     617.59  2336.67 -1805.03  1505.10      -299.93      2954.26
20200831    2231.93  2660.40 -3414.43 -4611.59     -8026.02      4892.33
...             ...      ...      ...      ...          ...          ...
20170109    1175.00   337.00  -846.78   886.18        39.40      1512.00
20170106     385.00   207.00 -2103.00   644.00     -1459.00       592.00
20170105     686.00   291.00  -912.34   633.50      -278.84       977.00
20170104     593.00   258.00 -1348.85   629.70      -719.15       851.00
20170103     994.00   277.00  -582.47   615.49        33.02      1271.00

[822 rows x 6 columns]


'''
#1.9 将处理好的数据 保存至 北向(副).csv
northward_data.to_csv('北向(副).csv')


练习2

读取 FoodFacts.csv 数据,该数据是全球食品数据,需分析每个国家添加剂的平均使用。
步骤分析
• 1.读取数据
• 2.数据质量考量
• 3.清洗数据
• 4.对各个国家的使用数量进行统计
•4.1.清洗,统计国家数据
• 4.2 .通过国家统计添加剂用量
• 5.保存统计结果

#!/user/bin/env python
#-*-coding: utf-8-*-
#@Time           : 2020/9/813:40
#@Author         : GodSpeed
#@File           : Pandas第三次作业修正版本.py
#@Software       : PyCharm

import pandas as pd
import numpy as np


'''
练习2
读取 FoodFacts.csv 数据,该数据是全球食品数据,需分析每个国家添加剂的平均使用。
步骤分析
• 1.读取数据
• 2.数据质量考量
• 3.清洗数据
• 4.对各个国家的使用数量进行统计
• 1.清洗,统计国家数据
• 2.通过国家统计添加剂用量
• 5.保存统计结果

'''

# 1 读取数据
#food_facts_data = pd.read_csv('FoodFacts.csv')

# sys:1: DtypeWarning: Columns (0,3,5,27,36) have mixed types.
# Specify dtype option on import or set low_memory=False.
'''
系统:1:DtypeWarning:列(0,3,5,27,36)已混合类型。指定导入时的dtype选项或将低内存设置为False。
'''


#要把这个 low_memory 关掉
#food_facts_data = pd.read_csv('FoodFacts.csv',low_memory=False)
#print(food_facts_data.head())

'''
                 code  ... nutrition_score_uk_100g
0  000000000000012866  ...                     NaN
1       0000000024600  ...                     NaN
2       0000000036252  ...                     NaN
3       0000000039259  ...                     NaN
4       0000000039529  ...                     NaN
'''
#print(food_facts_data.columns.values)
'''
['code' 'url' 'creator' 'created_t' 'created_datetime' 'last_modified_t'
 'last_modified_datetime' 'product_name' 'generic_name' 'quantity'
 'packaging' 'packaging_tags' 'brands' 'brands_tags' 'categories'
 'categories_tags' 'categories_en' 'origins' 'origins_tags'
 'manufacturing_places' 'manufacturing_places_tags' 'labels' 'labels_tags'
 ......
 'cocoa_100g' 'chlorophyl_100g' 'carbon_footprint_100g'
 'nutrition_score_fr_100g' 'nutrition_score_uk_100g']
'''
#print(food_facts_data.shape) #(65503, 159)

#删除NaN数据
def del_NaN(pandas_data):
    '''
    :param pandas_data: 源数据
    :return: 返回删除NaN后的数据
    '''

    #判断数据中是否存在NaN数据
    if pandas_data.isnull().values.any():
        print('pandas_data存在nan数据,马上进行处理')
        # 打印nan所在的行
        #pandas_data.isnull().any()  # 显示缺失值所在的列
        # print(pandas_data.isnull().values)
    else:
        print('pandas_data不存在nan数据')
        return pandas_data
    #删除Nan数据
    return pandas_data.dropna()

# 清洗数据
def clean_countries_en_data(pandas_data):
    '''

    :param pandas_data: 源数据
    :return: 返回处理后的数据
    '''
    # 步骤1: 去除所有countries_en包括逗号的异常数据
    # 方法1:用正则表达式  ^(?!.*字符串) 来过滤
    #without_commas_data = pandas_data[pandas_data['countries_en'].str.contains(r"^(?!.*,)")]
    #print(without_commas_data)

    # 方法2: 用布尔索引  ~ 非符号
    without_commas_data = pandas_data[~pandas_data['countries_en'].str.contains(r",")]
    print('去逗号',without_commas_data)
    '''
     去逗号          countries_en  additives_n
        5      United Kingdom          0.0
        6              France          0.0
        8              France          0.0
        10     United Kingdom          5.0
        11     United Kingdom          5.0
        ...               ...          ...
        65480   United States          4.0
        65490          France          0.0
        65494          France          0.0
        65499          France          0.0
        65501          France          0.0
        
        [42319 rows x 2 columns]

    '''
    # 步骤2: 国家数据统一变为小写

    # 方法1: df.str.lower()
    #without_commas_data['countries_en'] = without_commas_data['countries_en'].str.lower().copy()
    #Try using .loc[row_indexer,col_indexer] = value instead
    #without_commas_data['countries_en'] = countries_en_data.str.lower()
    # 关闭SettingWithCopyWarning:

    # 方法2:利用函数映射
    without_commas_data["countries_en"]= without_commas_data["countries_en"].map(lambda x:x.lower())
    print('大小写转换without_commas_data=',without_commas_data)
    '''
    大小写转换without_commas_data=          countries_en  additives_n
                                5      united kingdom          0.0
                                6              france          0.0
                                8              france          0.0
                                10     united kingdom          5.0
                                11     united kingdom          5.0
                                ...               ...          ...
                                65480   united states          4.0
                                65490          france          0.0
                                65494          france          0.0
                                65499          france          0.0
                                65501          france          0.0
                                
                                [42319 rows x 2 columns]
    '''

    return without_commas_data


#针对研究对象,从诸多列中,提取感兴趣的列信息,提供读取效率
#本需求中获取三列信息
if __name__ == '__main__':
    # 关闭SettingWithCopyWarning:
    pd.set_option('mode.chained_assignment', None)

    food_brief_data = pd.read_csv('FoodFacts.csv', usecols=["countries_en","additives_n"])
    print('food_brief_data111',food_brief_data)
    '''
              countries_en  additives_n
    0           France          NaN
    1           France          NaN
    2           France          NaN
    3           France          NaN
    4           France          NaN
    ...            ...          ...
    65498       Poland          NaN
    65499       France          0.0
    65500       France          NaN
    65501       France          0.0
    65502        China          NaN
    
    [65503 rows x 2 columns]
    '''
    food_brief_data = del_NaN(food_brief_data)

    print('food_brief_data222',food_brief_data)
    '''
    food_brief_data222          countries_en  additives_n
            5      United Kingdom          0.0
            6              France          0.0
            8              France          0.0
            10     United Kingdom          5.0
            11     United Kingdom          5.0
            ...               ...          ...
            65480   United States          4.0
            65490          France          0.0
            65494          France          0.0
            65499          France          0.0
            65501          France          0.0
            
            [43616 rows x 2 columns]
    
    [43616 rows x 3 columns]
    
    Process finished with exit code 0
    
    '''

    # 数据清洗
    food_brief_data = clean_countries_en_data(food_brief_data)
    print('food_brief_data222',food_brief_data)
    '''
        food_brief_data222          countries_en  additives_n
    5      united kingdom          0.0
    6              france          0.0
    10     united kingdom          5.0
    13             france          2.0
    15              spain          0.0
    ...               ...          ...
    65304     new zealand          6.0
    65326     new zealand          8.0
    65341     new zealand          7.0
    65403    burkina faso          2.0
    65405    burkina faso          1.0
    
    [411 rows x 2 columns]

    '''

    # 分析每个国家添加剂的平均使用
    last_DataFrame = food_brief_data.groupby(['countries_en']).mean()
    print(type(last_DataFrame)) #<class 'pandas.core.frame.DataFrame'>
    # 更换last_DataFrame列索引的additives_n为additives_mean
    last_DataFrame.rename(columns={'additives_n':'additives_mean'}, inplace = True)
    print('last_DataFrame=', last_DataFrame)

    last_DataFrame = last_DataFrame.sort_values(by='additives_mean',ascending=False)
    '''
        <class 'pandas.core.frame.DataFrame'>
    last_DataFrame=                       additives_mean
    countries_en                        
    albania                     0.000000
    algeria                     3.500000
    andorra                     0.000000
    argentina                   2.222222
    australia                   0.489871
    ...                              ...
    turkey                      0.300000
    united arab emirates        1.000000
    united kingdom              1.243810
    united states               2.162905
    venezuela                   0.000000
    
    [84 rows x 1 columns]
    '''
    # 保存文件
    last_DataFrame.to_csv('按国家统计添加剂使用情况.csv', encoding='utf_8_sig')


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas第三次作业20200907 的相关文章

  • Flink开发中遇到的问题及解法

    1 当Source是Kafka的时候 xff0c 如何设置Source Operator的并发度 xff1f 如果没有指定 xff0c Source Operator的个数与集群中的TaskManager的个数相等 如果手动设置 xff0c
  • vue初学者代码格式报错

    报错内容 xff1a Do not use built in or reserved HTML elements as component id header
  • Ubuntu 设置su密码

    在使用su命令获取超级权限的时候提示输入密码 xff0c 在安装ubuntu的时候只设置了用户密码 xff0c 没记得有其他密码 这里需要给root用户重新设置密码 xff1a sudo passwd 然后输入密码即可
  • Spark MLlib学习(二)——分类和回归

    MLlib支持多种分类方法 xff0c 如二分类 多分类和回归分析等 问题类型 支持的方法 二分类 线性SVM 逻辑回归 xff0c 决策树 xff0c 随机森林 xff0c GBDT xff0c 朴素贝叶斯 多分类 决策树 xff0c 随
  • 关于onNewIntent你应该知道的

    一 API描述如下 大概意思是当Activity被设以singleTop模式启动 xff0c 当需要再次响应此Activity启动需求时 xff0c 会复用栈顶的已有Activity xff0c 还会调用onNewIntent方法 并且 x
  • 程序猿的情话

    世界上最遥远的距离 xff0c 是我在if里你在else里 xff0c 似乎一直相伴又永远分离 xff1b 世界上最痴心的等待 xff0c 是我当case你是switch xff0c 或许永远都选不上自己 xff1b 世界上最真情的相依 x
  • SpringBoot JPA实践之EntityManage查询返回自定义DTO

    在很多时候我更喜欢随意组合查询出来返回一个DTO对象的实现 xff0c JPA提供的多数查询均以返回Entity居多 xff0c 它提供的EntityManager对象可以实现将SQL语句查询的结果转换为自定义DTO对象 xff08 这与
  • 经典编程书籍(C++, 网络, Windows, Linux)【转载】

    书单中列举的都是相关领域的经典书籍 xff0c 必读之作 此书单的编辑参考了很多网站 xff0c 包括一些名家的推荐 xff0c 例如侯捷 xff0c 孟岩 xff0c 荣耀 xff0c 潘爱民等等 xff0c 在此也向这些前辈表示感谢 1
  • SpringBoot微服务框架概述

    SpringBoot微服务框架 2 Spring Boot 微服务框架的特点3 Spring Boot 应用场景4 SpringBoot的第一个应用5 Springboot引导类的main方法有什么作用 xff1f 6 SpringBoot
  • 使用Spring的注解方式实现AOP

    Spring对AOP的实现提供了很好的支持 下面我们就使用Spring的注解来完成AOP做一个例子 首先 xff0c 为了使用Spring的AOP注解功能 xff0c 必须导入如下几个包 aspectjrt jar aspectjweave
  • 如何正确有效的学习一门计算机语言?

    在这个互联网高速发展的社会 xff0c 越来越多的人喜欢上了IT行业 xff0c 认为计算机行业是一个高科技的 高薪的行业 的确如此 xff0c 但是系统的学习一门计算机语言 xff0c 并且把它用运用到真正的开发中去还真不是一件简单的事情
  • (二)为AI和机器学习创建Docker容器

    目录 介绍 基本镜像 创建Dockerfile 构建镜像 运行容器 总结 下载源文件 154 4 KB 介绍 Docker 等容器技术显着简化了软件的依赖管理和可移植性 在本系列文章中 xff0c 我们探讨了 Docker 在机器学习 ML
  • 自定义EF Core迁移历史记录表

    目录 背景 更改表名称和架构 更改列名称 添加具有默认值的列 添加必填列 关于代码示例 引用 下载源代码 13 9 KB 背景 实体框架核心通过在名为 EFMigrationsHistory 和架构 dbo 的表中添加日志来跟踪应用的迁移
  • 使用EF Core 6执行原始SQL查询

    目录 背景 现有选项 ExecuteSqlRaw 插入 更新 删除 FromSqlRaw FromSqlInterpolated 自定义数据库上下文扩展方法 ExecuteScalar ExecuteNonQuery FromSqlQuer
  • 仓库更新了,git pull拉取远端失败

    仓库更新了 span class token punctuation span git pull拉取远端失败 span class token operator span error span class token operator sp
  • xPath 用法总结整理

    最近在研究kafka xff0c 看了一堆理论的东西 xff0c 想动手实践一些东西 xff0c 奈何手上的数据比较少 xff0c 突发奇想就打算写个爬虫去抓一些数据来玩 xff0c 顺便把深入一下爬虫技术 之前写过一些小爬虫 xff0c
  • vi编辑器

    目录 简介 基本操作 1 移动光标 2 定位 3 删除 4 复制 5 查找
  • 使用libevent搭建简单http服务器

    64 使用libevent搭建简单http服务器 一 libevent 的下载 可通过官网直接进行下载libevent库 xff1b 例子使用的是V2 1 1版本 xff0c 下载完成后 xff0c 解压 xff1b 可以再解压目录下获取
  • C++动态链接库中的全局变量面试题

    其实主要问题是三个模块 xff1a 模块 a 静态库 a 模块 b 二进制 b 静态引用a 动态加载c 模块 c 动态链接库c 静态引用a 关键在于静态库a里有一个静态全局变量 xff0c 没错就是我们的日志模块 原先的这个静态的模块中的静
  • Linux 桌面修改文件mime类型图标

    在多数的Linux发行版中 xff0c 默认的桌面的文件类型图标着实不好看 xff0c 比如我常用的Linux之一Debian xff0c 默认文件类型图标就很不好看 如果我们自定义了一种mime类型的话肯定也是没有图标的啦 xff0c 下

随机推荐

  • 比 MyBatis 快了 100 倍

    比 MyBatis 效率快 100 倍的条件检索引擎 xff0c 天生支持联表 xff0c 使一行代码实现复杂列表检索成为可能 xff01 2开源协议 使用Apache 2 0开源协议 3界面展示 你的产品给你画了以上一张图 xff0c 还
  • 【GIT】GIT基础教程(新手必看)

    准备工作 1 首先要下载git xff0c git官网下载比较缓慢 xff0c 这里提供一个淘宝镜像的网站 https npm taobao org mirrors git for windows 里边有各种版本的git xff0c 选择与
  • Python常见内置类属性介绍

    文章目录 64 TOC 文章目录 什么是内置类属性一 dict 的用法二 name 的用法三 file 的用法 什么是内置类属性 当python创建一个类之后 xff0c 系统就自带了一些属性 xff0c 叫内置类属性 这些属性名用双下划线
  • win32应用程序和win32控制台应用程序

    win32应用程序是有窗体的 xff08 当然也可以没有 xff09 xff0c 有Windows消息循环机制的 而win32控制台应用程序只是在控制台下运行的程序 xff0c 类似以前dos的程序 Win32 Application和Wi
  • springBoot 启动指定配置文件环境多种方案

    springBoot 启动指定配置文件环境理论上是有多种方案的 xff0c 一般都是结合我们的实际业务选择不同的方案 xff0c 比如 xff0c 有pom xml文件指定 maven命令行指定 配置文件指定 启动jar包时指定等方案 xf
  • tigervnc黑屏及mate-session缺失

    1 项目信息 host os xff1a Kylin Server V10 arm64 2022 04 29 2 问题描述及原因分析 通过一下命令安装vnc server yum install tigervnc server 然后通过vn
  • (Java)集合工具类:Collections

    文章目录 一 Collections 简介二 Collections 操作实例1 实例操作一 xff1a 返回不可变的集合2 实例操作二 xff1a 为集合增加内容3 实例操作三 xff1a 反转集合中的内容4 实例操作四 xff1a 检索
  • Seata快速开始

    Seata分TC TM和RM三个角色 xff0c TC xff08 Server端 xff09 为单独服务端部署 xff0c TM和RM xff08 Client端 xff09 由业务系统集成 Seata Server 部署 步骤一 xff
  • 点击Anaconda中的Jupyter Notebook无法打开浏览器

    解决方法一 xff1a 通过修改配置文件来指定浏览器打开notebook 步骤 xff1a 打开anaconda promote 输入 xff1a jupyter notebook generate config 输出结果 xff1a Wr
  • 深度学习——入门经典案例《波士顿房价预测》深度解析

    一 深度学习 机器学习算法理论在上个世纪90年代发展成熟 xff0c 在许多领域都取得了成功应用 但平静的日子只延续到2010年左右 xff0c 随着大数据的涌现和计算机算力提升 xff0c 深度学习模型异军突起 xff0c 极大改变了机器
  • freemarker实现word文档模板动态生成

    携手创作 xff0c 共同成长 xff01 这是我参与 掘金日新计划 8 月更文挑战 的第29天 xff0c 点击查看活动详情 1 写在前面 很多时候 xff0c 我们可能需要根据一个word模板 xff0c 动态生成 xff0c 我们所需
  • 生信学习——R语言练习题-初级(附详细答案解读)

    题目目录 1 打开 Rstudio 告诉我它的工作目录 2 新建6个向量 xff0c 基于不同的数据类型 xff08 重点是字符串 xff0c 数值 xff0c 逻辑值 xff09 3 告诉我在你打开的rstudio里面 getwd 代码运
  • 生信学习——GEO数据挖掘

    步骤 STEP1 xff1a 表达矩阵ID转换STEP2 xff1a 差异分析STEP3 xff1a KEGG数据库注释完整代码 写在前面 按照生信技能树的学习路线 xff0c 学完R语言就该学习GEO数据挖掘了 有人说GEO数据挖掘可以快
  • 机器学习——基于python的鸢尾花SVM练习(包含超参数批量筛选、交叉验证)

    目录 1 最普通的SVM2 交叉验证 筛选超参数法一 xff1a cross val score法二 xff1a GridSearchCV xff08 推荐 xff09 3 完整代码 写在前面 虽然本人一直对机器学习感兴趣 xff0c 但是
  • python学习——tsv文件批量转为csv文件、csv文件列合并

    写在前面 近日在处理数据的时候发现有的文件为csv文件 xff0c 有的为tsv文件 xff0c 大概搜了一下了解到 xff1a TSV是用制表符 xff08 t xff09 作为字段值的分隔符 xff1b CSV是用半角逗号 xff08
  • PPI网络的构建与美化(String+Cytoscape)

    目录 写在前面一 使用string分析数据二 使用Cytoscape构建网络1 导入TSV文件2 Analyze Network3 Generate Style4 CytoNCA计算Betweenness 三 美化网络1 根据Between
  • 生信刷题之ROSALIND——Part 2

    目录 1 Counting Point MutationsProblemSample DatasetSample OutputCodeOutput 2 Mendel 39 s First LawProblemSample DatasetSa
  • 生信刷题之ROSALIND——Part 3

    目录 1 Mortal Fibonacci RabbitsProblemSample DatasetSample OutputCodeOutput 2 Overlap GraphsProblemSample DatasetSample Ou
  • 生信刷题之ROSALIND——Part 4 (MPRT, MRNA, ORF)

    目录 写在前面1 Finding a Protein MotifProblemSample DatasetSample OutputCodeOutput 2 Inferring mRNA from ProteinProblemSample
  • Pandas第三次作业20200907

    练习1 读取北向 csv 指定trade date为行索引 查看数据的基本信息 有无缺失值 对其缺失值进行处理 删除缺失值所在行 查看数据的基本信息 查看数据是否清洗完毕 index列没啥用 将index列删除 观察数据是否有重复行 将重复