所以我目前正在完成泰坦尼克号数据集的教程(https://www.kaggle.com/c/titanic/data)。
现在我正在尝试一些可能相关的新事物。
The info for it is :
There are 891 entries(red asterisk), and columns with NaN values (blue dashes).
当我去寻找缺失值的一些总结时,我感到困惑.sum()
& .count()
:
在上面的代码中,.sum()
对于空值的每个实例加一。因此,输出似乎是数据框中每列有多少个缺失条目的值。 (这就是我想要的)
However如果我们这样做.count()
无论我们是否使用,每列都会得到 891.isnull().count()
or .notnull().count()
.
所以我的问题是:
什么是.count()
在这种情况下意味着什么?
我认为它会计算所需方法的每个实例(在本例中为空或非空条目的每个实例;基本上是什么.sum()
did).
还;我对如何的“定义”.sum()
正在使用,这是正确的吗?
只要打印出train_df.isnull()的数据,你就会看到。
# data analysis and wrangling
import pandas as pd
import numpy as np
# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
train_df = pd.read_csv('train.csv')
print(train_df.isnull())
result:
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket \
0 False False False False False False False False False
1 False False False False False False False False False
2 False False False False False False False False False
3 False False False False False False False False False
4 False False False False False False False False False
.. ... ... ... ... ... ... ... ... ...
886 False False False False False False False False False
887 False False False False False False False False False
888 False False False False False True False False False
889 False False False False False False False False False
890 False False False False False False False False False
它有 891 行,充满了 True 和 False。
- 当你使用sum(),它将返回每列的总和,将 true(=1) 和 false(= 0) 加在一起。就像这样
print(False+False+True+True)
2
- 当你使用count(),它只是返回行数.
当然,无论您使用 .isnull().count() 还是 .notnull().count(),每列都会得到 891。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)