一直致力于数据集清理和处理数据以进行进一步分析,我使用了不同的清理脚本。
每当数据集列之间出现任何不需要的/异常数据时,我的脚本就会中止,脚本执行会卡住并且其余数据不会得到处理。
我尝试使用的脚本:
import pandas as pd
import numpy as np
pd.options.mode.chained_assignment = None
df = pd.read_excel(open(r'data.xlsx', 'rb'), sheet_name='sheet1')
我一直在期待什么:
即使数据之间出现任何异常/未知的数据类型,我如何通过跳过并保留错误的数据类型来处理整个数据集。
我可以使用任何异常处理方法。
请建议。
我想我不太明白这个问题。
我一直都是这样做的,从来没有遇到过问题。
import pandas as pd
FileLocation = (r'Test.xlsx')
df = pd.read_excel(FileLocation, sheet_name='sheet1')
print(df.head)
然后,如果您想删除错误的数据,可以使用 for every 循环来迭代数据框。
但是,如果您在 Excel 阅读器将其读取为浮点数时遇到问题,但希望将其作为字符串,您可以这样做:
import pandas as pd
FileLocation = (r'Test.xlsx')
df = pd.read_excel(FileLocation, sheet_name='sheet1', converters={'COLUMN-NAME':str})
print(df.head)
然后你会得到想要的列作为字符串或任何你想要的。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)