Pandas read_csv dtype 读取所有列，但很少作为字符串

2024-01-19

我正在使用 Pandas 读取一堆 CSV。将选项 json 传递给 dtype 参数来告诉 pandas 将哪些列读取为字符串而不是默认值：

dtype_dic= { 'service_id':str, 'end_date':str, ... }
feedArray = pd.read_csv(feedfile , dtype = dtype_dic)

在我的场景中，all除少数特定列外，所有列都将作为字符串读取。因此，不要将几列定义为 strdtype_dic，我想将我选择的几个设置为 int 或 float。有没有办法做到这一点？

这是一个循环遍历具有不同列的各种 CSV，因此在将整个 csv 读取为字符串后进行直接列转换（dtype=str），这并不容易，因为我不会立即知道 csv 有哪些列。（我宁愿花精力来定义 dtype json 中的所有列！）

编辑：但是，如果有一种方法可以处理要转换为数字的列名称列表，而不会在该 csv 中不存在该列的情况下出错，那么，如果没有其他方法，这将是一个有效的解决方案这是在 csv 阅读阶段本身。

注意：这听起来就像之前问过的问题一样 https://stackoverflow.com/questions/37515896/pandas-read-csv-dtype-specify-all-columns-but-one但那里的答案走了一条非常不同的道路（与布尔相关），这不适用于这个问题。请不要标记为重复！

对于 Pandas 1.5.0+，有一个简单的方法可以做到这一点。如果您使用defaultdict而不是正常的dict为了dtype参数中，字典中未明确列出的任何列都将使用默认值作为其类型。例如。

from collections import defaultdict
types = defaultdict(str, A="int", B="float")
df = pd.read_csv("/path/to/file.csv", dtype=types, keep_default_na=False)

（我还没有测试过这个，但我认为你仍然需要keep_default_na=False)

对于旧版本的 Pandas：

您可以将整个 csv 作为字符串读取，然后将所需的列转换为其他类型，如下所示：

df = pd.read_csv('/path/to/file.csv', dtype=str, keep_default_na=False)
# example df; yours will be from pd.read_csv() above
df = pd.DataFrame({'A': ['1', '3', '5'], 'B': ['2', '4', '6'], 'C': ['x', 'y', 'z']})
types_dict = {'A': int, 'B': float}
for col, col_type in types_dict.items():
    df[col] = df[col].astype(col_type)

keep_default_na=False如果某些列是空字符串或类似的内容，则这是必要的NApandas 转换为NA类型的float默认情况下，这将使您最终得到混合数据类型str/float

另一种方法是，如果您确实想在读入文件时为所有列指定正确的类型，并且之后不更改它们：仅读入列名（无行），然后使用它们来填充哪些列应该是字符串

col_names = pd.read_csv('file.csv', nrows=0).columns
types_dict = {'A': int, 'B': float}
types_dict.update({col: str for col in col_names if col not in types_dict})
pd.read_csv('file.csv', dtype=types_dict)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas read_csv dtype 读取所有列，但很少作为字符串的相关文章

稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
Series.sort() 和 Series.order() 有什么区别？

s pd Series nr randint 0 10 5 index nr randint 0 10 5 s Output 1 3 7 6 2 0 9 7 1 6 order 按值排序并返回一个新系列 s order Output 2 0
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
如何给URL添加变量？

我正在尝试从网站收集数据我有一个 Excel 文件其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作然而当我说 s
如何将 Excel 或 CSV 文件加载到 Firebird 中？

我在用着Firebird http www firebirdsql org数据库我需要将 Excel 文件加载到数据库表中我需要一个能很好地完成这项工作的工具我尝试了一些在谷歌上找到的东西但它们都有一些错误由于 Excel 数据不
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单

随机推荐

Python 3 unittest模拟用户输入

如何在单元测试调用的函数中间模拟用户输入使用 Python 3 的单元测试例如我有一个函数foo 我正在测试谁的输出在里面foo 函数它要求用户输入 x input msg 输出基于输入 print input 0 format x
Jenkins 设置向导空白页

我刚刚通过 npm 在我的 RHEL 6 0 服务器上安装了 Jenkins npm ivh jenkins 2 7 2 1 1 noarch rpm 我还将端口配置为 9917 以避免与 Tomcat 服务器发生冲突从而允许我访问 Je
在一个 Windows 命令提示符下按顺序运行多个程序？

我需要一个接一个地运行多个程序并且每个程序都在控制台窗口中运行我希望控制台窗口可见但会为每个程序创建一个新窗口这很烦人因为每个窗口都在另一个窗口关闭的新位置打开并且在 Eclipse 中工作时会窃取焦点这是我使用的初始代码 d
使用 LINQ 从 List 中删除元素

假设我有 LINQ 查询例如 var authors from x in authorsList where x firstname Bob select x 鉴于authorsList属于类型List
结合 static_cast 和 std::any_cast

有安全的吗std any cast and static cast组合我正在尝试执行以下操作 include
java中集合中元素的顺序

如果我从同一组中创建 2 个列表我可以确保在这两个列表中获得相同的顺序吗我不关心顺序只要两个列表具有相同的顺序并且我在创建两个列表之间不对集合执行任何操作 List l new ArrayList set List l1 new A
Winforms/WPF 应用程序可以充当 HTTP 服务器吗？

我有一个用 Winforms 编写的桌面现在我请求人们想要从其他机器访问数据首先我考虑了常规的客户端服务器应用程序但现在我认为最好的是该应用程序可以充当 HTTP 服务器并将 HTML 发送到连接的浏览器有谁知道是否有一个库可用
如何使用pandas to_csv float_format？

我正在从一个精度为 8 的数据文件中读取数据然后在插入一些值后我将它们保存起来就像 float format 选项不起作用的地方一样 df to csv data dat sep index False header False fl
为什么 stringstreams rdbuf() 和 str() 给出不同的输出？

我有这个代码 int main std string st std stringstream ss ss lt lt hej hej med dig lt
如何使用 GStreamer 标记或添加元数据到视频文件？

我想使用 GStreamer 将元数据添加到 MP4 视频文件录制文件时如何进行当文件已经录制时怎么办是否可以使用 GStreamer 检查这些修改例如使用 FFmpeg 我可以使用以下命令行向视频添加标题 ffmpeg i in
使用过滤的资源调试 Maven junit 测试？

我们在 JUnit 测试中使用过滤后的 testResources 这些测试资源通常由 Maven Surefire 插件执行即pom包含一段
Swing：创建一个居中显示其组件的 JScrollPane？

如果您创建的 JScrollPane 的视口大于 JScrollPane 的组件则会在左上角显示该组件有没有办法改变这种行为使其显示组件居中下面的示例程序澄清我有一个具有宽度高度 cw ch 的组件我有一个 JScroll
如果未提交表单，则阻止 PHP 代码执行 [重复]

这个问题在这里已经有答案了我有一个 php 文件说检查 php 在我的网站中它在提交表单时执行说我的网站是 myweb com php 文件位于目录 PHP 中我想阻止直接 url 访问 check php 文件即如果有人输入
Coldfusion 中的递归函数

我正在尝试在 Coldfusion 中创建递归函数但遇到了一些问题这是我的逻辑
sencha extjs 5.0 应用程序无法在生产版本中运行

我刚刚使用 ExtJS 5 0 构建了一个新应用程序看起来非常棒该应用程序在开发模式下工作正常但一旦我使用命令行工具构建应用程序并部署它它就会停止工作当我在项目目录中时使用的构建命令 sencha app build produc
PostgreSQL - 根据条件为每行分配值

我有下表 date label time 2014 04 06 A 12 05 56 2014 04 06 A 23 02 32 2014 04 06 B 8 39 25 2014 04 06 B 12 36 37 2014 04 06 C
jQuery mobile $(document).ready 等效项

在ajax导航页面中用于执行初始化javascript的经典文档就绪表单根本不会触发在 ajax 加载的页面中执行某些代码的正确方法是什么我的意思是不是我的 ajax 它是 jquery 移动页面导航系统将我带到该页面好吧我
打印不带前导零的浮点值

尝试使用格式说明符打印一个小于 1 且没有前导零的浮点数我想出了一些技巧但我认为有一种方法可以删除格式说明符中的前导零我在文档中找不到它 Issue gt gt gt k 1337 gt gt gt print 4f k 0 1337
将 Word 文档保存为 PDF，并在文件路径中使用变量？

我正在制作一个单词宏将单词文档另存为 PDF 名称中带有数组变量目前的代码如下所示 Private Sub CommandButton2 Click SavePDF Dim i As Integer i ActiveDocument M
Pandas read_csv dtype 读取所有列，但很少作为字符串

我正在使用 Pandas 读取一堆 CSV 将选项 json 传递给 dtype 参数来告诉 pandas 将哪些列读取为字符串而不是默认值 dtype dic service id str end date str feedArray p

Pandas read_csv dtype 读取所有列，但很少作为字符串

Pandas read_csv dtype 读取所有列，但很少作为字符串 的相关文章

随机推荐

热门标签

Pandas read_csv dtype 读取所有列，但很少作为字符串的相关文章