如何从 unicode (utf-8) csv 文件导入 numpy 数组

2023-12-14

我并不是想聪明或快速地做到这一点,只是想完全做到这一点。

我有一个如下所示的文件:

$ cat all_user_token_counts.csv  
@5raphaels,in,15
@5raphaels,for,15
@5raphaels,unless,11
@5raphaels,you,11

我知道它是 unicode utf-8 编码的,因为我创建了它,就像这样

    debug('opening ' + ALL_USER_TOKEN_COUNTS_FILE)
    file = codecs.open(ALL_USER_TOKEN_COUNTS_FILE, encoding="utf-8",mode= "w")
    for (user, token) in tokenizer.get_tokens_from_all_files():
        #... count tokens ..
        file.write(unicode(username +","+ token +","+ str(count) +"\r\n"))

我想将它读入一个 numpy 数组,所以它看起来像这样,或者其他东西..

   array([[u'@5raphaels', u'in', 15],
          [u'@5raphaels', u'for', 11],
          [u'@5raphaels', u'unless', 11]], 
          dtype=('<U10', '<U10', int))

当我在写这个问题的过程中进行实验时,我发现这甚至可能不可能?如果是这样,我很想知道!

提前致谢!


这可以很容易地完成np.loadtxt:

import numpy as np
arr=np.loadtxt('all_user_token_counts.csv',delimiter=',',
                  dtype = '|U10,<U10,int')
print(arr)

# [(u'@5raphaels', u'in', 15) (u'@5raphaels', u'for', 15)
#  (u'@5raphaels', u'unless', 11) (u'@5raphaels', u'you', 11)]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 unicode (utf-8) csv 文件导入 numpy 数组 的相关文章

  • 将字符串转换为浮点数列表(在 python 中)

    出于数据存储的目的 我尝试从 txt 文件恢复浮点列表 从字符串中可以看出 a 1 3 2 3 4 5 我想恢复 a 1 3 2 3 4 5 我期待一个简单的解决方案 例如list a 但我找不到类似的东西 Use the AST模块 Ex
  • pip 安装最新的依赖版本

    当我使用安装包时pip install e 它仅安装不满足的依赖项并忽略依赖项升级 如何在每次运行时安装最新的依赖版本pip install e 我尝试过使用pip install upgrade e 但是使用这个选项没有任何改变 我仍然得
  • sudo 和 pip 不在同一路径上

    pip and sudo不在我的计算机上的同一路径上 因此当 基本上一直 我需要运行这两个命令时 如下所示 sudo pip install xxx I get sudo pip command not found pip下载软件包 但由于
  • 使用 pyppeteer 与 asyncio 关联来抓取内容

    我用 python 结合编写了一个脚本pyppeteer随着asyncio从其登陆页面抓取不同帖子的链接 并最终通过跟踪通向其内页的 url 来获取每个帖子的标题 我这里解析的内容不是动态的 但是 我利用了pyppeteer and asy
  • 如何在Python中反转列表的列表? [复制]

    这个问题在这里已经有答案了 我想知道如何反转 python 中的列表列表 例如 原来的 list 1 2 3 4 5 6 7 8 9 输出 new list 7 8 9 4 5 6 1 2 3 现在 我正在尝试这样做 new list re
  • MacOS Big Sur 中的 NPM 错误“找不到 Python 可执行文件”

    我已经花了整整一周的时间寻找这个问题的答案 但没有成功 我查看了每个 StackOverflow 帖子 Google 的每一篇文章以及我能找到的每个相关的 Github 问题 大多数相关错误似乎都比较旧 所以我想知道我的问题是否由于我使用的
  • 清理 MongoDB 的输入

    我正在为 MongoDB 数据库程序编写 REST 接口 并尝试实现搜索功能 我想公开整个 MongoDB 接口 我确实有两个问题 但它们是相关的 所以我将它们放在一篇文章中 使用 Python json 模块解码不受信任的 JSON 是否
  • Python MySQLdb:connection.close() VS。光标.close()

    如果我使用MySQLdb通过Python连接到MySQL Server 我创建一个connection and a cursor像这样 connection MySQLdb connect cursor connection cursor
  • 如何停止 PythonShell

    如何终止 停止 Node js 中 PythonShell 执行的 Python 脚本的执行 我在交互模式下运行 输出通过 socket io 发送到给定的房间 如果没有更多的客户端连接到这个房间 我想停止 python 脚本的执行 这是我
  • 使用 Popen 打开进程并获取 PID

    我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
  • 使用张量流导出神经网络的权重

    我使用张量流工具编写了神经网络 一切正常 现在我想导出神经网络的最终权重以制定单一的预测方法 我怎样才能做到这一点 您需要在训练结束时使用以下命令保存模型tf train Saver https www tensorflow org ver
  • Pandas 根据条件替换数据框值

    我有一个主数据框 df Colour Item Price Blue Car 40 Red Car 30 Green Truck 50 Green Bike 30 然后我有一个价格修正数据框 df pc Colour Item Price
  • 在 Keras 中使用有状态 LSTM 训练多变量多级数回归问题

    我有时间序列P过程 每个过程的长度各不相同 但都有 5 个变量 维度 我试图预测测试过程的估计寿命 我正在用有状态的方法来解决这个问题LSTM在喀拉斯 但我不确定我的训练过程是否正确 我将每个序列分成长度的批次30 所以每个序列都是这样的形
  • numpy 向量化而不是 for 循环

    我用 Python 写了一些代码 运行良好 但速度很慢 我认为是由于 for 循环 我希望可以使用 numpy 命令加速以下操作 让我定义目标 假设我有一个 2D numpy 数组all CMs尺寸row x col 例如考虑一个6x11数
  • 哈希 freezeset 与排序元组

    在 Python 中 给定一组可比较的 可散列的元素s 散列是否更好frozenset s or tuple sorted s 这取决于你在做什么 创建一个更快frozenset 比排序tuple but frozenset占用的内存比tu
  • 配置 Django 和 Google 云存储?

    I am not使用应用引擎 我有一个在虚拟机上运行的普通 Django 应用程序 我想使用 Google Cloud Storage 来提供静态文件 以及上传 提供媒体文件 我有一个水桶 如何将 Django 应用程序链接到我的存储桶 我
  • 数据类和属性装饰器

    我一直在阅读 Python 3 7 的数据类 作为命名元组的替代品 我通常在必须将数据分组到结构中时使用它 我想知道数据类是否与属性装饰器兼容 以便为数据类的数据元素定义 getter 和 setter 函数 如果是这样 是否在某处进行了描
  • 我应该在哪里对对象和字段进行 django 验证?

    我正在创建一个 Django 应用程序 它使用 Django Rest Framework 和普通的 django views 作为用户的入口点 我想对模型的独立字段以及整个对象进行验证 例如 字段 根据正则表达式函数输入的车牌是否正确 与
  • 如何从 Anaconda 更新 Pandas 以及最后是否可以使用 eclipse

    我已经使用以下文档通过 Anaconda 安装了 Python http www kevinsheppard com images 0 09 Python introduction pdf http www kevinsheppard co
  • 无法将 librosa 与 python 3 一起使用

    我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d

随机推荐

  • 将一个txt文件内容附加到另一个现有txt文件

    我正在尝试附加names txt将文件内容复制到另一个名为 as 的文件surname txt在文件末尾 不丢失以前的信息surname txt 有什么可能的方法来实现这个操作 为了执行此操作 我使用 php 以下解决方案完美运行 但数据没
  • HtmlUnit 测试失败示例

    我正在尝试通过 Junit 运行示例 HtmlUnit 测试用例 我的项目是基于 Maven 的 我是否需要将编译和测试下列出的所有依赖项添加到我的 POM 中 http htmlunit sourceforge net dependenc
  • android grafika ContinuousCapture 活动问题

    我正在使用 android grafika 进行视频录制 我将更改我想要的所有内容 一切都很完美 只有2个问题 如果我在 7 秒 例如 2 秒或低于 7 秒 后保存视频 那么它会保存 7 秒的视频 如果我拍摄的视频时长为 15 秒或更长时间
  • 在画布上绘制路径作为动画

    我必须再问一次 因为之前没有人回答我的问题 我的问题不是重复的如何在 Android 画布上用动画绘制路径 请仔细阅读并帮助我 如果可能的话 提供代码 上面的例子对我来说不清楚 路径是在绘图流程上创建的 这不是我要找的 我想绘制一条已存在于
  • Java 中的类型擦除

    类型擦除应该擦除所有通用信息 如果是这种情况 像 GSON 这样的库如何使用泛型来确定反序列化为什么类型 e g private Map
  • 将动力学函数应用于相空间中的每个点(由二维矩阵表示)

    我有一个整数矩阵 phase space形状的 n n 其中每个条目代表空间中该位置的点数 我还有两个更新矩阵u x u y也有形状 n n 整数在范围内0 n指定我的动力系统在空间中的每个对应点的位置 我想迭代地将更新矩阵 应用 到相空间
  • 如何使用 Ruby 将阿拉伯/波斯数字翻译成英语?

    如何将一些具有阿拉伯 波斯数字的字符串转换为英语 就像如果我有 str1 str2 12 str3 some string that contains persian digits like 是否有任何函数将其编码为英语 如果字符串包含这样
  • 调用局部视图

    我有一个渲染两个下拉列表的视图 下拉列表的控制器工作正常 他们调用存储库类中的方法来进行数据库选择 在下拉列表下方 我尝试在部分视图中呈现数据表 以响应下拉列表选择 视图中的下拉菜单使用单个模型 model BudgetDemo Model
  • 将数据表中的行选择限制为 3

    我目前正在使用 jQuery 数据表插件 想知道是否有任何方法可以将行选择限制为 3 现在用户可以选择无限数量的行 这是我的代码的 jsfiddle http jsfiddle net EfFA2 JS document ready fun
  • Ingress 与负载均衡器

    我对 Kubernetes 中 Ingress 和 Load Balancer 的角色很困惑 据我了解 Ingress 用于将来自互联网的传入流量映射到集群中运行的服务 负载均衡器的作用是将流量转发到主机 在这方面 ingress 与负载均
  • 如何在 SVG 中不缩放图像

    所以我有一个 SVG 图像 如下所示
  • Vuetify,如何设置默认道具

    我已经开始使用 Vuetify 但我正在寻找一种修改某些组件上的默认 props 的方法 有没有办法做到这一点 即不必不断地写
  • “]”附近的语法不正确。?

    我已经对我的 sql 进行了一些调试 但我无法弄清楚我遇到的令人抓狂的错误 我已将其缩小到几行 我看不出问题是什么 请有人给我一些帮助 我收到这个错误 我在这里2 消息 102 第 15 级 状态 1 第 1 行 附近语法不正确 我在这里3
  • 如何将 Font Awesome 图标添加到输入字段?

    如何使用 Font Awesome 中包含的搜索图标进行输入 我的网站上有一个搜索功能 基于 PHPmotion 我想将其用于搜索 这是代码 div div
  • Java Restful服务eclipse tomcat HTTP错误404

    我尝试跟上 java 休息服务 所以我找到了一些教程 它们的解释总是相同的 但我无法让它运行 我在eclipse中制作了2 5版本的Dynamic Web Project和Tomcat 7 0 然后我将以下 jar 加载到 WEB INF
  • Spring Security - 如何启用方法安全注释?

    StackOverflow 上有很多类似的问题 但我找不到任何答案 我有 web xml 像
  • 在 Python 中创建 jTDS 连接字符串

    我正在尝试使用 Python 建立 jTDS 连接 谁能帮我完成这个任务吗 在 SQL Server 中 我通常使用以下连接字符串进行连接 jdbc jtds sqlserver DBServer port DBInstance useNT
  • 这个方法怎么给我一个-61错误?

    这是我正在使用的一个名为 Mirth 的应用程序 但它似乎来自 Apache Commons 库内部的一个方法 该方法检查某些内容是否确实是 Base64 编码的 所有文档都说唯一的返回是 true 或 false 那么我怎么得到 61 呢
  • 任何用于显示来自相机的实时图像的快速 Python GUI

    我正在尝试显示 1394 相机的实时图像 目前 我的代码能够从相机循环获取图像 并且我正在寻找任何可以动态更新的快速 GUI 作为单独的线程 我可以在 PyQt 中使用 QThreads 来做到这一点 但是有没有任何建议或更快的方法来做到这
  • 如何从 unicode (utf-8) csv 文件导入 numpy 数组

    我并不是想聪明或快速地做到这一点 只是想完全做到这一点 我有一个如下所示的文件 cat all user token counts csv 5raphaels in 15 5raphaels for 15 5raphaels unless