Numpy 字符串编码

2024-03-23

numpy 模块是一个出色的工具，可以有效地存储 Python 对象（其中包括字符串）。对于 numpy 数组中的 ANSI 字符串，每个字符仅使用 1 个字节。

然而，有一个不便之处。存储对象的类型不再是string but bytes，这意味着在大多数情况下必须解码才能进一步使用，这又意味着相当庞大的代码：

>>> import numpy
>>> my_array = numpy.array(['apple', 'pear'], dtype = 'S5')
>>> print("Mary has an {} and a {}".format(my_array[0], my_array[1]))
Mary has an b'apple' and a b'pear'
>>> print("Mary has an {} and a {}".format(my_array[0].decode('utf-8'),
... my_array[1].decode('utf-8')))
Mary has an apple and a pear

这种不便可以通过使用另一种数据类型来消除，例如：

>>> my_array = numpy.array(['apple', 'pear'], dtype = 'U5')
>>> print("Mary has an {} and a {}".format(my_array[0], my_array[1]))
Mary has an apple and a pear

然而，这只能通过将内存使用量增加 4 倍来实现：

>>> numpy.info(my_array)
class:  ndarray
shape:  (2,)
strides:  (20,)


itemsize:  20

aligned:  True
contiguous:  True
fortran:  True
data pointer: 0x1a5b020
byteorder:  little
byteswap:  False
type: <U5

有没有一种解决方案既能兼顾高效内存分配和方便使用 ANSI 字符串的优点呢？

和上的区别不是很大decode, but astype有效（并且可以应用于整个数组而不是每个字符串）。但只要需要，较长的阵列就会保留下来。

In [538]: x=my_array.astype('U');"Mary has an {} and a {}".format(x[0],x[1])
Out[538]: 'Mary has an apple and a pear'

我在其中找不到任何内容format强制“b”少格式化的语法。

https://stackoverflow.com/a/19864787/901925 https://stackoverflow.com/a/19864787/901925- 展示如何自定义 Formatter 类，更改format_field方法。我尝试了类似的东西convert_field方法。但调用语法还是很乱。

In [562]: def makeU(astr):
    return astr.decode('utf-8')
   .....: 

In [563]: class MyFormatter(string.Formatter):
    def convert_field(self, value, conversion):
        if 'q'== conversion:
            return makeU(value)
        else:
            return super(MyFormatter, self).convert_field(value, conversion)
   .....:         

In [564]: MyFormatter().format("Mary has an {!q} and a {!q}",my_array[0],my_array[1])
Out[564]: 'Mary has an apple and a pear'

进行此格式化的其他几种方法：

In [642]: "Mary has an {1} and a {0} or {1}".format(*my_array.astype('U'))
Out[642]: 'Mary has an pear and a apple or pear'

这会（即时）转换数组并将其传递给format作为一个列表。如果数组已经是 unicode，它也可以工作：

In [643]: "Mary has an {1} and a {0} or {1}".format(*uarray.astype('U'))
Out[643]: 'Mary has an pear and a apple or pear'

np.char具有将字符串函数应用于字符数组元素的函数。有了这个decode可以应用于整个数组：

In [644]: "Mary has a {1} and an {0}".format(*np.char.decode(my_array))
Out[644]: 'Mary has a pear and an apple'

（如果数组已经是 unicode，则这不起作用）。

如果你对字符串数组做了很多工作，np.char值得研究。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

python3x

NumPy

Numpy 字符串编码的相关文章

Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
如何在python 2.7.8中将非英文字母的字典写入文件？

这是一个简单的例子 test location 北京 country 中国 the values are Chinese 在文件 test log 中 location 北京 country 中国在python 2 7 8中当我需要输出
python中嵌套字典值的总和

我有一本这样的字典 data 11L a 2 b 1 a 2 b 3 22L a 3 b 2 a 2 b 5 a 4 b 2 a 1 b 5 a 1 b 0 33L a 1 b 2 a 3 b 5 a 5 b 2 a 1 b 3 a 1 b
使用 NumPy 的 Mittag-Leffler 函数的不稳定性

在尝试重现时Wolfram MathWorld 上的情节 http mathworld wolfram com Mittag LefflerFunction html 并试图帮助这个问题 https stackoverflow com qu
C++：字符串流有什么好处？

谁能告诉我一些在 C 中使用字符串流的实际例子即使用流插入和流提取运算符输入和输出到字符串流您可以使用字符串流来转换任何实现operator lt lt 到一个字符串 include
如何使用appium自动化Android手机后退按钮

我正在使用 Appium python 客户端库对 Android 上的混合移动应用程序进行测试自动化我无法找到任何方法来自动化或创建手势以使用电话后退按钮返回到应用程序的上一页有没有可以使用的驱动函数我尝试了 self dri
使用 argparse 指定默认文件名，但不使用 --help 打开它们？

假设我有一个对文件执行一些操作的脚本它在命令行上获取此文件的名称但如果未提供则默认为已知文件名 content txt 说与蟒蛇的argparse 我使用以下内容 parser argparse ArgumentParser des
如何从 Python 3.5 降级到 3.4

我想安装 kivy 链接在这里 https kivy org docs installation installation windows html install win dist 用于项目但是当尝试使用 pip 安装它所依赖的包时
t /= d 是什么意思？ Python 和错误

t current time b begInnIng value c change In value d duration def easeOutQuad swing function x t b c d alert jQuery easi
导入我自己的模块时出现“ImportError：没有名为...的模块”

我正在尝试导入模块但不断收到导入错误在 PortfolioStatus py 文件中我有以下代码它从 share data py 模块导入 share data 类 from Shares share data import sha
如何向 RetrievalQA.from_chain_type 添加内存？或者，如何向 ConversationalRetrievalChain 添加自定义提示？

如何向 RetrievalQA from chain type 添加内存或者如何向 ConversationalRetrievalChain 添加自定义提示在过去的两周里我一直在尝试制作一个可以通过文档聊天的聊天机器人因此不仅仅是
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
pandas-更改重采样时间序列的开始和结束日期

我有一个时间序列我将其重新采样到这个数据框中df 我的数据是从6月6日到6月28日它希望将数据从6月1日延长到6月30日计数列仅在较长时间内具有 0 值而我的实际值是从 6 日到 28 日 Out 123 count Timesta
让 Bazel 使用 Python3 运行（语法错误）

我正在尝试使用 Bazel 运行此代码 https github com google in silico labeling https github com google in silico labeling 这是关联的 Bazel BU
返回吃异常

我至少发现了以下行为weird def errors try ErrorErrorError finally return 10 print errors prints 10 It should raise NameError name E
如何使用 PyAudio 选择特定的输入设备

通过 PyAudio 录制音频时如何指定要使用的确切输入设备我的电脑有两个麦克风一个内置一个通过 USB 我想使用 USB 麦克风进行录音这流类 https people csail mit edu hubert pyaudio
在 MySQL 中分割逗号分隔值

我正在尝试将字符串中以逗号分隔的值拆分为多列样本数据 COL1 COL2 COL3 000002 000003 000042 09 31 51 007 004 007 预期输出 Pno Cno Sno 000002 09 007 000
将同一 numpy 数组的两个视图组合成单个视图而不复制数组？

我有一个大型 2d numpy 数组我想删除它的子集并处理函数剩下的内容我需要对许多子集执行此操作因此理想情况下我不想每次都创建数组的副本该函数不会更改数组中的任何值 mat np load filename mat 1 mat i
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d
IOError：在 Linux 上的 ReportLab 中使用 matplotlib PNG 时“解码器 zip 不可用”，适用于 Windows

我正在使用 ReportLab 打印 matplotlib 生成的图表我可以在我的 Windows 开发机器上毫无问题地执行此操作然而当我部署到 Ubuntu 服务器时渲染失败并出现所述错误我假设我缺少一个 Python 模块但

随机推荐

如何配置 cabal 对 32 位和 64 位软件包使用不同的文件夹？

我正在 Windows 上对 64 位 GHC 进行一些测试同时将代码迁移到 GHC 7 6 1 这意味着我安装了 GHC 7 6 1 的 32 位和 64 位版本因此我可以区分 64 位特定问题和 7 6 1 的一般问题我的阴谋集团
使用美观和 geom_text 时从图例中删除“a”

如何从这段代码生成的图例中删除字母 a 如果我删除geom text 那么 a 字母将不会显示在图例中我想保留geom text 尽管 ggplot data iris aes x Sepal Length y Sepal Width s
如何在 iPhone 上以编程方式启动电话会议

在 iPhone 上以编程方式启动电话会议的方法有哪些关于这个问题的任何知识据我所知告诉 iPhone 呼叫某人的唯一方法是调用 tel 0123456 url 该 URL 方案记录在 Apple SDK 中 Source https
如何创建自定义层来获取和操作 Keras 中的渐变

我正在尝试实现梯度投影技术通过对抗性学习减轻不必要的偏见 http m mitchell com papers Adversarial Bias Mitigation pdf 模型架构是 1 输入层 2 密集定长层 3 Custom gra
Javascript 沙箱单元测试

我正在使用 QUnit 这非常好我已将我的 JS 应用程序包含在 function 沙箱这隐藏了很多我不想公开的代码但我还需要测试这些代码以下是其工作原理的示例 function var PublicAPI window Publi
CMake 中的函数与宏

CMake 2 8 12官方文档 http www cmake org cmake help v2 8 12 cmake html说关于macro 调用时先执行宏中记录的命令通过用参数替换形式参数 arg1 进行修改通过然后像普通命
使用多处理读取、压缩、写入

我正在压缩文件对于其中的一些来说单个进程就可以了但我要压缩数千个进程这可能并且已经花费了几天的时间所以我想通过多重处理来加快速度我有read https stackoverflow com a 2069556我应该避免让多个
给定一个张量流模型图，如何找到输入节点和输出节点名称

我在张量流相机演示中使用自定义模型进行分类我生成了一个 pb 文件序列化的 protobuf 文件我可以显示它包含的巨大图表将此图转换为优化图如中给出https www oreilly com learning tensorfl
数百万对单个整数与一批（2 到 100）整数配对的最佳数据类型（就速度/RAM 而言）

我有大约 1500 万对由一个整数与一批 2 到 100 个其他整数配对组成如果有区别的话整数本身的范围是 0 到 1500 万我考虑过使用 Pandas 将批次存储为 python 列表 Numpy 其中批次存储为其自己的 nu
SFML加载、修改、显示位图

我必须整天工作才能弄清楚如何加载修改和显示位图这是我的工作程序 Lubuntu CodeBlocks 16 01 我必须将这些库添加到项目 gt 构建选项 gt 链接器设置 gt 其他链接器选项中 lsfml graphics lsfm
C++ 模板类继承另一个具有模板指定输入类型的模板类[重复]

这个问题在这里已经有答案了可能的重复 GCC 问题使用依赖于模板参数的基类成员 https stackoverflow com questions 11405 gcc problem using a member of a base c
如何从 VS Code 中的 Java 文件中删除所有未使用的导入

我将 VS Code 与 Java 扩展包一起使用当我有未使用的导入时例如 import java util ArrayList import java util stream Collectors in my java我可以删除每个导
有适用于 mac os X 10.8 的 opencl 分析器吗？

我试图找到 OpenCL 内核中的瓶颈是否可以在 mac os X 上分析 OpenCL 程序我发现 gDebuggerhttp www gremedy com http www gremedy com 但需要 10 5 或 10 6
如何比较两个波斯日期以找出哪个更大？

我想比较两个波斯日期以找出哪个更大我使用这个函数 public static List
Excel公式查找其他单元格使用的引用

有没有办法找出Excel中另一个单元格引用的单元格的地址例如单元格 C1 包含公式 max A A 并返回值 10 该值实际上引用单元格 A10 我可以在单元格 B 中使用返回 A10 的公式吗不我根本不想使用 VBA 假设您的条目
类转换的任何替代方法

以下语句在某些设备上不执行 AddEvent act1 AddEvent getLocalActivityManager getCurrentActivity 上述陈述是否有任何替代方法在某些设备上它工作正常但在其他设备上却出现异常 E
使用 apache2 全新安装后 phpMyAdmin 无法工作

当我尝试访问 phpmyadmin 页面时我收到以下错误
从 C# 向进程发送 CTRL_C/SIGINT

我想中断通过 cmd exe 运行的命令在下面的代码中我使用 ping www stackoverflow com t 作为示例 public void Run System Diagnostics ProcessStartInfo s
雪豹上的 Java5

我需要 Java 5 不是 6 但 Snow Leopard 仅附带 Java 6 有 System Library Frameworks JavaVM framework Versions 1 5 但这仅仅指向1 6 0 ls la Sy
Numpy 字符串编码

numpy 模块是一个出色的工具可以有效地存储 Python 对象其中包括字符串对于 numpy 数组中的 ANSI 字符串每个字符仅使用 1 个字节然而有一个不便之处存储对象的类型不再是string but bytes 这意

Numpy 字符串编码

Numpy 字符串编码 的相关文章

随机推荐

热门标签

Numpy 字符串编码的相关文章