NLTK 资源的 Pyodide 文件系统：丢失文件

2024-03-11

我正在尝试使用NLTK https://www.nltk.org/在浏览器中，感谢pyodide https://pyodide.org/en/stable/。 Pyodide 启动良好，成功加载 NLTK，打印其版本。

尽管如此，虽然包下载看起来不错，但在调用时nltk.sent_tokenize(str)，NLTK 引发错误，无法找到包“punkt”。

我想说下载的资源在某个地方丢失了，但我不太明白 Pyodide / WebAssembly 如何管理文件。有什么见解吗？

简单版本：

import nltk
nltk.download(pkg)
for sent in nltk.sent_tokenize("Test string"):
    print(sent)

包含更多详细信息的版本，指定下载目录和服务器 URL。

import nltk
pkg = "punkt"
downloader = nltk.downloader.Downloader(server_index_url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml") 
downloader.download(pkg, download_dir='/nltk_data')
downloader.status(pkg)
for sent in nltk.sent_tokenize("Test string"):
    print(sent)

完整示例代码：

<!DOCTYPE html>
<html>
  <body>
    <script type="text/javascript" src="https://cdn.jsdelivr.net/pyodide/v0.18.0/full/pyodide.js"></script>
    <script type="text/javascript">
      // init Pyodide
      async function pyodide_loader() {
        let pyodide_premise = loadPyodide({
          indexURL: "https://cdn.jsdelivr.net/pyodide/v0.18.0/full/",
        });
        let pyodide = await pyodide_premise;
        await pyodide.loadPackage("micropip");
        await pyodide.loadPackage("nltk");
        return pyodide_premise;
      }
      let pyodideReadyPromise = pyodide_loader();

      
      // run Python code and load NLTK
      async function load_packages() {
        let pyodide = await pyodideReadyPromise;
        let output = pyodide.runPython(`
print(f"*** import nltk")
import nltk
print(f"*** NLTK version {nltk.__version__=} imported, downloading resources now")

pkg = "punkt"
nltk.download(pkg)

str = "Just for testing"
for sent in nltk.sent_tokenize(str):
    print(sent)
      `);
      }
      load_packages()
    </script>
  </body>
</html>

简短的回答是，目前在 Pyodide 中无法使用 Python 下载文件，因为http.client, requests等需要浏览器虚拟机不支持的 POSIX 套接字。

令人好奇的是nltk.download但没有错误——它应该有。

解决方法是手动下载所需的资源，例如使用 JavaScript获取API https://developer.mozilla.org/en-US/docs/Web/API/Fetch_API如图所示这条评论 https://github.com/pyodide/pyodide/issues/400#issuecomment-882101102;

from js import fetch

response = await fetch("<url>")
js_buffer = await response.arrayBuffer()
py_buffer = js_buffer.to_py()  # this is a memoryview
stream = py_buffer.tobytes()  # now we have a bytes object

# that we can finally write under the appropriate path
with open("<file_path>", "wb") as fh:
    fh.write(stream)

我不太了解 Pyodide / WebAssembly 如何管理文件。

默认情况下它是虚拟文件系统（MEMFS https://emscripten.org/docs/api_reference/Filesystem-API.html#memfs）在每次页面加载时都会重置。您可以使用标准 python 工具访问它（open、“操作系统”等）。如果有需要你也可以挂载持久文件系统 https://github.com/pyodide/pyodide/pull/1596.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLTK 资源的 Pyodide 文件系统：丢失文件的相关文章

将 NPM 包与 Rust 和 Webassemble 结合使用

有没有办法在 Rust 代码中使用 npm 包和 webassemble 现在使用此模板中已存在的 webpack wasm tool wasm pack plugin 和 wasm bindgen 箱 https github com r
NLTK 下载 SSL：证书验证失败

尝试为 nltk 安装 Punkt 时出现以下错误 nltk download punkt nltk data Error loading Punkt
Python 中的 Flesch-Kincaid 可读性测试

我需要帮助解决我遇到的这个问题我需要编写一个从文本返回 FRES Flesch 阅读轻松测试的函数给出公式换句话说我的任务就是把这个公式变成一个Python函数这是来自的代码我之前的问题 https stackoverflow
我可以简单地“读取”正在使用的文件吗？

我正在尝试使用 StreamReader 来读取文件但它总是被另一个进程使用所以我收到此错误该进程无法访问该文件 arfjwknasgmed17 C FLAG CONDITION CP ARFJN FLAG XLS 因为它正在被另一
“LazyCorpusLoader”对象不可迭代

以下示例创建一个字谜词典然而它抛出一个TypeError LazyCorpusLoader object is not an iterator import nltk from nltk corpus import words anag
NLTK CoreNLPDependencyParser：无法建立连接

我正在尝试通过 NLTK 使用斯坦福解析器按照示例here http www nltk org api nltk parse html nltk parse corenlp CoreNLPDependencyParser 20tutori
如何查找列表中句子列表中每个单词的引理和频率计数？

我想使用 WordNet Lemmatizer 找出引理并且还需要计算每个词频我收到以下错误轨迹如下类型错误不可散列的类型列表注语料库可在nltk包装本身到目前为止我已经尝试过如下 import nltk re impo
posix_fadvise(WILLNEED) 会使 IO 变慢吗？

在运行 Linux 内核版本 2 6 18 194 26 1 el5 的 CentOS 5 5 机器上我注意到 posix fadvise WILLNEED 使读取 60K 文件比常规 IO 慢了近 200 看起来实际的 fadvise
区分大小写的文件系统上的 File.equals

我有一个字符串形式的文件路径在 Java 中我需要确定文件系统上是否存在该文件并且我们的代码需要跨平台因为它在 Windows Linux 和 OS X 上运行问题是文件路径和文件本身的大小写可能不匹配即使它们确实代表相同的文件
检查lua中是否存在目录？

如何检查 lua 中是否存在目录如果可能的话最好不使用 LuaFileSystem 模块尝试做类似以下 python 行的事情 os path isdir path 这是一种在 Unix 和 Windows 上都适用的方式无需任何外部
文件系统和 Memcached 哪个缓存更快/更好？

我认为我还不清楚从文件或从 memcached 读取内容更快吗为什么 Memcached 速度更快但内存有限 HDD 很大但 I O 速度比内存慢你应该把memcached 最热门的东西 and 所有其他人 can go 缓存文件
找不到全局类型 CallableFunction

这是一个基本汇编脚本项目但我在 tsconfig json 文件中遇到此错误消息 extends assemblyscript std assembly json include ts 这是我的 package json devDepen
如何在 nltk 中使用 hunpos 标记文本文件？

有人可以帮我解决在 nltk 中标记语料库的 hunpos 语法吗我要导入什么hunpos HunPosTagger module http nltk googlecode com svn trunk doc api nltk tag h
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
我们如何获取不同文件系统使用的文件分隔符？

大家下午好据我了解 Android 有至少 2 个文件系统一个用于内部存储例如 data和 system 另一个用于外部存储例如 mnt sdcard 这意味着当我们将文件保存到内部存储时 Context getFil
如何下载 NLTK 数据？

更新的答案 NLTK 适用于 2 7 我有3 2 我卸载了3 2并安装了2 7 现在可以了我已经安装了 NLTK 并尝试下载 NLTK 数据我所做的是按照该网站上的说明进行操作 http www nltk org data html h
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
是否从页面缓存中的脏页面进行文件读取？

当字节写入文件时内核不会立即将这些字节写入磁盘而是将这些字节存储在页缓存中的脏页中回写缓存问题是如果在脏页刷新到磁盘之前发出文件读取则将从缓存中的脏页提供字节还是首先将脏页刷新到磁盘然后进行磁盘读取以提供字节将它们存储在进
如果 DirectoryInfo.GetFiles().Length 超过 Int32.MaxValue 怎么办？

由另一个question https stackoverflow com questions 3766540 error on maximum number of files 3767265 3767265关于文件夹中的最大文件数我注意到

随机推荐

由于 GCM SenderId Android 无法生成 APK 版本

我在我的应用程序中实现了 GCM Google Cloud Messaging Google Play 服务库已自动生成values xml其中我的senderId is
如何在android VideoView中显示Youtube视频？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在使用 android 应用程序
使用 Jquery 更改选择值

我正在尝试使用 Jquery 更改表单中选择输入的值但是当它更改时该更改的函数不起作用 HTML
servlet 的根 URl

我想从其中一个 servlet 获取 Web 应用程序的根 url 如果我将应用程序部署在 www mydomain com 中我想获得像 http www mydomain com http www mydomain com 同样的事情
使用 Neo4j 的 Cypher 返回我的朋友和朋友的朋友

我有具有双向关系的节点如下我正在尝试创建一个查询我想返回特定节点的所有后续节点及其后续节点的后续节点 3 希望深度例如假设这些关系 gt 符号跟随 A gt B B gt A B gt C C gt B C gt D D gt C
Spring Data Mongo - 如何映射继承的 POJO 实体？

我对 Spring 还很陌生但我想在这个项目上尝试一下我有一个 MongoDB 数据库其中填充了相当复杂的文档我想使用 Spring data Mongo 来查询没有其他 CRUD 操作数据库我已经使用 POJO 描述了我的文
如何一次处理 RxJS 流 n 个项目，并在完成一个项目后，再次自动填充回 n 个项目？

我有一个事件流我想调用一个函数为每个事件返回一个承诺问题是这个函数非常昂贵所以我想一次最多处理 n 个事件这个卵石图可能是错误的但这就是我想要的 x x xxxxxxx x gt Events p p pppp p p p p
从版本控制中检出项目失败

我正在 Mac 上使用 Android Studio 1 0 2 为 Google Glass 开发应用程序我一直在尝试从 Google 在 github 上提供的推荐项目之一开始但我遇到了问题说明显示要打开 Android Stud
如何知道两个向量之间的角度？

我正在用 pygame 制作小游戏并且制作了一把围绕其中心旋转的枪我的问题是我想让枪自行旋转到敌人的方向但我无法做到这一点因为我找不到枪和敌人之间的角度来使枪旋转到敌人的方向我搜索过发现我必须使用atan2但我没有找到任何工作代
pyinstaller不显示图像和图标

我阅读了许多关于如何通过修改规范文件来包含图像和图标的教程尽管我无法成功我编写了一个程序我想使用 pyinstaller 使其可执行并在其他计算机上运行它 pyinstaller 不包含主 exe 文件中的图像和图标文件当我在自己的
默认情况下，核心数据获取 (NSFetchRequest) 是否以任何特定方式排序？

我有一个基本问题假设您有一个 NSFetchRequest 想要在 NSManagedObjectContext 上执行如果获取请求没有显式设置任何排序描述符那么对象每次都是随机的还是会按照最初添加到托管对象上下文的顺序将其吐出到数
WCF GZip 压缩请求/响应处理

如何让 WCF 客户端处理已被 IIS GZipped 或 Deflated 的服务器响应在 IIS 上我按照说明进行操作here http weblogs asp net owscott archive 2004 01 12 5791
使用 SoapUI 和 Windows 身份验证测试 Web 服务

是否可以包含 Windows 域凭据来使用 SOAP UI 测试我的 Web 服务我找到了一个属性页但 IIS 只是响应错误的凭据 SoapUI 似乎不能直接使用 NTLM 身份验证但您可以使用 Burp Suite 等代理来为您进
使用 Cucumber JVM 运行测试时出现 UndefinedStepException

我使用 Cucumber Junit Appium 开发移动应用程序的测试当我尝试使用 Cucumber 和 JUnit runner 运行测试时我收到 io cucumber junit UndefinedStepException
如何将基本身份验证添加到 Amazon Elastic Beanstalk 上托管的 Python REST API？

我使用 Python Flask 开发 HTTP REST API 该 API 托管在 Amazon Elastic Beanstalk 平台 Python 3 4 上为了确保 API 的安全我想为其添加基本身份验证第一种方法是直接在
用于演示 Android 中 Sociallibs 不同功能的示例项目/教程

关于社交库 http www androidlibs com sociallib html http www androidlibs com sociallib html http code google com p sociallib w
Corda：大型序列化事务大小：当前序列化设计是否有替代方案？

在我看来当前版本的 Corda 3 1 通过 BLOB 将签名的交易存储为 Java 类的序列化字节数组SignedTransaction The SignedTransaction is a WireTransaction 即包含表
如何确定给定的 int64_t 是否可以无损存储在 double 中？

我想确定给定的 64 位整数是否可以无损存储在双精度数中现在我有这个代码 static cast
如何在 XML 站点地图中添加注释

我想在手动生成的 XML 站点地图中添加评论标签来对 URL 进行分组如下所示
NLTK 资源的 Pyodide 文件系统：丢失文件

我正在尝试使用NLTK https www nltk org 在浏览器中感谢pyodide https pyodide org en stable Pyodide 启动良好成功加载 NLTK 打印其版本尽管如此虽然包下载看起来不错

NLTK 资源的 Pyodide 文件系统：丢失文件

NLTK 资源的 Pyodide 文件系统：丢失文件 的相关文章

随机推荐

热门标签

NLTK 资源的 Pyodide 文件系统：丢失文件的相关文章