加载 word2vec 时出现 UnicodeDecodeError 错误

2024-03-16

详细描述

我开始使用词嵌入，并发现了大量有关它的信息。到目前为止，我知道我可以训练自己的词向量或使用以前训练过的词向量，例如 Google 或 Wikipedia 的词向量，这些向量可用于英语，但对我来说没有用，因为我正在处理以下语言中的文本巴西葡萄牙语。因此，我继续寻找葡萄牙语中预先训练的词向量，最终发现Hirosan 的预训练词嵌入列表 http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/这把我带到了Kyubyong的词向量 https://github.com/Kyubyong/wordvectors从中我了解到 Rami Al-Rfou 的Polyglot https://sites.google.com/site/rmyeid/projects/polyglot。下载完两者后，我一直试图简单地加载词向量，但没有成功。

简短的介绍

我无法加载预先训练的词向量；我在尝试词向量 https://github.com/Kyubyong/wordvectors and Polyglot https://sites.google.com/site/rmyeid/projects/polyglot.

下载

Kyubyong 的预训练 word2vector 格式葡萄牙语单词向量 https://drive.google.com/open?id=0B0ZXk88koS2KRDcwcV9IVWFTeUE;
Polyglot 的葡萄牙语预训练词向量 https://doc-0g-54-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/c1ch6rdnp89glqmi8g81ev2somslu7cs/1527537600000/10341224892851088318/*/0B5lWReQPSvmGNEh0VTdmSHlHZ1k?e=download;

加载尝试

奎平的词向量 https://github.com/Kyubyong/wordvectors第一次尝试：按照建议使用 GensimHirosan http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/;

from gensim.models import KeyedVectors
kyu_path = '.../pre-trained_word_vectors/kyubyong_pt/pt.bin'
word_vectors = KeyedVectors.load_word2vec_format(kyu_path, binary=True)

并返回错误：

[...]
File "/Users/luisflavio/anaconda3/lib/python3.6/site-packages/gensim/utils.py", line 359, in any2unicode
return unicode(text, encoding, errors=errors)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

下载的 zip 还包含其他文件，但它们都返回类似的错误。

Polyglot https://sites.google.com/site/rmyeid/projects/polyglot第一次尝试：以下艾尔福斯的指示 http://nbviewer.jupyter.org/gist/aboSamoor/6046170;

import pickle
import numpy
pol_path = '.../pre-trained_word_vectors/polyglot/polyglot-pt.pkl'
words, embeddings = pickle.load(open(pol_path, 'rb'))

并返回错误：

File "/Users/luisflavio/Desktop/Python/w2v_loading_tries.py", line 14, in <module>
    words, embeddings = pickle.load(open(polyglot_path, "rb"))

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd4 in position 1: ordinal not in range(128)

第二次尝试：使用Polyglot 的词嵌入加载函数 https://polyglot.readthedocs.io/en/latest/Embeddings.html;

首先，我们必须通过 pip 安装多语言：

pip install polyglot

现在我们可以导入它：

from polyglot.mapping import Embedding
pol_path = '.../pre-trained_word_vectors/polyglot/polyglot-pt.pkl'
embeddings = Embedding.load(polyglot_path)

并返回错误：

File "/Users/luisflavio/anaconda3/lib/python3.6/codecs.py", line 321, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

额外的信息

我在 MacOS High Sierra 上使用 python 3。

解决方案

奎平的词向量 https://github.com/Kyubyong/wordvectors正如所指出的阿尼什·乔希 https://stackoverflow.com/a/50579950?noredirect=1，加载Kyubyong模型的正确方法是调用Word2Vec的原生加载函数。

from gensim.models import Word2Vec
kyu_path = '.../pre-trained_word_vectors/kyubyong_pt/pt.bin'
model = Word2Vec.load(kyu_path)

尽管我非常感谢 Aneesh Joshi 的解决方案，但多语言似乎是使用葡萄牙语的更好模型。关于那个有什么想法吗？

对于 Kyu Yong 的预训练 word2vec .bin 文件：它可能已使用 gensim 保存功能保存。

“加载模型load(). Not load_word2vec_format（这是为了 C 工具兼容性）。”

i.e., model = Word2Vec.load(fname)

让我知道这是否有效。

参考：Gensim 邮件列表 https://groups.google.com/forum/#!msg/gensim/gZ0BRnETMnw/m4WnXSyZFdcJ

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

加载 word2vec 时出现 UnicodeDecodeError 错误的相关文章

从 Django 调用 Postgres SQL 存储过程

我正在开发一个带有 Postgresql 数据库的 Django 项目我编写了一个可以在 Postgres 上完美运行的存储过程现在我想从 Django 1 5 调用该存储过程我已经编写了代码但它提示错误 CREATE FUNCTI
有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
从 SHAP 值中获取特征重要性

我想要获得重要功能的数据框通过下面的代码我得到了 shap values 但我不确定这些值的含义是什么在我的 df 中有 142 个特征和 67 个实验但得到了一个带有 ca 的数组 2500 个值 explainer shap T
上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有

随机推荐

如何设置自定义编辑文本中的最小文本大小？

我正在使用这个自定义 EditText 它会自动调整 EditText 内的文本大小它工作得很好但是文本在换行之前变得太小了如何设置最小文本大小这样只有当文本大小达到 12sp 时才换行 public class FontFitT
Guava CacheBuilder：暗示实体删除的附加条件

I want 尝试使用静态类是外部条件方法
使用 gradle 构建 android 应用程序时 Lint 失败

我用 android studio 创建了一个应用程序但每次我尝试使用命令gradle build构建应用程序时它显示 lint failed 当我检查 gradle build 的调试信息时它说 21 10 26 215 DEBUG
Lua：字符串中的换行符

我一直在开发一个格式化程序它将接受一个长字符串并将其格式化为一系列在特定字符限制内的单词处断开的行例如他吃面包每 8 个字符断开一次将返回类似以下内容的内容 He eats the bread 这是因为 He eats 包含 7 个
如何使用 VBA 在众多文本 .log 文件之一中查找特定字符串？

这是我迄今为止查找文件夹中所有日志文件的代码但我需要能够在每个文件中找到特定的字符串如果在一个文件中找到它则停止查找并退出循环并报告它所在的文件名打开文件和搜索文件的方法似乎有很多我不知道哪种方法最好而且我通常不使用 VBA 但
正向lookbehind后跟逗号分隔列表

我正在寻找是否有一种方法可以在积极的向后查找之后为每个逗号分隔的列表获取匹配组例如 summertime swimming running tanning 正则表达式到目前为止 lt summertime s Returns swimm
libVLCSharp 无法创建 MediaList

我正在玩 libVLCSharp 发现了一个有线行为实际上我创建媒体并使用 MediaPlayer 播放它没有任何问题但是当我尝试从 MediaList 创建媒体时它会中断并显示以下消息无法在本机端执行实例化确保你在您的系统
WIF 中的主动和被动联合

我试图了解 WIF 中主动联合和被动联合之间的区别如果依赖方 RP 是 WCF 服务而不是 ASP NET 应用程序则似乎可以使用主动联合如果 RP 是 ASP NET 应用程序则可以使用被动联合这准确吗因此在 ASP NET
Django 中不同应用程序的不同数据库[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我的 Django 站点中有多个应用
组织 Javascript 库和 CSS 文件夹结构的最佳实践[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案如何在 Web 应用程序中组织 js 和 css 文件夹我当前的项目结构是这样的 root assets js lib css img ind
Apache Commons JCI 重新加载类加载器

有人有使用 Apache Commons JCI API 的 ReloadingClassLoader 的经验吗唯一的使用示例可以在以下页面中找到 http commons apache org jci usage html http c
如何在 UIWebview 中保存本地加载的 HTML 文件

我正在使用 UIWebView 编写一个富文本编辑器为此我使用了一个模板文件作为启动器然后当用户完成编辑但尚未发布时我想将当前内容保存到备份 html 文件中以防应用程序损坏我怎么做给你伙计 NSFileHandle fi
有没有办法阻止 HTML access key="" 被激活？

I tried preventDefault 但我还没有成功我缺少什么吗如果可能的话我会尝试全局禁用它例如在window 似乎没有办法阻止事件触发唯一的选择似乎是在您不希望它们工作时暂时删除 accesskey 属性就是这样jQ
csproj 文件中元素的用途是什么

当我编辑 Web 应用程序项目时 Visual Studio 2017 15 3 1 添加
Angular 4 setTimeout() 具有可变延迟和等待

我有一个事件列表timestamp 我想要的是根据timestamp 添加延迟 delay timestamp t 1 timstamp t 我知道这不太适合setTimeout 但是有一个解决方法如果超时是恒定的但在我的情况下不是是
创建 Openstreetmap 提取的 mbtiles 文件的最简单方法？

我正在创建一个使用在线和离线地图的 iPhone 旅行应用程序对于离线地图我希望允许用户下载他们感兴趣的区域例如伦敦的 mbtiles 文件该地图应包含已在 OpenStreetmap 中找到的道路等信息我知道以下网站http
pandas groupby 根据条件替换

我有一个数据集结构如下 index country city Data 0 AU Sydney 23 1 AU Sydney 45 2 AU Unknown 2 3 CA Toronto 56 4 CA Toronto 2 5 CA Ott
Flutter：升级Play商店版本号

我已经使用 flutter 在 Play 商店上发布了一个应用程序现在我想上传该应用程序的新版本我正在尝试更改版本代码 flutter 构建 apk build name 1 0 2 build number 3 或像这样更改 loca
如何在 Java 中检查文件权限（独立于操作系统）

我有以下代码片段 public class ExampleClass public static void main String args throws FileNotFoundException String filePath args
加载 word2vec 时出现 UnicodeDecodeError 错误

详细描述我开始使用词嵌入并发现了大量有关它的信息到目前为止我知道我可以训练自己的词向量或使用以前训练过的词向量例如 Google 或 Wikipedia 的词向量这些向量可用于英语但对我来说没有用因为我正在处理以下语言中的文

加载 word2vec 时出现 UnicodeDecodeError 错误

加载 word2vec 时出现 UnicodeDecodeError 错误 的相关文章

随机推荐

热门标签

加载 word2vec 时出现 UnicodeDecodeError 错误的相关文章