我正在开发我的第一个 Python 项目,并且拥有相当大的数据集(数十万行)。我需要对 5 个文本列(每个“单元格”有多个文本句子)进行一些 nlp(聚类、分类),并且一直在使用 pandas 来组织/构建数据集。我希望对所有 nlp 使用 spaCy,但不太清楚如何对我的列中的文本进行标记。我读过很多 spaCy 文档,并用 google 搜索过,但我找到的所有示例都是针对单个句子或单词的,而不是 pandas df 中的 75K 行。
我尝试过类似的事情:df['new_col'] = [token for token in (df['col'])]
但肯定会感谢一些帮助/资源。
完整的(虽然混乱)代码可以在这里找到 https://github.com/LizMGagne/TIP_code/blob/master/TIP%20Stuff%20(2).ipynb
我从未使用过 spaCy(nltk 总是为我完成工作),但从文档来看,它看起来应该可以工作:
import spacy
nlp = spacy.load('en')
df['new_col'] = df['text'].apply(lambda x: nlp(x))
注意nlp
默认情况下运行整个 SpaCy 管道,其中包括词性标记、解析和命名实体识别。您可以使用以下方法显着加快代码速度nlp.tokenizer(x)
代替nlp(x)
,或者在加载模型时禁用部分管道。例如。nlp = spacy.load('en', parser=False, entity=False)
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)