使用 python 有效提取 1-5 克

2024-01-27

我有一个 3,000,000 行的巨大文件，每行有 20-40 个单词。我必须从语料库中提取 1 到 5 个 ngram。我的输入文件是标记化的纯文本，例如：

This is a foo bar sentence .
There is a comma , in this sentence .
Such is an example text .

目前，我正在按如下方式进行操作，但这似乎不是提取 1-5 克的有效方法：

#!/usr/bin/env python -*- coding: utf-8 -*-

import io, os
from collections import Counter
import sys; reload(sys); sys.setdefaultencoding('utf-8')

with io.open('train-1.tok.en', 'r', encoding='utf8') as srcfin, \
io.open('train-1.tok.jp', 'r', encoding='utf8') as trgfin:
    # Extract words from file. 
    src_words = ['<s>'] + srcfin.read().replace('\n', ' </s> <s> ').split()
    del src_words[-1] # Removes the final '<s>'
    trg_words = ['<s>'] + trgfin.read().replace('\n', ' </s> <s> ').split()
    del trg_words[-1] # Removes the final '<s>'

    # Unigrams count.
    src_unigrams = Counter(src_words) 
    trg_unigrams = Counter(trg_words) 
    # Sum of unigram counts.
    src_sum_unigrams = sum(src_unigrams.values())
    trg_sum_unigrams = sum(trg_unigrams.values())

    # Bigrams count.
    src_bigrams = Counter(zip(src_words,src_words[1:]))
    trg_bigrams = Counter(zip(trg_words,trg_words[1:]))
    # Sum of bigram counts.
    src_sum_bigrams = sum(src_bigrams.values())
    trg_sum_bigrams = sum(trg_bigrams.values())

    # Trigrams count.
    src_trigrams = Counter(zip(src_words,src_words[1:], src_words[2:]))
    trg_trigrams = Counter(zip(trg_words,trg_words[1:], trg_words[2:]))
    # Sum of trigram counts.
    src_sum_trigrams = sum(src_bigrams.values())
    trg_sum_trigrams = sum(trg_bigrams.values())

还有其他方法可以更有效地做到这一点吗？

如何同时最优地提取N个不同的ngram？

From 在 python 中快速/优化 N-gram 实现 https://stackoverflow.com/questions/21883108/fast-optimize-n-gram-implementations-in-python，本质上是这样的：

zip(*[words[i:] for i in range(n)])

当对二元组进行硬编码时，n=2:

zip(src_words,src_words[1:])

这是卦象吗？n=3:

zip(src_words,src_words[1:],src_words[2:])

如果您只对最常见（常见）感兴趣n-grams（我想这是你的情况），你可以重用的中心思想Apriori算法 http://en.wikipedia.org/wiki/Apriori_algorithm. Given s_min，最小支持度可以被认为是给定的行数n-gram 包含在，它有效地搜索所有此类n-grams.

想法如下：编写一个查询函数，它接受一个n-gram 并测试它在语料库中包含的次数。准备好这样的函数后（可能会像后面讨论的那样进行优化），扫描整个语料库并获取所有1-grams，即裸令牌，并选择至少包含的那些s_min次。这给了你子集F1频繁的1-克。然后测试所有可能的情况2-grams 通过组合所有1-克来自F1。再次选择那些持有s_min标准，你会得到F2。通过结合所有2-克来自F2并选择频繁出现的3-克，你会得到F3。重复只要Fn是非空的。

这里可以进行很多优化。组合时n-克来自Fn，你可以利用这样一个事实n-grams x and y只能组合形成(n+1)-gram 当且仅当x[1:] == y[:-1]（可以在恒定时间内检查任何n如果使用正确的散列）。此外，如果你有足够的 RAM（对于你的语料库来说，很多 GB），你可以极大地加快查询功能。对于每个1-gram，存储包含给定行索引的哈希集1-公克。组合两个时n-克成(n+1)-gram，使用两个对应集合的交集，获得一组线，其中(n+1)可以包含-gram。

时间复杂度增长为s_min减少。美丽就是那么罕见（因此无趣）n- 语法在算法运行时被完全过滤，仅节省频繁语法的计算时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 python 有效提取 1-5 克的相关文章

有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
PHP 和 NLP：嵌套括号（解析器输出）到数组？

想要将带有嵌套括号的文本转换为嵌套数组以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文我喜欢一大床

随机推荐

我已抑制 knit 输出中的警告，但警告并未按预期显示在 Rmarkdown 控制台中。我该如何看待这些？

我正在使用 Knit 和 rmarkdown 我在 pdf 输出中抑制了警告然后通常警告会在 rmarkdown 控制台中列出然而在一份特定报告的情况下我没有得到 rmarkdown 控制台中列出的警告而是收到以下消息有 15
具有紧轴和匹配纵横比的散景图像图

我在 Django 应用程序中使用 bokeh 1 0 1 版本我想将微观表面图像显示为具有颜色编码高度和颜色条的可缩放图像图原则上这是可行的但我在获取具有正确纵横比的绘图时遇到问题仅显示图像而周围没有空间这是我想要实现的示例结
什么是服务总线？我什么时候需要服务总线？

我听说过关于N服务总线 http particular net nservicebus 但我还没有真正理解它是什么他们声称自己是最流行的 net 开源服务总线什么是服务总线我什么时候需要服务总线您可以将服务总线视为 SOA 面向服
通过虚拟地址刷新/无效范围； ARMv8；缓存;

我正在为 32 位模式下运行的 ARMv8 Cortex A53 实现缓存维护功能当我尝试使用虚拟地址 VA 刷新内存区域时出现问题 DCacheFlushByRange看起来像这样 some init kDCacheL1 0 kDCac
如何更新 PostgreSQL 中的大量行？

我需要更新表中的数千行例如我有 1000 行 id 为 1 2 1000 mytable id value1 value2 1 Null Null 2 Null Null 1000 Null Null 现在我需要更改前 10 行我可以
PHP数据库不会保存数据

我有从视频教程系列中获得的以下代码我听说下面的代码的某些部分被认为是不好的做法我一直试图让它保存我的注册信息但它不起作用它可以很好地检测填写表单时的错误它还显示请登录以开始当我正确提交所有内容时但它不会将任何数据保存到数据库
XAML 解析异常：属性 {StaticResource PhoneAccentBrush} 值超出范围

我遇到异常问题找不到如何修复它的答案属性 StaticResource PhoneAccentBrush 值超出范围 System Windows Application LoadComponent this new System Ur
具有可选参数的 ViewComponent

我正在创建一组代表不同视图上的过滤器的视图组件到目前为止它们工作得很好但我不明白我所经历的这种行为如果我使用声明两个 InvokeAsync public async Task
我如何从 Rational（或任何没有构造函数的类）继承？

我可以很容易地继承比如说 String例如像这样 class MyString lt String def stuff self and stuff end end This works MyString new things stuf
想要执行sp_send_dbmail并以excel格式发送结果

我想执行 sp send dbmail 并以 Excel 格式通过电子邮件发送结果我尝试过 csv 和 txt 但结果没有组织在整齐的列中这是我的代码 EXEC msdb dbo sp send dbmail profile name
当 Toolkit.getDefaultToolkit() 抛出 AWTError 时，如何在 Java 中读取图像？

我正在使用 Java 读取图像文件 java awt Image img Toolkit getDefaultToolkit createImage filePath 在某些系统上这不起作用它会抛出一个 AWTError 抱怨 sun a
Powershell、EWS、OAuth2 和自动化

我正在尝试查找有关如何使用 PowerShell 对 EWS 实施非交互式 Oauth2 身份验证的文档但我可能没有使用正确的搜索词因为我找不到任何有用的内容我在 OAuth2 上找到的 Microsoft 文档只有 C 文档那么
为什么不能使用同一个 Span 对象来 setSpan 两次？

为什么不能使用同一个 Span 对象来 setSpan 两次 SpannableString ss new SpannableString aaaaa 1 bbbb 1 cccc 1 我需要用图像替换所有 1 如果我使用以下代码则只有最后
使用 Airflow 执行频繁任务

我们使用 Airflow 一段时间了它非常棒现在我们正在考虑将一些非常频繁的任务也转移到我们的气流服务器中假设我每秒运行一个脚本使用气流安排它的最佳实践是什么在每秒计划的 DAG 中运行此脚本我非常怀疑这是否是解决方案 DAGR
更新页面以使用 Greasemonkey 添加新链接

大多数时候 JScript 都让我头疼但设计糟糕的网站更让我头疼 Foursquare 的超级用户就是这样的一个例子期望的结果一个 Greasemonkey 脚本它将检查 DIV 类的每次出现搜索结果以及 DIV 类之后name附
WindowsFormsHost 中的 ILScene

我正在尝试在 WPF 中的 WindowsFormsHost 控件中托管 ILPanel 这是我的代码 XAML
哪些手机支持哪种 J2ME（Java 微型版）规范？

我只是找不到关于哪些移动设备支持哪些 Java 的最新图表微版版本我特别感兴趣诺基亚智能手机以及他们对新事物的支持JME 3 0 我想知道Sun似乎没有提供此类信息如果您知道的话请给我一些链接 EDIT 我可能把事情搞混了 MIDP
返回带有字段名称而不是别名的 pydantic 模型作为 fastapi 响应

我试图用定义的字段名称而不是别名返回我的模型 class FooModel BaseModel foo str Field alias bar app get gt FooModel return FooModel bar baz 响应将是
jsTree 拖放按类限制文件夹

如何通过类名 class locked 锁定文件夹上的拖动功能同时锁定其他要拖到该文件夹中的文件夹class locked 我想要一个既具有拖放功能又具有上下文菜单的设置如果节点的类名锁定我只想禁用上下文菜单的编辑以及拖入此文件夹
使用 python 有效提取 1-5 克

我有一个 3 000 000 行的巨大文件每行有 20 40 个单词我必须从语料库中提取 1 到 5 个 ngram 我的输入文件是标记化的纯文本例如 This is a foo bar sentence There is a com

使用 python 有效提取 1-5 克

使用 python 有效提取 1-5 克 的相关文章

随机推荐

热门标签

使用 python 有效提取 1-5 克的相关文章