检测外来词

2024-01-02

我正在编写一个脚本来检测语言 A 中来自语言 B 的单词。这两种语言非常相似，并且可能具有相同单词的实例。

如果您对我目前掌握的内容感兴趣，代码就在这里：https://github.com/arashsa/language-detection.git https://github.com/arashsa/language-detection.git

我将在这里解释我的方法：我创建了 B 语言的二元组列表和 A 语言的二元组列表（B 语言的小语料库，A 语言的大语料库）。然后我删除所有常见的二元组。然后我浏览 A 语言的文本，并使用二元组检测 A 语言中的这些文本并将它们存储在文件中。然而，这种方法发现了许多两种语言共有的单词，并且还发现了奇怪的二元组，例如彼此相邻的两个国家的名称，以及其他异常情况。

你们有什么建议、阅读材料、我可以使用的 NLP 方法吗？

如果您的方法返回两种语言中存在的单词，并且您只想返回一种语言中存在的单词，则您可能需要创建一个列表一克语言 A 中的单词和语言 B 中的一元语法，然后删除两者中的单词。然后，如果您愿意，您可以继续进行二元分析。

也就是说，Python 中有一些很好的语言识别工具。我发现了lang-id成为最好的之一。它预先训练有超过 90 种语言的语言分类器，并且如果您愿意的话，可以很容易地训练其他语言。这里有docs https://github.com/saffsd/langid.py。还有猜测语言 https://pypi.python.org/pypi/guess-language，但在我看来它的表现并不好。根据外语位的本地化程度，您可以尝试以适当的粒度级别对文本进行分块，并通过（例如）langid 的分类器运行这些分块。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

检测外来词的相关文章

Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户

随机推荐

执行存储过程时，使用 CommandType.StoredProcedure 与使用 CommandType.Text 相比有什么好处？

因此在 C 中使用存储过程我有如下代码连接代码省略 string sql GetClientDefaults SqlCommand cmd new SqlCommand sql cmd CommandType CommandType S
Qt 和 OpenCV 的高效集成

我正在开发一个交互式应用程序它需要一次读取和操作几个非常大的图像一次 25 个图像总大小大约 350 Mb OpenCV 速度相当快处理算法也相对容易但事实证明用 Qt 绘制它们是一个问题这是我尝试过的两种不太理想的解决方案
Spring 3 SimpleMappingExceptionResolver warnLogCategory log4j
SKStoreProductViewController 显示开发人员的应用程序

我在用着SKStoreProductViewController实现更多应用程序功能但是当我点击列表中的产品时我只看到空白屏幕控制台中还有警告无法请求视图控制器错误域 UIViewServiceInterfaceErrorDo
将平面 PHP 数组转换为基于数组键的嵌套数组？

我需要将一个平面数组转换为一个嵌套数组其中数组键指示结构其中父元素变为元素零即在示例中 education x 1 Georgia Tech 需要将其转换为 education 1 0 Georgia Tech 这是一个输入数组示例
将样式应用于 Material2 组件不起作用

我有一个
尝试用GCD创建一个精确的计时器

我正在尝试制作一个需要非常精确的计时器的音乐应用程序它需要与背景音乐同步我还需要在用户界面上将计时器显示为进度条我最初是从NSTimer 事实证明根本不准确关闭时间超过 20 毫秒我转向 GCD 但我似乎也无法让它发挥作用这是我
在“托管到本地的过渡”期间到底发生了什么？

我知道 CLR 在某些情况下需要进行封送处理但假设我有 using System Runtime InteropServices using System Security SuppressUnmanagedCodeSecurity st
在 Matlab 中重命名 Excel 工作表名称

我正在使用 Matlab 创建 Excelxlswrite功能如何更改此 Excel 文档的第一张工作表的名称我已经阅读了官方的matlab帮助但我还没有找到任何解决方案您可以直接从 MATLAB 使用 ActiveX xlswri
故事板中 UIButton 的自动收缩设置

Storyboard中有一个UILabel的设置可以设置自动收缩配置如下所示但我无法找到 UIButton 的文本标签的相同内容我知道我可以通过编程方式设置此设置但很想知道是否有办法在 Storyboard 中为 UIButton
如何使用grails中的操作按钮传递参数

执行操作的按钮出现问题我有几个btns 我想知道它的参数在 grails 教程中它说应该是这样的
如何将 llvm::outs() 重定向到文件？

我正在使用一些 LLVM 工具例如llvm nm 作为静态库 IE 我复制了源llvm nm cpp 重命名main to llvm nm 并将其编译为静态库我想将标准输出转发到我的文件我尝试使用下一个方法 int out fd er
Django：使用 django 表单创建 HTML 输入数组

我正在尝试自动创建这样的东西
Android：为什么我不能在 onCreate 方法之外的按钮上调用 setOnClickListener 方法？

这是一个新手问题但为什么我不能在 onCreate 方法之外的按钮上调用 setOnClickListener 方法例如为什么我不能这样做或者也许 Eclipse 只是没有在 onCreate 方法之外暗示 setOnClickLi
我可以将 CloudKit 数据传输到新容器吗？

我正在制作一个 CloudKit 应用程序我面临着选择将数据存储在只能由该应用程序访问的默认容器中还是存储在可以共享数据的自定义容器中目前我只需要该应用程序来访问数据因此我可能会将数据放入默认容器中但是如果最终我想从不同的应用程
将数组/列表传递给 Python 函数

我一直在考虑将数组或列表 Python 倾向于这样称呼它们传递到函数中我读到了一些关于使用 args 的内容例如 def someFunc args for x in args print x 但不确定这是对还是错似乎没有什么能如我
我想抓取Yammer上每个组的所有消息（包括所有公司组）

我们正在尝试使用以下命令抓取 Yammer 上每个组包括所有公司组的所有消息https www yammer com api v1 messages json group id https www yammer com api v1 m
温斯顿中的纯文件日志记录

我只想将数据而不是日志级别时间戳等记录到文件中 var logger new winston Logger transports new winston transports File
在 keras 中，如何使用自定义对象克隆模型？

我有一个带有自定义激活的模型因此 model2 keras models clone model model 给出一个错误我可以使用加载保存的模型自定义对象关键字但我没有看到这样的选项克隆模型除了重新制作模型和转移权重之外还有其他
检测外来词

我正在编写一个脚本来检测语言 A 中来自语言 B 的单词这两种语言非常相似并且可能具有相同单词的实例如果您对我目前掌握的内容感兴趣代码就在这里 https github com arashsa language detection

检测外来词

检测外来词 的相关文章

随机推荐

热门标签

检测外来词的相关文章