使用 Hadoop MapReduce 的计算语言学项目构想

2024-04-19

我需要做一个关于计算语言学课程的项目。是否有任何有趣的“语言”问题，其数据密集程度足以使用 Hadoop MapReduce 来解决。解决方案或算法应尝试分析并提供“语言”领域的一些见解。但是它应该适用于大型数据集，以便我可以使用 hadoop。我知道hadoop有一个python自然语言处理工具包。

如果您拥有某些“不寻常”语言的大型语料库（即“已对其执行了有限数量的计算语言学”），请重复一些已针对非常流行的语言（例如英语、中文、阿拉伯语，...）是一个非常合适的项目（特别是在学术环境中，但它也可能非常适合工业界——当我在 IBM 研究中心从事计算语言学工作时，我通过整理一个语料库获得了有趣的成果意大利语，并重复 [[在罗马相对较新的 IBM 科学中心]] 与约克敦高地的 IBM 研究团队 [[我曾参与其中]] 已经为英语所做的工作非常相似。

艰苦的工作通常是找到/准备这样的语料库（这绝对是我当时工作中最重要的部分，尽管意大利 IBM 竭尽全力帮助我与拥有相关数据的出版公司取得联系）。

因此，这个问题迫在眉睫，只有您才能回答：您可以访问或可以获得哪些语料库（并进行清理等），特别是在“不寻常”的语言中？如果你所能做的就是，例如英语，使用已经流行的语料库，那么做新颖有趣的工作的机会当然会更难，尽管当然可能有一些。

顺便说一句，我假设您正在严格考虑处理“书面”文本，对吗？如果你有一个语料库spoken材料（理想情况下with好的成绩单），机会将是无穷无尽的（在处理口语文本方面的工作要少得多，例如，在同一书面文本上参数化不同母语人士的发音变体——事实上，这些问题通常甚至不是提及在本科 CL 课程中！）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Hadoop MapReduce 的计算语言学项目构想的相关文章

生成易于记忆的随机标识符

与所有开发人员一样我们在日常工作中不断处理某种标识符大多数时候它与错误或支持票有关我们的软件在检测到错误后会创建一个包该包的名称由时间戳和版本号格式化这是创建合理唯一标识符以避免混淆包的一种廉价方法例子错误报告 20101
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
如何训练斯坦福 NLP 情感分析工具

地狱大家我正在使用斯坦福核心 NLP 包我的目标是对推文直播进行情感分析按原样使用情感分析工具对文本态度的分析非常差许多积极因素被标记为中性许多消极因素被评为积极我已经在文本文件中获取了超过一百万条推文但我不知道如何实际获
在 mongo 中，如何使用 Map Reduce 来按最近排序来获取组

我看到的 MapReduce 示例使用了诸如 count 之类的聚合函数但是使用 MapReduce 来获取每个类别中前 3 个项目的最佳方法是什么我假设我也可以使用 group 函数但很好奇因为他们声明分片环境不能使用 group
Python - Map/Reduce - 如何在使用 DISCO 计数单词示例中读取 JSON 特定字段

我正在按照 DISCO 示例来计算文件中的单词数将单词数作为 Map Reduce 作业 http discoproject org doc disco start tutorial html 我对此工作没有任何问题但是我想尝试从包含
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray

随机推荐

IE7
悬停之外的项目符号/数字

此处的另一篇文章的后续内容 IE7 li 项目符号或数字显示在 div 外部 https stackoverflow com questions 6076730 ie7 li bullet or number shown outside o
在大型 C++ 遗留应用程序中查找“死代码”[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我目前正在开发一个大型且古老的 C 应用程序在我之前已有许多开发人员项目中有很多死代码类和函数
PostgreSQL 序列的下一个值？

我的 Codeigniter 网站使用 PostgreSQL 我正在使用杂货杂货进行添加编辑和删除操作在进行编辑或添加时我想根据内容的 ID 动态重命名上传的文件我可以使用杂货做到这一点callback after upload功能
Python 中的嵌套函数如何工作？

def maker n def action x return x n return action f maker 2 print f print f 3 print f 4 g maker 3 print g 3 print f 3 st
嵌入.Net运行时

我是否可以嵌入 net 运行时以便主机操作系统不需要 net 我正在考虑用 Mono 来做到这一点如下所示 http mono project com Embedding Mono http mono project com Embed
创建具有任意数量参数的 python lmfit 模型

有没有办法根据具有任意数量因变量的函数构建 lmfit 模型例如 from lmfit import Model def my poly x params func 0 for i in range len params func par
如何在 Core Data 上下文之外使用 Core Data 模型子类？

我正在尝试在 Swift 中制作一个天气应用程序它将保存我添加到核心数据的城市每个城市都包含一个天气对象该对象也保存到核心数据和其他各种变量但我很快就发现在 Core Data 上下文之外使用 Core Data NSManage
Tensorflow 版本与 Tensorboard 版本

我想问一下tensorflow版本是否可以与tensorboard版本不同我有个问题 404 problem 有人建议安装一个新版本的张量板 https github com tensorflow tensorboard issues 9
通过 Android 应用程序安全地使用 Google Plus 登录 Web 应用程序

我正在开发一个 Android 应用程序我希望用户使用 Google 登录来登录我的应用程序目前我在 PHP 登录脚本中传递从 Google 获得的用户名该脚本使用用户 ID 加载新会话目前该网站非常不安全任何知道其他用户用户
如何在jstl中使用三元运算符编写if else条件？

我想在 JSTL 中使用三元写一个 if else 条件我是用jsp做的我的代码使用jsp 我怎样才能使用jstl实现它你的意思是表达语言 https stackoverflow com tags el info 简称 EL 因为这是
Maven 程序集插件未使用 FinalName 进行 Attach=true 安装？

我配置了以下程序集
在 bash 脚本中期望

我正在尝试将 Expect 脚本实现到 bash 脚本中请耐心等待因为我对 bash expect 还很陌生这是按预期工作的期望脚本 log user 0 file delete foo txt set fh open foo txt
什么是列表与数组列表？ [复制]

这个问题在这里已经有答案了这两个对象之间的根本区别是什么是不是效率更高还有更多方法吗 List是接口而ArrayList是类 See 数组列表 https docs oracle com javase 8 docs api java
Jquery 无法在加载的内容中工作

它似乎有一个简单的解决方案但我还无法弄清楚有一千个类似的主题但没有一个对我有用所以我以一种非常简单的方式问这个问题我有一个按钮假设按钮 A 我想在单击此按钮时加载外部页面的一部分加载该部分后有另一个按钮 B 在加载的内容内
Vim 滚动时保持光标位置

有没有办法在滚动时使 Vim gVim 中的 cusror 位置保持在屏幕外与许多 Windows 编辑器类似我了解标记并且确实使用它们我也知道标记最后编辑位置但正在寻找其他想法我问这个问题是因为有时我想将光标保留在某个位置
Symfony2：--重新安装问题

我一直在尝试为 Symfony2 安装 Buzz 我将其添加到 deps 文件中并尝试更新我的供应商 php bin vendors update 该命令只是告诉我我已经安装了标准版本并且我应该尝试使用 php bin vendors
使用三个 JS 和 React JS 加载 GLTF 模型

我使用 React JS 加载从 sketchfab 下载的 GLTF 文件时遇到问题当我尝试在不使用React 使用常规index html和index js 的情况下执行此操作时它可以工作但是当我将代码带入React应用程序时它
使用 Ember.js 为每个模型添加额外的 url 参数

我有两个模型 App Providers DS Model extend name DS attr string description DS attr string logo DS attr string products DS hasM
Get-AzureWebsite：找不到请求的值“动态”

我们有一组使用 Azure powershell cmdlet 的自定义 powershell 模块它们已经正常工作一年多了我刚刚设置了一台新计算机每当我尝试运行 Get AzureWebsite 时我都会收到以下错误 PS C W
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado

使用 Hadoop MapReduce 的计算语言学项目构想

使用 Hadoop MapReduce 的计算语言学项目构想 的相关文章

随机推荐

热门标签

使用 Hadoop MapReduce 的计算语言学项目构想的相关文章