我需要做一个关于计算语言学课程的项目。是否有任何有趣的“语言”问题,其数据密集程度足以使用 Hadoop MapReduce 来解决。解决方案或算法应尝试分析并提供“语言”领域的一些见解。但是它应该适用于大型数据集,以便我可以使用 hadoop。我知道hadoop有一个python自然语言处理工具包。
如果您拥有某些“不寻常”语言的大型语料库(即“已对其执行了有限数量的计算语言学”),请重复一些已针对非常流行的语言(例如英语、中文、阿拉伯语,...)是一个非常合适的项目(特别是在学术环境中,但它也可能非常适合工业界——当我在 IBM 研究中心从事计算语言学工作时,我通过整理一个语料库获得了有趣的成果意大利语,并重复 [[在罗马相对较新的 IBM 科学中心]] 与约克敦高地的 IBM 研究团队 [[我曾参与其中]] 已经为英语所做的工作非常相似。
艰苦的工作通常是找到/准备这样的语料库(这绝对是我当时工作中最重要的部分,尽管意大利 IBM 竭尽全力帮助我与拥有相关数据的出版公司取得联系)。
因此,这个问题迫在眉睫,只有您才能回答:您可以访问或可以获得哪些语料库(并进行清理等),特别是在“不寻常”的语言中?如果你所能做的就是,例如英语,使用已经流行的语料库,那么做新颖有趣的工作的机会当然会更难,尽管当然可能有一些。
顺便说一句,我假设您正在严格考虑处理“书面”文本,对吗?如果你有一个语料库spoken材料(理想情况下with好的成绩单),机会将是无穷无尽的(在处理口语文本方面的工作要少得多,例如,在同一书面文本上参数化不同母语人士的发音变体——事实上,这些问题通常甚至不是提及在本科 CL 课程中!)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)