我想构建一个允许用户上传的网络应用程序文件, videos, images, music,然后赋予他们搜索它们的能力。把它想象成Dropbox+ 语义搜索。
当用户上传新文件时,例如文档1.docx,如何根据文件内容自动生成标签?换句话说,不需要用户输入来确定文件的内容。如果假设文档1.docx是一篇关于数据挖掘的研究论文,那么当用户搜索数据挖掘, or 研究论文, or 文件1,该文件应该在搜索结果中返回,因为数据挖掘 and 研究论文很可能是该给定文档的潜在自动生成标签。
1. 对于这个问题,你会推荐哪些算法?
此类任务最常见的无监督机器学习模型是潜在狄利克雷分配 http://en.wikipedia.org/wiki/Latent_dirichlet_allocation(LDA)。该模型根据文档中的单词自动推断文档语料库中的主题集合。在您的文档集上运行 LDA 会在您搜索某些主题时将具有概率的单词分配给这些主题,然后您可以检索与该单词相关的概率最高的文档。
图像和音乐也有一些扩展,请参阅http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf.
LDA 在多种语言中都有多种有效的实现:
- 来自原始研究人员的许多实现 http://www.cs.princeton.edu/~blei/topicmodeling.html
-
http://mallet.cs.umass.edu/ http://mallet.cs.umass.edu/,用 Java 编写并由 SO 上的其他人推荐
-
PLDA http://code.google.com/p/plda/:快速、并行的 C++ 实现
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)