我用 PageRank 制作了一个可以在我的计算机上运行的小型搜索引擎的原型。我有兴趣在其之上构建一个知识图,它应该只返回在正确上下文中的查询网页,类似于谷歌如何找到搜索问题的相关答案。我看到了很多关于知识图的宣传,但没有很多文献,而且几乎没有像构建知识图的指南这样的伪代码。有谁知道有关此类知识图在内部如何工作的良好参考资料,这样就无需创建有关知识图谱的模型?
知识图谱是一个流行词。它是为实现结果而组合的模型和技术的总和。
您旅程的第一站始于自然语言处理 http://en.wikipedia.org/wiki/Natural_language_processing, 本体论 http://en.wikipedia.org/wiki/Ontology_learning and 文本挖掘 http://en.wikipedia.org/wiki/Text_mining。人工智能是一个广阔的领域,去here http://soda.swedish-ict.se/3600/1/SICS-T--2009-06--SE.pdf进行该领域的研究调查。
在构建自己的模型之前,我建议您使用专用工具箱尝试不同的标准算法,例如gensim https://radimrehurek.com/gensim/。您将了解 tf-idf、LDA、文档特征向量等。
我假设您想使用文本数据,如果您想使用其他图像进行图像搜索,那就不同了。音频部分也一样。
构建模型只是第一步,谷歌知识图最困难的部分是实际上每天扩展到数十亿个请求......
一个好的处理管道可以“轻松地”构建在阿帕奇火花 https://spark.apache.org/、“当前一代 Hadoop”。它提供了一个有弹性的分布式数据存储,如果您想扩展,这是必需的。
如果您想将数据保留为图表,就像图论(如 pagerank)中那样,用于实时查询,我建议您使用Bulbs http://bulbflow.com/overview/这是一个“类似于图形的 ORM,但不是 SQL,而是使用图形遍历语言 Gremlin 来查询数据库”的框架。例如,您可以将后端从 Neo4j 切换到 OpenRDF(如果您做本体论,则很有用)。
对于图形分析,您可以使用 Spark,GraphX https://spark.apache.org/graphx/模块或GraphLab https://dato.com/products/create/.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)