我希望我的网站能够在用户将链接粘贴到邮箱时提取有关网页的信息,类似于 Facebook。
我想知道像 Google、Reddit 和 Facebook 这样的网站如何能够仅通过 URL 来检索缩略图、标题和描述。
有人知道他们是如何做到这一点的吗?
基本算法相当简单:获取页面,分析内容,提取文本&图像&标题&其他内容,构建预览。
然而,对于特定的用例来说存在很多困难。菜单、横幅和添加、文本结构——大量不同的细节需要非常严格的处理。 AFAIK 没有算法可以在 100% 的情况下解决这个任务(是的,谷歌和其他算法并不完美)。
关于 Reddit。由于它是开源的,您可以找到他们到底是如何做的。
这是您要查找的代码:https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py
Yandex 拥有允许执行相同操作的 API。你可以找到更多here http://api.yandex.com/rca/ and here http://api.yandex.com/rca/doc/dg/.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)