我正在开发一个项目,该项目显示来自不同站点的 RSS 提要。
我将它们保存在数据库中,我的程序每 3 小时获取一次并将它们插入到 SQL 数据库中。
我希望提供者有独特的记录,不要显示重复的内容。
但问题是一些提供商不提供 GUID 字段,而其他一些提供商提供 GUID 字段但不提供 pubdate.. 还有一些提供商甚至不提供 GUID 或 PubDate 只是标题和链接。
那么,要在 sql server 中保持 rss feed 的唯一性,最好的方法是什么?
我应该先检查引导,然后更新,链接,然后标题吗?比较 SQL 中的链接字段以检查唯一性是否是一种好的做法?
Thanks.
我将开发一个例程,它采用某些关键参数(如标题、来源和正文),然后将它们组合起来创建 CRC 哈希值。然后将哈希值存储为提要的属性,并在添加新提要之前检查匹配的哈希值。
我不确定您的环境限制是什么,但这里有一个在 C# 中计算 CRC-32 的示例:http://damieng.com/blog/2006/08/08/calculated_crc32_in_c_and_net http://damieng.com/blog/2006/08/08/calculating_crc32_in_c_and_net
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)