您至少可以使用任何 XML 解析工具(例如 lxml python 模块)解析 USPTO。
Gabe Fierro 写了一篇很棒的论文,介绍了如何做到这一点,请点击此处:从 USPTO XML 中提取专利数据并格式化(无付费专区)
Gabe 还参与了一些关于这样做的有用讨论在这个谷歌群组里.
最后,如果您知道要查找的内容并且有足够的磁盘空间,您还可以获取本地存储的批量数据进行处理。美国专利商标局批量下载here.
还有什么更具体的问题请告诉我!我以前也曾涉足过这个领域:)
此外,Google Patent 搜索 API 已被弃用,但您现在可以使用 URL 标签通过主 Google 搜索 API 进行相同的搜索(我手边没有它们,但您可以通过 Google 专利搜索找到它们,该搜索将得到响应)由 google.com 提供)。
更新:现在在家里,您想要使用谷歌自定义搜索 API 进行专利搜索的标志是 &tbm=pts - 请注意,谷歌自定义搜索引擎并获取相同的代码对于专利搜索非常有益,因为提供的 JSON 具有具有专利特定字段的良好数据结构。
示例代码:
import requests
import urllib
import time
import json
access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>
# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)
response = requests.get(url)
response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()
这将(在您添加免费 API 访问信息后)获取 Altera 拥有的前十项专利(作为示例)并将生成的 JSON 保存到文本文件中。打开您最喜欢的 Web JSON 编辑器并查看 JSON 文件。我特别建议查看 ['items'][] 和子 ['pagemap']。只需解析此 JSON,您就可以获得标题、缩略图、片段、标题、链接,甚至引用(如果相关)。