如何使用Python有效地将解析后的XML文档存储在MySQL数据库中？

2023-11-27

以下是 XML 文件：book.xml

<?xml version="1.0" ?>
<!--Sample XML Document-->
<bookstore>
    <book _id="E7854">
       <title>
          Sample XML Book
       </title>
       <author>
          <name _id="AU363">
         <first>
            Benjamin
         </first>

         <last>
            Smith
         </last>
          </name>
          <affiliation>
         A
          </affiliation>
       </author>
       <chapter number="1">
          <title>
         First Chapter
          </title>
          <para>
         B
         <count>
            783
         </count>
         .
          </para>
       </chapter>
       <chapter number="3">
          <title>
         Third Chapter
          </title>
          <para>
         B
         <count>
           59
         </count>
         .
          </para>
       </chapter>
    </book>
    <book _id="C843">
       <title>
          XML Master
       </title>
       <author>
          <name _id="AU245">
         <first>
            John
         </first>

         <last>
            Doe
         </last>
          </name>
          <affiliation>
         C
          </affiliation>
       </author>
       <chapter number="2">
          <title>
         Second Chapter
          </title>
          <para>
         K
         <count>
            54
         </count>
         .
          </para>
       </chapter>
       <chapter number="3">
          <title>
         Third Chapter
          </title>
          <para>
         K
         <count>
            328
         </count>
         .
          </para>
       </chapter>
       <chapter number="7">
          <title>
         Seventh Chapter
          </title>
          <para>
         K
         <count>
            265
         </count>
         .
          </para>
       </chapter>
       <chapter number="9">
          <title>
         Ninth Chapter
          </title>
          <para>
         K
         <count>
            356
         </count>
         .
          </para>
       </chapter>
    </book> 
</bookstore>

以下是Python代码：book_dom.py

from xml.dom import minidom, Node
import re, textwrap

class SampleScanner:
    def __init__(self, doc):
        for child in doc.childNodes:
            if child.nodeType == Node.ELEMENT_NODE and child.tagName == 'bookstore':
                self.handleBookStore(child)

    def gettext(self, nodelist):
        retlist = []
        for node in nodelist:
            if node.nodeType == Node.TEXT_NODE:
                retlist.append(node.wholeText)
            elif node.hasChildNodes:
                retlist.append(self.gettext(node.childNodes))

        return re.sub('\s+', ' ', ''.join(retlist))

    def handleBookStore(self, node):
        for child in node.childNodes:
            if child.nodeType != Node.ELEMENT_NODE:
                continue
            if child.tagName == 'book':
        self.handleBook(child)

    def handleBook(self, node):
        for child in node.childNodes:
            if child.nodeType != Node.ELEMENT_NODE:
                continue
            if child.tagName == 'title':
                print "Book title is:", self.gettext(child.childNodes)
            if child.tagName == 'author':
                self.handleAuthor(child)
            if child.tagName == 'chapter':
                self.handleChapter(child)

    def handleAuthor(self, node):
        for child in node.childNodes:
            if child.nodeType != Node.ELEMENT_NODE:
                continue
            if child.tagName == 'name':
                self.handleAuthorName(child)
            elif child.tagName == 'affiliation':
                print "Author affiliation:", self.gettext([child])

    def handleAuthorName(self, node):
        surname = self.gettext(node.getElementsByTagName("last"))
        givenname = self.gettext(node.getElementsByTagName("first"))
        print "Author Name: %s, %s" % (surname, givenname)

    def handleChapter(self, node):
        print " *** Start of Chapter %s: %s" % (node.getAttribute('number'),
             self.gettext(node.getElementsByTagName('title')))
        for child in node.childNodes:
            if child.nodeType != Node.ELEMENT_NODE:
                continue
            if child.tagName == 'para':
                self.handlePara(child)

    def handlePara(self, node):
        partext = self.gettext([node])
        partext = textwrap.fill(partext)
        print partext
        print

doc = minidom.parse('book.xml') 
SampleScanner(doc)

输出：~/$ python book_dom.py

Book ID :  E7854
Book title is:  Sample XML Book 
Name ID :  AU363
Author Name:  Smith ,  Benjamin 
Author affiliation:  A 
 *** Start of Chapter 1:  First Chapter 
 B 783 .

 *** Start of Chapter 3:  Third Chapter 
 B 59 .

Book ID :  C843
Book title is:  XML Master 
Name ID :  AU245
Author Name:  Doe ,  John 
Author affiliation:  C 
 *** Start of Chapter 2:  Second Chapter 
 K 54 .

 *** Start of Chapter 3:  Third Chapter 
 K 328 .

 *** Start of Chapter 7:  Seventh Chapter 
 K 265 .

 *** Start of Chapter 9:  Ninth Chapter 
 K 356 .

我的目标是将书籍存储在“Books”表中，将作者信息存储在“Authors”表中（保留书籍->作者关系）[MySQL DB]。

**Book table :**
id    |title
E7854  Sample XML Book
....

**Chapter table :**
book_id|chapter_number|title        |para
E7854   1              First Chapter B 783 .
E7854   3              Third Chapter B 59 .
....

**Author table :**
id    |book_id  |name           |Affiliation
AU363  E7854     Smith Benjamin  A
....

如果我有几千本书和作者（和章节），如何将数据存储在数据库中？我无法唯一地识别每本书/作者的数据集。我可以使用 ID 并将它们传递给函数来保留关系，但我不确定这是否是最好的方法。任何指点都将受到高度赞赏。

p.s：我正在研究脚本的 SQL 部分，一旦测试就会更新。请随意发表您的想法、代码示例。谢谢！

根据您上面的评论，我将简单地创建一个书籍类、一个作者类、一个作者列表和一个章节类。将书籍的章节分配给书籍本身的 Chapter 对象列表。将 AuthorList 维护为其 ID 的字典，指向实际的 Author 对象。使用Book对象的数据成员来包含ID；为了方便起见，您可以提供一种方法将作者从 AuthorList 字典中拉出。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用Python有效地将解析后的XML文档存储在MySQL数据库中？的相关文章

python中的多服务器监控/自动重启

我有 2 个服务器程序必须使用 GNU Screen 启动我想使用基于 Python 的程序来强化这些服务器防止崩溃该程序启动每个屏幕会话然后监视服务器进程如果服务器进程崩溃我需要 python 代码来终止无关的屏幕会话并再次
Celery未注册任务KeyError

我通过在终端中执行以下命令来启动工作程序 celery A cel test worker loglevel INFO concurrency 10 n worker1 h 然后我收到一条长循环错误消息指出 celery 已收到未注册的任
十六进制转储文件的Pythonic方式

我的问题很简单有什么方法可以用 bash 命令以 Python 方式进行编码吗 hexdump e 2 1 02x file dat 显然不使用 os popen 或任何快捷方式编辑虽然我没有明确指定但如果代码在 Python3
清理嵌套的 Try/Excepts

我刚刚编写了一段代码令我印象深刻的是它的嵌套程度远远超过了最佳值我想了解如何改进其风格特别是使其更符合扁平优于嵌套的原则 for app in apps if app split 1 0 zc only look for cro
C# 中的高级替换

我喜欢用 C 替换 xml 字符串中的一些属性示例 XML
dulwich - 从远程仓库身份验证克隆

我找不到有关此主题的任何资源我需要通过提供用户名和密码从私有存储库进行克隆然而当它们作为关键字参数提供给 dulwich get client from path 时会出现错误提示未知参数用户名这似乎是一件简单的事情但我找
当我执行 pip --version 时，它显示错误为 ImportError：没有名为 pyparsing 的模块

我尝试安装卸载py解析以及它不起作用我被这个问题困住了我还必须安装额外的库这是错误消息 Traceback most recent call last File usr bin pip line 5 in
AttributeError：模块“rest_framework.serializers”没有属性“NullBooleanField”

升级后djangorest框架 https pypi org project djangorestframework from djangorestframework 3 13 1 to djangorestframework 3 14 0
从 Python 执行 PowerShell 脚本的最佳方式是什么

之前关于该主题的所有帖子都涉及其用例的具体挑战我认为如果有一篇文章只讨论从 Python 运行 PowerShell 脚本的最简洁方法并询问是否有人有比我发现的更好的解决方案那将会很有用绕过 PowerShell 尝试以与预期不同
在 Entity-Framework Core 中批量插入到 MySQL [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个由约 10 000 个对象组成的列表比方说类Person 我需要将其插入到 MySQL 表中
Scipy - 求矩阵列空间的基数

我正在尝试编写一个简单的单纯形算法其第一步是找到一个基本的可行解决方案选择 A 的线性独立列的一组 B 将 x 中与不在 B 中的列相对应的所有分量设置为零求解 m 个所得方程以确定 x 的分量这些是基本变量我知道解决方案将涉及使
如何使用python在ID3v2 mp3文件上添加SYLT（同步歌词）标签？

我想使用 python 在我的 mp3 文件上添加来自 vtt 的同步歌词我尝试使用诱变模块但它没有按预期工作 from mutagen id3 import ID3 USLT SLT import sys import webvtt
与正在运行的进程通信

We have 基于Python的服务器 A 正在运行的命令行应用程序在同一台 Linux 机器上能够读取stdin 计算一些东西并将输出提供给stdout B 将输入从 A 发送到的最佳最优雅方式是什么 stdin B 的并等待
python pandas 将两行或多行文本合并为一行

我有包含文本数据的数据框如下所示 name address number 1 Bob bob No 56 2 gmail com 3 Carly email protected cdn cgi l email protection No
如何在不重复代码的情况下定义 randint 元组？

我经常使用 randint 元组来表示颜色值等 a b c randint 0 255 randint 0 255 randint 0 255 当我认为必须有更好的方法时有吗使用numpy 1 import numpy as np tu
聚类算法采用哪种编程结构

我正在尝试实现以下分裂聚类算法下面是该算法的简短形式完整的描述可用here https dl dropboxusercontent com u 540963 diana pdf 从样本 x i 1 n 开始将其视为由 n 个数据点
在 django 中运行普通 sql 查询时如何获取字段名称

在我的 django 视图之一中我使用纯 sql 不是 orm 查询数据库并返回结果 sql select from foo bar cursor connection cursor cursor execute sql rows cur
保存用户的身高和体重

我应该如何将用户的身高和体重存储在MySQL数据库中以便我可以使用这些信息来查找特定身高或体重内的用户另外我需要能够以英制或公制显示此信息我的想法是存储以厘米为单位的身高和以公斤为单位的体重信息我更喜欢公制而不是英制我什至可以让
创建将一把小提琴按色调分割的小提琴图的正确方法是什么？

创建将一把小提琴分开的小提琴图的正确方法是什么hue 我尝试了不同的方法似乎唯一的方法是创建一个为数据集中的每个条目共享相同值的功能并将该功能的名称传递为x fig plt figure figsize 20 8 fig add sub
显示进度的脚本？

当我的 python 脚本处理大文件时我想向用户显示进度我见过脚本印刷在 shell 中的同一光标位置显示进度我怎样才能在Python中做到这一点你应该使用python 进度条 http code google com p pyt

随机推荐

向多个表插入数据的最佳方式 MVC ASP

我有4张桌子操作表客户端表客户端详细信息操作资源客户表 ClientID Name Surname Birthday 版本编号客户详情 ClientID Email Adress 电话操作表操作ID Date Time Cl
C语言中“<<”是什么意思？

这是什么意思 define WS RECURSIVE 1 lt lt 0 我明白它将定义WS Recursive 1 lt lt 0 但什么是 lt lt mean Thanks lt lt is the 左移运算符正在转移号码1向左转0
对于 Node.js 上的并发任务，哪个更好？纤维？网络工作者？或线程？

我前段时间偶然发现了node js并且非常喜欢它但很快我发现它严重缺乏执行CPU密集型任务的能力因此我开始谷歌搜索并得到了解决问题的答案 Fibers Webworkers 和 Threads thread a gogo 现在使用哪一
更改 FlowDirection 时复选框勾选镜像

操作系统微软Windows 8 1 开发应用程序 Microsoft Visual Studio 2013 WPF应用程序开发我已经从 Windows 7 迁移到 Windows 8 1 现在我在 VS2012 中开发的旧应用程序有一种
关于c中“非声明”的优化？

在学习编译器优化时我在中编写代码C under Linux with GCC版本gcc version 4 4 5 Ubuntu Linaro 4 4 4 14ubuntu5 1 要了解not a statement nop 用C语言我
用于在列表框中添加/删除项目的事件 c#.NET

我有一个列表框控件item动态添加和手动删除由于删除项目按钮当项目数量发生变化时我想更新用户界面的其他部分即您必须选择一些文件的标题和项目计数标题如何添加事件处理程序或有效地添加事件处理程序以在项目数量更改时触发例如一
通过Web服务从服务器发送pdf文件到客户端

由于我是网络服务新手您能告诉我问题的答案吗我的问题是我想实现一个 Web 服务当客户端调用此 Web 服务时该服务将 pdf 文件发送到客户端请有人帮我提供一段不错的代码或解释现在有人可以解决我的错误吗 12 23 09 42
PreRenderView 在每次回发时增量调用

我对执行的顺序和数量有疑问f event type preRenderView 在我在这里搜索的过程中我像往常一样找到了 BalusC 的答案this and this与我的问题相关的帖子仍然给我留下了两个问题当我放一个f event
黑莓模拟器无法连接到互联网

我的 BB 模拟器无法连接到互联网我使用代理并在 HTTP HANDLER 标题下的 rimpublic property 中输入了以下内容 application handler http proxyEnabled true appl
GLSL-ES 2.0 中顶点属性是否可以是数组？

在 GLSL ES 中可以有数组例如 GLSL ES 规格给出了以下作为数组的统一变量的示例 uniform vec4 lightPosition 4 顶点属性是否可以是数组换句话说根据规范以下内容合法吗 attribute vec
如何在实体框架代码优先中删除表？

我正在使用具有自动迁移功能的实体框架因此当我向上下文添加新模型时我的数据库会更新并创建新表我想做的恰恰相反将表从数据库中完全删除但是从 Context 类中删除定义不起作用 public class CompanyContex
Xcode：使用核心图像与 alpha 进行合成

我想创建一个 CoreImage 滤镜链并能够通过将其单独效果与 alpha 或不透明度设置合成来控制链中每个滤镜的强度但我没有看到与 alpha 合成的方法或文档中的不透明度我猜我可以跳出核心图像过滤器链并与核心图形上下文进行合成
将 JavaScript 变量值传递给输入类型隐藏值

我想将两个整数的乘积值分配给 html 文档中已有的隐藏字段我正在考虑获取 javascript 变量的值然后将其传递给隐藏的输入类型我很难解释但这就是它应该如何工作脚本示例上面计算了产品我希望产品位于隐藏字段中
如何使用 Spring-Kafka 通过 Confluence Schema 注册表读取 AVRO 消息？

如何使用 Spring Kafka 通过 Confluence Schema 注册表读取 AVRO 消息有样品吗我在官方参考文档中找不到它下面的代码可以读取 customer avro 主题的消息这是我定义的值的 AVRO 模式 t
迭代未注册的加载项 (.xla)

我需要帮助了解如何迭代当前打开的 Excel 加载项文件 xla 尚未使用 Excel 注册Tools gt Add ins菜单路径更具体地说我对未出现在加载项对话框中但具有的任何工作簿感兴趣ThisWorkbook IsAddin
如何在没有 matlabs 数据库工具箱的情况下从 matlab 访问 postgresql 数据库？

我已经尝试使用pgmex 不幸的是它不能与 libpq5 一起工作 matlab 立即崩溃要在不使用数据库工具箱的情况下从 matlab 连接到 postgres 请执行类似以下操作 Add jar file to classpath e
未使用的方法和属性对库或可执行文件的影响

我正在尝试为 C NET 创建源代码生成器生成永远不会被调用的属性或方法会导致我的代码运行速度变慢吗为不使用的库插入 using 语句怎么样我假设编译器足够聪明不会构建未使用的 using 语句但它无法了解属性和方法因为它们co
使用 Telethon 发送 Telegram 消息：某些实体参数有效，其他参数无效？

我正在使用 Telethon 的发信息功能向各种聊天发送消息有时目的地是另一个用户只是常规的一对一聊天有时是一个组有时是一个超级组有时是一个频道我是其中的管理员如果我理解正确的话语法应该是 client send mess
为什么PHP不支持多线程？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我到处都读到 PHP 不支
如何使用Python有效地将解析后的XML文档存储在MySQL数据库中？

以下是 XML 文件 book xml

如何使用Python有效地将解析后的XML文档存储在MySQL数据库中？

如何使用Python有效地将解析后的XML文档存储在MySQL数据库中？ 的相关文章

随机推荐

热门标签

如何使用Python有效地将解析后的XML文档存储在MySQL数据库中？的相关文章