【实例】python中简单分句,通过替代句号 &给句尾(不是句首)添加序号

2023-11-02

>>> fn = open('E:/西方哲学史.txt').read()
>>> fn = fn.replace('。','。\t\r\n')
>>> s = open('E:/西方哲学史分句.txt','w')

>>> s = s.write(fn)


想要给每个句子添加,编号 = =,怎么办?

>>> import re
>>> def createid(matchobject,no=[0]):
...     no[0]+=1
...     return "[%d]"%no[0]
...
>>> text = "★A child is a human being who is not yet an adult.★A child is a human being who is not yet an adult.★A child is a human being who is not yet an adult."
>>> text=re.sub("★",createid,text)
>>> print(text)
[1]A child is a human being who is not yet an adult.[2]A child is a human being who is not yet an adult.[3]A child is a human being who is not yet an adult.

>>>

参考:https://zhidao.baidu.com/question/1993159681293693067.html  |百度知道

-------问题是这里有标注了,可是我的文段没有--------------------------------------------------------

>>> pattern = re.compile(u'wechat', re.I)
>>> pattern.search(u'wechat online')
<_sre.SRE_Match object; span=(0, 6), match='wechat'>

>>>

----------然后我找到了正则表达式 匹配句首的,不过没看懂还------------------------------------------

又找到了https://zhidao.baidu.com/question/2012704092059701388.html,只能找字母的首字母= =

---------问题是如何找到匹配句首的方式---------------------

可是只找到了 如何找寻首字母的 = =方式,参考:https://zhidao.baidu.com/question/814035707149647692.html

>>> import re
>>> content = "a string which defines the name for this spider. the spider name is how the spider is located (and instantiated) by scrapy, so it must be unique. however, nothing prevents you from instantiating more than one instance of the same spider. this is the most important spider attribute and it’s required."

>>> for line in re.split('\.|\?|!', content):
...     if line != "":
...        print(line.strip().capitalize())
...        print(line.strip().split()[0])
...
A string which defines the name for this spider
a
The spider name is how the spider is located (and instantiated) by scrapy, so it must be unique
the
However, nothing prevents you from instantiating more than one instance of the same spider
however,
This is the most important spider attribute and it’s required
this
>>>

-----------我想试试中文-------------

结果:= = 实验证明无法使用到中文中


-----------继续问题---- 应该是中文句号的问题= =----------

再来一次:结果 = =不经汗颜,不行!!!


放弃句首吧,我还是加序号到末尾吧= =。

--------------------------------------------------

新的参考 | https://zhidao.baidu.com/question/1111709810604369899.html

结果= =:


又参考了:http://bbs.csdn.net/topics/390424651


问题变成了,如何定位句子开头,然后定位了之后,就可以标注了,然后就是序号如何添加的问题,立刻把问题分解成了三份。

继续----------------------------------------------------

只简单编码,可以实现

问题是,都是黏在一起的 = =,不太好吧。选择每句用回车换行分开:


虽然解决了编码的问题,可是就是不能定位到开头,或者说句首。到现在这都是一个问题。不过还算马马虎虎解决了一个问题。

然后要考虑的是给每个句子进行定性。

这文章先写到这里吧 = =2018年3月4日21:16:07

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【实例】python中简单分句,通过替代句号 &给句尾(不是句首)添加序号 的相关文章

  • 解决:The Apache Tomcat Native library which allows optimal performance in production environments was

    在启动Tomcat 6 0时发现第一条信息便是 The Apache Tomcat Native library which allows optimal performance in production environments was
  • 用C++编写一个猜数字游戏

    系统随机生成一个1到100之间的数字 玩家进行猜测 如果猜错 提示玩家数字过大或过小 如果猜对恭喜玩家胜利 并且推出游戏 include
  • RocketMQ rocketmq_client.log日志文件配置

    1 默认路径 项目添加RocketMQ以后启动项目时会在user home下创建一个rocketmq client log日志文件 文件全路径是 user home logs rocketmqlogs rocketmq client log
  • 日语动词变形(概念明确篇)

    首先 日语中的动词我们可以这样看 这是几种不同的分法 相互之间没有关联 A 一段动词 五段动词 変动词 変动词 B 自动词 他动词 按照属性来区分 C 意志动词 非意志动词 只包含部分日语动词 在动词变形上 我们只涉及第一种分法 其他两种这
  • UE4 开房 多人在线动作游戏------学习笔记

    先创建好UI界面 这个UI是用来创建房间 查找房间 进入房间和退出的 这个UI是用来显示搜索出来的房间 然后点击进入房间的 用了监听 别人才能搜索到服务器 点击开始搜索 显示搜索图标 开始对查找Listen的关卡 查找成功生成ServerB
  • 本地笔记软件_笔记软件obsidian重大更新

    obsidian是一个笔记软件 之前写了篇obsidian的介绍 https zhuanlan zhihu com p 212204160 zhuanlan zhihu com 这次obsidian发布了0 91版本 真正变得实用了 首先说
  • springmvc

    1 SpringMVC简介 1 1 什么是MVC MVC是一种软件架构的思想 将软件按照模型 视图 控制器来划分 M Model 模型层 指工程中的JavaBean 作用是处理数据 JavaBean分为两类 一类称为实体类Bean 专门存储
  • Camunda流程引擎笔记(四):Send Task,Receive Task

    流程引擎中 Send Task和 Service Task拥有相同的行为 都是通过回调Java代码完成相应逻辑 通常 Send Task和 Receive Task配合使用 一 Send Task 绘制一个Send Task流程 配置过程和
  • 网页服务器请求响应,网页的请求响应,你们所看到的网页跳转长这样子

    Servlet的认识在上一篇文章有介绍过 如有不同看法或者其他理解的话可以下方留言给我 我肯定虚心学习 说一说Servlet 网友说 有点料 我们生活在这一个互联网时代 每天都点击数据 交互数据 响应数据和请求数据 以上几个技术点 你能想到
  • nodejs使用websocket

    一 websocket简介 首先要知道什么是几个常用的互联网传输协议 http https tcp udp 1 http 超文本传输协议 HyperText Transfer Protocol 是一种无状态协议 就是说客户端发送一次请求 服
  • linux centos7配置网卡信息

    1 配置网卡 查看网卡信息 ifconfig 这里看到的网卡名是 ens33 ip 名称是 172 16 28 31 准备改成 172 16 28 226 2 进入 配置文件目录 cd etc sysconfig network scrip
  • CISP 相关知识点梳理

    第一章 1 1 信息安全保障基础 v信息安全视角 了解国家视角对信息安全关注点 网络战 关键基础设施保护 法律建设与标准化 相关概念 了解企业视角对信息安全关注点 业务连续性管理 资产保护 合规性 相关概念 了解个人视角对信息安全关注点 隐
  • 心音信号特征提取Matlab系统

    心音信号特征提取Matlab系统 心脏疾病是一种常见的疾病 如果能够通过自己开发的程序来对心音信号进行分析 检测就更加方便快捷了 本文章将介绍如何使用 Matlab 提取心音信号的频域特征值 包括频谱 能量谱 功率谱和倒频谱等 同时 将通过
  • 10个免费的web压力测试工具

    转自 http apps hi baidu com share detail 53794908 当一套程序写完或者一台服务器配置完成后 相必很多朋友会像我一样 非常想知道它到底能够承受多大的负载压力 那在本文中 就给大家介绍十个免费的可以用
  • Ubuntu安装*.deb程序,用gdebi

    Ubuntu 安装 deb程序的时候 用安装源 gdebi 命令 sudo gdebi deb 如果 Ubuntu 没有安装gdebi的 shell term 运行命令 sudo apt get install gdebi
  • PHP代码审计12—反序列化漏洞

    文章目录 一 PHP反序列化漏洞基础 1 序列化与反序列化 2 反序列化漏洞类型 3 常见的一些魔法函数 4 漏洞利用与防御 二 MRCTF2020 Ezpop 分析与利用 三 Phar反序列化例题分析 四 PHPmyadmin 2 x 反
  • 软件测试面试必问的几个问题,拿好标准答案,有备无患~

    在今年这个特殊的情况下 竞争压力增大 各大企业对于求职者的要求也随之增高 很多小伙伴都面临着这样的情况 千辛万苦拿到了面试机会 却因种种原因翻车 在面试的时候不能将自己的真实实力表现出来 在回答面试官问题时 抓不到重点 紧张 说话结巴 不知
  • leetcode312 戳气球

    题目 https leetcode cn com problems burst balloons 思路 动态规划 状态 dp i j 表示戳破 i j 范围内这些气球所能获得的最大数量的硬币 转移方程 dp i j max dp i j d
  • 给自己的软件添加数字签名&数字签名格式转换

    工具链接 解压密码为 解压密码 ziyuanxiaozhan outlook com 废话不说 先上图 添加数字签名前 添加正规数字签名后 数字签名相关文件的后缀 pfx一定包含或可以转换为所有文件 pem可以包含或可以转换为所有文件但不一
  • orcad caputre里面Off-Page connect和port的区别

    1 下图即为orcad caputre里面Off Page connect和port的符号 1 在同一张page里面想要实现信号的连接可以之间将两个端口连接起来 如下图 也可以将两个端口的网络符号改为一致 软件也认为是连在一起的 2 在不同

随机推荐

  • 单片机(ISIS 7 Professional):简易数码管显示0~99计数代码项目

    上一篇文章主要介绍用C语言制作一个按钮的简易0 9控制计数器 单片机 ISIS 7 Professional 简易数码管显示0 9计数代码项目https blog csdn net MOKI36 article details 122810
  • 2023年计算机毕业设计选题大全 计算机毕业设计选题推荐Java、Python、Android、小程序等

    2023年计算机毕业设计选题大全 计算机毕业设计选题推荐Java Python Android 小程序等 在已经迎来2023年的毕业季 很多同学咨询关于计算机毕业设计选题方面的问题 例如计算机毕设选题什么好 计算机毕设选题选什么新颖一些 计
  • AAudio进行音频采集的实现

    使用AAudio进行音频采集 介绍 AAudio 是在Android 8 0版本中引入的一种基于C语言的本地音频API Android 8 1版本具有增强功能 可在支持MMAP的HAL和驱动程序结合使用时缩短延迟时间 AAUdio提供 Op
  • redis连接数合理配置_redis如何进行合理配置,这10种配置参数你必须知道

    redis参数如何配置 redis数据库的使用 关键一步是对redis进行合理的参数配置 redis的配置文件都在安装目录下的redis conf文件中进行相关参数配置 redis参数的配置可以通过config get命令来获取redis参
  • Java实现最长公共子序列

    动态规划做最长公共子序列 最重要的是求出状态转移方程 理论的就不多说了 用语言太难描述了 直接去看视频吧 我们直接上代码 对这里来说 他的状态转移方程如下 if a i 1 b j 1 c i j c i 1 j 1 1 d i j 1 e
  • 服务器里的文件启动失败404,云表服务器启动失败问题汇总

    这是在安装本地版时经常发生的问题 10个人 就有7个人都会出现这样的问题 出现这样的问题 怎么解决呢 首先 想要连接服务器 必须要开启数据库的服务 其次 服务器其实是 锁 住的 那么你要连接服务器 肯定得有钥匙 这里的钥匙可以看成是授权文件
  • Qt之布局管理——停靠窗口

    QDockWidget类继承与QWidget类 用于停靠窗口的管理 在主窗口中 先设置中心控件 然后实例化QDockWidget对象 通过setFeatures 设置停靠窗口的窗体特性 通过 setAllowedAreas 设置窗体可停靠的
  • 1200*C. Stripe

    题意翻译 给定一整数n 下面有n个数a i 求将该数列分割成两个非空数列且两个数列内数字的和相等的方案数 1 lt n lt 10 5 a i 的绝对值不大于10000 解析 前缀和 include
  • QT 实现16进制与字符串互转

    QT 实现16进制与字符串互转 文章目录 QT 实现16进制与字符串互转 前言 一 字符串QString转换16进制 二 16进制转换为字符串QString 三 正则表达式限制输入16进制 四 文本自动补全空格功能的实现 前言 QT在界面时
  • matlab图像处理——直方图及直方图均衡化

    imhist 对rice png和增强亮度后的 增强对比度后的图进行直方图展示 imhist 对于brightness 和 contrast的不同 clear all brightness I imread rice png J imadd
  • 洛谷Java入门代码之分苹果

    题目描述 八尾勇喜欢吃苹果 她现在有 m m 100 m m le 100 m m 100 个苹果 吃完一个苹果需要花费 t t 100 t t le100 t t 100 分钟 吃完一个后立刻开始吃下一个 现在时间过去了 s s 1000
  • LevelDB简介

    LevelDB简介 综述 leveldb整体架构 提供接口 db h 技术 memtable WAL sstable Manifest cache LRU cache LRU的优缺点 filter levelDB初始化 compaction
  • 专治疑难系列 - 无法激活网络的解决方法

    博客主页 Passerby Wang的博客 CSDN博客 系统运维 云计算 Linux基础领域博主 所属专栏 转治疑难系列 上期文章 无 如觉得博主文章写的不错或对你有所帮助的话 还望大家多多支持呀 关注 点赞 收 藏 评论 目录 一 问题
  • Python将txt文件内容转换成列表

    参考 Python将txt文件内容转换成列表 云 社区 腾讯云 方法一 coding utf 8 f open r ip txt r a list f print a f close 方法二 coding utf 8 f open r ip
  • Sublime Text 3 安装Go语言相关插件gosublime《小白也能学会的教程》

    Sublime Text 3 安装Go语言相关插件gosublime 序言 这篇文章是自己的亲身体会 今天为了安装gosublime可是找了一堆教程 但大部分都无功于返 有些甚至点开后都是直接复制粘贴过来的 一度心灰意冷 就在我快要暴躁的时
  • Java 实现 QQ 登陆

    点击上方蓝色字体 选择 标星公众号 优质文章 第一时间送达 1 前言 个人网站最近增加了评论功能 为了方便用户不用注册就可以评论 对接了 QQ 和微博这 2 大常用软件的一键登录 总的来说其实都挺简单的 可能会有一点小坑 但不算多 完整记录
  • C++ Primer Exercise 5.18

    Understanduing the difference between C and C therefore know the computer language deeper vector
  • MySQL数据库锁的实现原理(面试)

    mysql的锁类型 一般其实就是表锁 行锁和页锁 一般myisam会加表锁 就是myisam引擎下 执行查询的时候 会默认加个表共享锁 也就是表读锁 这个时候别人只能来查 不能写数据的 然后myisam写的时候 也会加个表独占锁 也就是表写
  • 如何查看宝塔面板入口?

    终端输入 bt default
  • 【实例】python中简单分句,通过替代句号 &给句尾(不是句首)添加序号

    gt gt gt fn open E 西方哲学史 txt read gt gt gt fn fn replace t r n gt gt gt s open E 西方哲学史分句 txt w gt gt gt s s write fn 想要给