组合数据类型(2)
一.字典类型定义
映射是一种键(索引)和值(数据)的对应
字典类型是“映射”的体现
-键值对:键是数据索引的扩展
-字典是键值对的集合,键值对之间无序
-采用大括号{}和dict{},键值对用冒号:表示
二.字典类型操作函数的方法
函数或方法 |
描述 |
del d[k] |
删除字典d中键k对应的数据值 |
k in d |
判断键k是否在字典d中,如果在返回True,否则Flase |
d.key() |
返回字典d中所有的键信息 |
d.values() |
返回字典d中所有的值信息 |
d.items() |
返回字典d中所有的键值对信息 |
函数或 |
方法 |
d.get(k,< default >) |
键k存在,则返回相应值,不存在则返回< default >值 |
d.pop(k,< default >) |
键k存在,则取出相应值,不存在则返回< default >值 |
d.popitem() |
随机从字典d中取出一个键值对,以元组形式返回 |
d.clear() |
删除所有的键值对 |
len(d) |
返回字典d中元素的个数 |
三.字典的应用场景
映射的表达
-映射无处不在,键值对无处不在
-例如:统计数据出现的次数,数据是键,次数是值
-最主要作用:表达键值对的数据,进而操作它们
元素遍历:
for k in d:
<语句块>
四.jieba库的概述
jieba 是优秀的中文分词第三方库
-中文文本需要通过分词获得单个的词语
-jieba是优秀的中文分词第三方库,需要额外安装(cmd : pip install jieba)
-jieba库提供三种分词模式,最简单只需掌握一个函数
jieba分词依靠中文词库
-利用一个中文词库,确定汉字之间的关联吗概率
-汉字间概率大的组成词组,形成分词结果
-除了分词,用户还可以添加自定义的词组
精确模式、全模式、搜索引擎模式
-精确模式:把文本精确的切分开,不存在冗余单词
-全模式:把文本所有可能的词语都扫描出来,有冗余
-搜索引擎模式:在精确模式基础上,对长词再次切分
jieba分词要点
jieba.lcut(s)