《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）

2023-11-19

由于Peter Harrington所著的这本《机器学习实战》中的官方代码是Python2版本的且有一些勘误，使用Python3的朋友运行起来会有很多问题，所以我将自己在学习过程中修改好的Python3版本代码分享给大家，以供大家交流学习，共同进步！

官方源码文件下载地址：https://manning-content.s3.amazonaws.com/download/3/29c6e49-7df6-4909-ad1d-18640b3c8aa9/MLiA_SourceCode.zip

第四章-朴素贝叶斯

文件名：bayes.py

from numpy import *
from imp import reload

#词表到向量转换函数
def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postingList,classVec

#将词表转换成一个去重后的向量
def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    return list(vocabSet)

#检查inputSet中的单词在词表向量中的出现情况(朴素贝叶斯词集模型)
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

#朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones() 
    p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)       #change to log()
    p0Vect = log(p0Num/p0Denom)   #change to log()
    return p0Vect,p1Vect,pAbusive

#朴素贝叶斯分类函数
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else: 
        return 0

def testingNB():
    listOPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))

#朴素贝叶斯词袋模型
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

#文件解析及垃圾邮件测试函数
def textParse(bigString):    #input is big string, #output is word list
    import re
    listOfTokens = re.split('\W+', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2] 
    
def spamTest():
    docList=[]; classList = []; fullText =[]
    for i in range(1,26):
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)#create vocabulary
    trainingSet = list(range(50)); testSet=[]           #create test set
    for i in range(10):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])  
    trainMat=[]; trainClasses = []
    for docIndex in trainingSet:#train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    errorCount = 0
    for docIndex in testSet:        #classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam) != classList[docIndex]:
            errorCount += 1
            print("classification error",docList[docIndex])
    print('the error rate is: ',float(errorCount)/len(testSet))
    #return vocabList,fullText

#RSS源分类器及高频词去除函数
def calcMostFreq(vocabList,fullText):
    import operator
    freqDict = {}
    for token in vocabList:
        freqDict[token]=fullText.count(token)
    sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True) 
    return sortedFreq[:30]       

def localWords(feed1,feed0):
    import feedparser
    docList=[]; classList = []; fullText =[]
    minLen = min(len(feed1['entries']),len(feed0['entries']))
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1) #NY is class 1
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)#create vocabulary
    top30Words = calcMostFreq(vocabList,fullText)   #remove top 30 words
    for pairW in top30Words:
        if pairW[0] in vocabList: vocabList.remove(pairW[0])
    trainingSet = list(range(2*minLen)); testSet=[]           #create test set
    for i in range(20):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])  
    trainMat=[]; trainClasses = []
    for docIndex in trainingSet:#train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    errorCount = 0
    for docIndex in testSet:        #classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam) != classList[docIndex]:
            errorCount += 1
    print('the error rate is: ',float(errorCount)/len(testSet))
    return vocabList,p0V,p1V

#最具表征性的词汇显示函数
def getTopWords(ny,sf):
    import operator
    vocabList,p0V,p1V=localWords(ny,sf)
    topNY=[]; topSF=[]
    for i in range(len(p0V)):
        if p0V[i] > -6.0 : topSF.append((vocabList[i],p0V[i]))
        if p1V[i] > -6.0 : topNY.append((vocabList[i],p1V[i]))
    sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
    print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
    for item in sortedSF:
        print(item[0])
    sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
    print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")
    for item in sortedNY:
        print (item[0])

https://blog.csdn.net/y12345678904/article/details/5567089

https://lavi-liu.blog.csdn.net/article/details/78182412

https://blog.csdn.net/qq_41717584/article/details/83241243

https://blog.csdn.net/mlp750303040/article/details/79287177

https://blog.csdn.net/qq_41204464/article/details/88980654

https://blog.csdn.net/LaoYuanPython/article/details/100045507

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

机器学习

python

NumPy

《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）的相关文章

如何从Python中的阿拉伯字符串中删除英文文本？

我有一个带有英文文本和标点符号的阿拉伯字符串我需要过滤阿拉伯文本我尝试使用 sting 删除标点符号和英语单词但是我失去了阿拉伯语单词之间的空格我哪里错了 import string exclude set string punc
nginx/uwsgi 服务器的持久内存中 Python 对象

我怀疑这是否可能但这是问题和提出的解决方案提出的解决方案的可行性是这个问题的对象我有一些需要可用于所有请求的全局数据我将这些数据保存到 Riak 并使用 Redis 作为缓存层以提高访问速度目前数据被分为约 30 个逻辑块每
SQLAlchemy 在 MySQL 上使用什么列类型作为“文本”？

我的总体用例是试图确定我是否可以编写一个与数据库无关的至少支持 Postgres 和 MySQL 存储一些大数据作为原始文本认为 500MB 作为粗略的理论上限基于这个答案 https stackoverflow com a 2557
Python矩阵问题[重复]

这个问题在这里已经有答案了这是从这个线程继续的 Python矩阵有什么解决方案吗 https stackoverflow com questions 5835583 python matrix any solution Input fr
当类的任何属性被修改时，类如何运行某些函数？

是否有一些通用方法可以让类在以下情况下运行函数 any它的属性被修改了吗我想知道是否可以运行某些子进程来监视类的更改但也许有一种方法可以继承class并修改一些on change函数是 Python 类的一部分有点像默认的 repr
如何使用 matplotlib 面向对象的 API 设置轴刻度和刻度标签

我需要一些在 Python2 7 下的 Matplotlib pyplot 中绘图的帮助我想生成一个具有以下 x 轴的图 x 轴应该是这样 https i stack imgur com zcosX jpg 我到目前为止通过使用myaxi
安装 Ta-lib 会产生 gcc 错误

当我尝试在我的 mac 上将 Ta lib 作为全局包安装时出现 gcc 错误我收到以下错误 gcc Wno unused result Wsign compare Wunreachable code DNDEBUG g fwrapv
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
群组名称不能以数字开头？

看来我不能使用像这样的正则表达式 P lt 74xxx gt 0 9 重新打包会引发错误 sre constants error bad character in group name u 74xxx 我似乎无法使用以数字开头的组名称为什
Python 调试器是否会介入生成器？

我目前正在使用 NetBeans IDE 和 Jython 2 5 1 当逐步调试我的项目时一旦遇到生成器的迭代调试器就会直接转到代码末尾输出工作正常但是一旦满足第一个生成器就无法进行逐步调试这是所有 Python IDE 中 P
python中终止进程的跨平台方法

当我尝试使用 subprocess Popen terminate 或 Kill 命令终止 Windows 中的进程时出现访问被拒绝错误如果文件不再存在我真的需要一种跨平台的方式来终止进程是的我知道这不是做我正在做的事情的最优雅的
ModuleNotFoundError：没有名为“googleapiclient”的模块

如果这是一个愚蠢的问题我深表歉意我在 stackoverflow 上搜索过但没有找到解决办法我正在致力于从 Python 2 7 迁移到 Python 3 8 我收到一个程序的以下错误请帮我 Traceback most rece
Pandas 对 HDFStore 中的大数据进行“分组”查询？

我有大约 700 万行HDFStore有60多个柱子数据超出了我的记忆能力我希望根据 A 列的值将数据聚合到组中 pandas 的文档分割聚合组合 http pandas pydata org pandas docs stable
Python、Oracle DB、列中的 XML 数据，获取 cx_Oracle.Object

我正在使用 python 从 Oracle DB 获取数据所有行都有一个包含 XML 数据的列当我使用 python 打印从 Oracle DB 获取的数据时包含 XML 数据的列将打印为 0x7fffe373b960 处的 cx O
我以为 Python 通过引用传递了所有内容？

采取以下代码 module functions py def foo input new val input new val module main py input 5 functions foo input 10 print input
如何更改Python中的全局变量[重复]

这个问题在这里已经有答案了我正在尝试更改程序中的变量我在程序开始时声明了一个全局变量我想在程序中的不同函数中更改该变量我可以通过再次声明函数内的变量来做到这一点但我想知道是否有更好的方法来做到这一点下面是一些测试代码来解释我的意
连接 Flask Socket.IO Server 和 Flutter

基本上我有一个套接字 io 烧瓶代码 import cv2 import numpy as np from flask import Flask render template from flask socketio import Soc
使用 python pyad 访问对象 [] 时出现问题

我在尝试使用 pyad 访问活动目录用户属性时遇到问题这是我的代码 user pyad aduser ADUser from cn tuser print user get attribute lastLogonTimestamp 这些是
WTforms 表单未提交但不输出验证错误

我正在尝试使用以下方式上传文件flask uploads工作和遇到一些障碍我会告诉你我的flask查看函数 html 希望有人能指出我缺少的内容基本上发生的情况是我提交了表格但失败了if request method POST and
Python tkinter：在组合框中使用“文本变量”似乎没用

使用textvariable在 tkinter 中创建组合框时的属性似乎完全没用有人可以解释一下目的是什么吗我查看了 Tcl 文档它说textvariable用于设置默认值但看起来在 tkinter 中您只需使用 set方法来做到这

随机推荐

CTP 学习笔记

CTP 学习笔记前言综合交易平台 Comprehensive Transaction Platform CTP 是专门为期货公司开发的一套期货经纪业务管理系统由交易风险控制和结算三大系统组成前后研究了两个多星期 CTP 各种查资料
高斯混合模型(GMM)推导

数据表示如下 X X X 观测数据 X x 1
Client-Server问题

1 实验内容与要求需要创建客户Client和服务器Server两个进程它们通过管道进行通信 Client进程派生3个生产者线程一个管道线程共享一个20个slots的缓冲区每个生产者线程随机产生一个数据打印出来自己的id 进程线
【综述阅读】Pre-trained Language Models for Text Generation: A Survey

Pre trained Language Models for Text Generation A Survey 中国人民大学 IJCAI 2021 论文链接 https arxiv org pdf 2201 05273 pdf 综述读起来
使用postman做接口测试时报的404问题

postman接口测试的404问题很大几率是url错了请认真确定url是否正确最近做接口测试时遇到了一个很cao 四声 dan 四声的问题就是不管参数怎么调整或者url用localhost还是ip地址总是报404的错误如下这
n行Python代码系列：三行程序将提取HTML中的纯文本信息

老猿Python博文目录 https blog csdn net LaoYuanPython article details 98245036 一引言最近看到好几篇类似 n行Python代码的博文看起来还挺不错简洁实用传播了知
ukey网络连接异常_Ukey的各种操作，你知道吗？

1 使用税务Ukey开票时应该如何赋码 1 进入到发票填开界面后双击货物或应税劳务名称或者点击系统设置基础编码设置自定义货物与劳务编码 2 选择商品类别的文件夹如一般货物简易征收一般商品13 代码转换劳务或者选择商
一文读懂如何拆分用户故事

好的用户故事遵循Bill Wake的INVEST模型他们是Independent Negotiable Valuable Estimable Small 和 Eestable 该小的要求促使我们分账大片的故事但分裂后的故事仍然必须遵循I
五. python面向对象(多态和metaclass=abc.ABCMeta)

一多态多肽一种事物的多种形态叫多肽例如动物 animal 猫狗 animal py 文件动物类都有名字这个属性和吃这个方法 class Animal object def init self name self name
CentOS7配置文件/etc/profile与/etc/profile.d的区别

CentOS7配置文件 etc profile与 etc profile d的区别系统配置文件的区别 etc profile 文件介绍 etc profile d目录中的脚本文件介绍区别介绍系统配置文件的区别 etc profile
PE文件结构详解（完整篇）

一基本概念 PE Portable Execute 文件是Windows下可执行文件的总称常见的有DLL EXE OCX SYS等事实上一个文件是否是PE文件与其扩展名无关 PE文件可以是任何扩展名那Windows是怎么区分可执行
Vue 中使用 Echarts5.0 的一些问题（vue-cli 下开发）

问题最新版的 Echarts5 0 使用 import echarts from echarts 导入会发现导出的 echarts 是 undefined 的情况无法正常使用解决方案一新版本有问题就用旧版本咯卸载 Echarts
Python采集股票行情排行榜数据~帮帮友善的朋友

嗨害大家好鸭我是爱摸鱼的芝士开发环境解释器版本 python 3 8 代码编辑器 pycharm 2021 2 股票涨幅缩略界面导入模块 import requests import json import csv python学习
Gparted的安装使用，

安装的方法在Ubuntu下 sudo apt get install gparted 或者进入ubutun系统商店搜索parted 进行安装菜单上的位置是系统 gt 系统管理 gt Gnome分区管理器 Gparted支持动态分区不
构建前端之光：JavaScript插件的研发艺术

前言在前端开发的宇宙中星星是网页而照亮这个宇宙的是我们前端开发者手中的JavaScript插件插件就像乐高积木可以将我们的代码块组装成复杂而精美的页面本文将引导你走进JavaScript插件的世界探讨如何开发测试和发布你的
cmd 激活anaconda的python运行环境

cmd 激活anaconda的python运行环境使用cmd 打开Anaconda 的python环境输入activate 环境名弹出activate不是内部或外部命令解决办法 1 将Anaconda下的路径添加到系统变量比如我的
高通平台Linux kernel死机解题心得

1 前言 1 1 目的能够结合知识背景借助相关调试工具使用一般分析手段分析定位解决项目过程中遇到的死机类系统稳定性问题提升工作效率持续积累拓宽知识深度和广度 1 2 死机指系统发生致命性异常导致主动或者被动进入系统完全不可用
UML类图小结

类与类之间的关系 1 关联关系关联 Association 关系是类与类之间最常用的一种关系它是一种结构化关系用于表示一类对象与另一类对象之间有联系如汽车和轮胎师傅和徒弟班级和学生等等图1 关联关系实例 1 双向关联默认情况
auto_ptr 代码及缺陷

uto ptr是C 标准库里的类它接受一个类型形参的模板为动态分配的对象提供异常安全其实它的核心思想是用一个对象存储需要被自动释放的资源然后依靠对象的析构函数来释放资源这是 More Effective C 中的解释下面给出
《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）

由于Peter Harrington所著的这本机器学习实战中的官方代码是Python2版本的且有一些勘误使用Python3的朋友运行起来会有很多问题所以我将自己在学习过程中修改好的Python3版本代码分享给大家以供大家交流学习

《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）

官方源码文件下载地址：https://manning-content.s3.amazonaws.com/download/3/29c6e49-7df6-4909-ad1d-18640b3c8aa9/MLiA_SourceCode.zip

第四章-朴素贝叶斯

文件名：bayes.py

相关阅读推荐：

《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行） 的相关文章

随机推荐

热门标签

《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）的相关文章