贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记

2023-10-26

贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记

一、条件概率,全概率公式,贝叶斯公式

在这里插入图片描述
贝叶斯公式

二、贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
在这里插入图片描述

(1)基于最小错误率的贝叶斯决策

核心思想:在得到一个属性X后,我们可以通过先验概率P(c)及类条件概率P(x|c),得到在当前属性X时,该样本分属各类别的概率,然后根据后验概率的大小做出决策,把后验概率大的一个作为分类类别
推理过程

  • 证明过程

由于统计判别方法是基于统计参数作出决策,因此错误率也只能从平均的意义上讲,表示为在观测值可能取值的整个范围内错识率的均值。在连续条件下,平均错误率,以P(e)表示,那么P(e)就可以表示为P(e,x)的数学期望,因为这是二分类问题,当做出当P(c2|x)>p(c1|x)时决策为c2。显然这个决策意味着,对属性x有P(c1|x)概率的错误率。同理,当做出当P(c1|x)>p(c2|x)时决策为c1。显然这个决策意味着,对属性x有P(c2|x)概率的错误率。如果我们把作出c1决策的所有观测值区域称为A1,那么在A1区内的每个x值,条件错误概率为p(c2|x)。另一个区A2中的每个x,条件错误概率为p(c1|x)。因此平均错误率P(e)可表示成图中<1>式,由于在A1区内任一个x值都有P(c2|x)<P(c1|x),同样在A2区内任一个x值都有P(c1|x)<P(c2|x)错误率在每个x值处都取小者,因而平均错误率P(e)也必然达到最小,再用条件概率公式变个型,得到<2>式,也就是得到的后验概率。这就证明了按后验概率大小作出的决策,其平均错误率为最小

(2)基于最小风险的贝叶斯决策

在这里插入图片描述
在这里插入图片描述

三、极大似然估计

极大似然估计理论

极大似然估计就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值
在实际应用中,我们能获得的数据可能只有有限数目的样本数据,而先验概率P(c)和类条件概率P(C|X)(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

  • 对于类先验估计

在这里插入图片描述

  • 对于类条件估计

对概率密度函数模型的选择非常重要,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。
在这里插入图片描述

例子:用极大似然估计法估计西瓜数据集3.0中前3个属性的类条件概率

在这里插入图片描述

四、朴素贝叶斯分类器

(1)朴素贝叶斯理论

朴素贝叶斯是一种生成式模型,由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,及生成模型
在这里插入图片描述
生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型

不难发现,基于贝叶斯公式来计算后验概率P(c|x)的主要困难在于:因为在计算类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本集直接估计得到,所以朴素贝叶斯就作了一个很“强”的假设—对已知类别,假设所有属性相互独立,就是假设每个属性独立地对分类器结果发生影响
在这里插入图片描述

  • 伯努利模型
    即先验为伯努利分布的朴素贝叶斯,伯努利模型中,每个属性的取值都是布尔型的,即True和False,或者1和0。在文本分类中就是一个属性取值有没有在文档中出现,出现了就为1,没出现就为0,而不考虑出现的频数,在文本里面对应的词集模型
  • 多项式模型
    即先验为多项式分布的朴素贝叶斯,多项式模型中,每个属性的取值是频数,如果一个属性取值在文档中出现不止一次,则应该统计统计其频数,在文本里面对应词袋模型
  • 高斯模型
    即先验为高斯分布的朴素贝叶斯,当属性是连续变量的时候,运用多项式模型就会导致很多条件概率为0,此时即使做平滑,所得到的条件概率也难以描述真实情况,所以在处理连续的属性时,应采用高斯模型。连续变量离散化的过程是:利用样本的属性列计算出均值和方差,然后构造概率密度函数,将其每个样本值代入到概率密度函数中,得到概率值,该概率值可以反应各个值的相对可能性

另外,由朴素贝叶斯分类器的表达式可以看出,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率P(xi|c)
在这里插入图片描述

实例1

西瓜数据集3.0分类

对下图这个样本进行分类
在这里插入图片描述
在这里插入图片描述
首先计算先验概率:
在这里插入图片描述
再计算每个属性的类条件概率
对于离散型数据:
在这里插入图片描述
对于连续型数据:
在这里插入图片描述
最后根据类先验概率和类条件概率计算后验概率:
在这里插入图片描述
所以根据后验概率可以判定上图属性样本判别为“好瓜”类

(2)拉普拉斯平滑

拉普拉斯平滑:防止由于某一个类条件概率值为0,导致分类概率为0 的不合理情形
拉普拉斯平滑
条件概率对数化:防止小数相乘出现下溢的情况

实例2

苹果分类

训练集有10个样本,现判断属性大小为大,颜色为青,形状为圆下,是否为好果
在这里插入图片描述
先分别计算类先验概率和类条件概率,其中计算类先验概率时,由于好果只有是和否两种情况,所以分母+2,计算类条件概率时,每个属性的取值情况也恰好为2,所以分母+2,最后计算后验概率,属于一般果的后验概率较大,所以把属性大小为大,颜色为青,形状为圆的样本判别为一般果

实战一 西瓜数据集3.0分类

import numpy as np
from math import exp, sqrt, pi


def getDataSet():
    dataSet = [
        ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, 1],
        ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, 1],
        ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, 1],
        ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, 1],
        ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, 1],
        ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, 1],
        ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, 1],
        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, 1],
        ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, 0],
        ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, 0],
        ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, 0],
        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, 0],
        ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, 0],
        ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, 0],
        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, 0],
        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, 0],
        ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, 0]
    ]

    features = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感', '密度', '含糖量']

    featureDic = {}
    for i in range(len(features)):
        featureList = [example[i] for example in dataSet]
        uniqueFeature = list(set(featureList))
        featureDic[features[i]] = uniqueFeature

    dataSet = np.array(dataSet)
    return dataSet, features, featureDic              # 返回数据集,特征词,特征元素


def countProLap(dataSet, index, value, classLabel, N):        # 拉普拉斯平滑
    extrData = dataSet[dataSet[:, -1] == classLabel]
    count = 0
    for data in extrData:
        if data[index] == value:
            count += 1
    return (count + 1) / (float(len(extrData)) + N)


def trainNB0(dataSet, features, featureDic):
    dict = {}                                          # 求类条件概率
    for feature in features:
        index = features.index(feature)
        dict[feature] = {}
        if feature != '密度' and feature != '含糖量':
            featIList = featureDic[feature]
            for value in featIList:
                PisCond = countProLap(dataSet, index, value, '1', len(featIList))
                pNoCond = countProLap(dataSet, index, value, '0', len(featIList))
                dict[feature][value] = {}
                dict[feature][value]["是"] = PisCond
                dict[feature][value]["否"] = pNoCond
        else:
            for label in ['1', '0']:
                dataExtra = dataSet[dataSet[:, -1] == label]
                extr = dataExtra[:, index].astype("float64")
                aver = extr.mean()
                var = extr.var()

                labelStr = ""
                if label == '1':
                    labelStr = '是'
                else:
                    labelStr = '否'

                dict[feature][labelStr] = {}
                dict[feature][labelStr]["平均值"] = aver
                dict[feature][labelStr]["方差"] = var

    length = len(dataSet)                                 # 求类先验概率
    classLabels = dataSet[:, -1].tolist()
    dict["好瓜"] = {}
    dict["好瓜"]['是'] = (classLabels.count('1') + 1) / (float(length) + 2)
    dict["好瓜"]['否'] = (classLabels.count('0') + 1) / (float(length) + 2)
    return dict


def NormDist(mean, var, xi):
    return exp(-((float(xi) - mean) ** 2) / (2 * var)) / (sqrt(2 * pi * var))


def classifyNB(data, features, bayesDis):
    pGood = bayesDis['好瓜']['是']
    pBad = bayesDis['好瓜']['否']
    for feature in features:
        index = features.index(feature)
        if feature != '密度' and feature != '含糖量':
            pGood *= bayesDis[feature][data[index]]['是']
            pBad *= bayesDis[feature][data[index]]['否']
        else:
            pGood *= NormDist(bayesDis[feature]['是']['平均值'], bayesDis[feature]['是']['方差'], data[index])
            pBad *= NormDist(bayesDis[feature]['否']['平均值'], bayesDis[feature]['否']['方差'], data[index])
    retClass = ""
    if pGood > pBad:
        retClass = "好瓜"
    else:
        retClass = "坏瓜"

    return pGood, pBad, retClass


def test_accuracy(dataSet, features, bayesDis):          # 精确率
    cnt = 0.0
    for data in dataSet:
        _, _, pre = classifyNB(data, features, bayesDis)
        if (pre == '好瓜' and data[-1] == '1') or (pre == '坏瓜' and data[-1] == '0'):
            cnt += 1
    return cnt / float(len(dataSet))


def main():
    dataSet, features, featureDic = getDataSet()
    dic = trainNB0(dataSet, features,featureDic)
    for each in dic.items():
        print(each)
    p1, p0, pre = classifyNB(dataSet[0], features, dic)
    print('\n',dataSet[0])
    print(f"p1 = {p1}")
    print(f"p0 = {p0}")
    print(f"pre = {pre}")
    print("train data set accuracy = ", test_accuracy(dataSet, features, dic))


if __name__ == '__main__':
    main()
('色泽', {'青绿': {'是': 0.36363636363636365, '否': 0.3333333333333333}, '浅白': {'是': 0.18181818181818182, '否': 0.4166666666666667}, '乌黑': {'是': 0.45454545454545453, '否': 0.25}})
('根蒂', {'蜷缩': {'是': 0.5454545454545454, '否': 0.3333333333333333}, '稍蜷': {'是': 0.36363636363636365, '否': 0.4166666666666667}, '硬挺': {'是': 0.09090909090909091, '否': 0.25}})
('敲声', {'浊响': {'是': 0.6363636363636364, '否': 0.4166666666666667}, '沉闷': {'是': 0.2727272727272727, '否': 0.3333333333333333}, '清脆': {'是': 0.09090909090909091, '否': 0.25}})
('纹理', {'模糊': {'是': 0.09090909090909091, '否': 0.3333333333333333}, '清晰': {'是': 0.7272727272727273, '否': 0.25}, '稍糊': {'是': 0.18181818181818182, '否': 0.4166666666666667}})
('脐部', {'稍凹': {'是': 0.36363636363636365, '否': 0.3333333333333333}, '凹陷': {'是': 0.5454545454545454, '否': 0.25}, '平坦': {'是': 0.09090909090909091, '否': 0.4166666666666667}})
('触感', {'硬滑': {'是': 0.7, '否': 0.6363636363636364}, '软粘': {'是': 0.3, '否': 0.36363636363636365}})
('密度', {'是': {'平均值': 0.57375, '方差': 0.014608437499999998}, '否': {'平均值': 0.49611111111111117, '方差': 0.03370254320987655}})
('含糖量', {'是': {'平均值': 0.27875, '方差': 0.008912437500000002}, '否': {'平均值': 0.1542222222222222, '方差': 0.010328617283950618}})
('好瓜', {'是': 0.47368421052631576, '否': 0.5263157894736842})

 ['青绿' '蜷缩' '浊响' '清晰' '凹陷' '硬滑' '0.697' '0.46' '1']
p1 = 0.02180124640594357
p0 = 4.915834021416594e-05
pre = 好瓜
train data set accuracy =  0.8235294117647058

实战二 社区恶意留言分类

import numpy as np


def loadDataSet():                                                                    # 创建实验样本
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],          # 切分的词条
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]                                                          # 类别标签向量,1代表侮辱性词汇,0代表不是
    return postingList,classVec


# 将切分的实验样本词条整理成不重复的词条列表,也就是词汇表,用来将词条向量化
def createVocabList(dataSet):
    vocabSet = set([])                                    # 创建一个空的不重复集合
    for document in dataSet:
        vocabSet = vocabSet | set(document)               # 取并集
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):                  # 根据vocabList词汇表,将inputSet向量化,向量的每个元素为1或0
    returnVec = [0] * len(vocabList)                      # 创建一个其中所含元素都为0的向量
    for word in inputSet:                                 # 遍历每个词条
        if word in vocabList:                             # 如果词条存在于词汇表中,则置1
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec                                      # 返回文档向量


def trainNB0(trainMatrix,trainCategory):                       # 朴素贝叶斯分类器训练函数
    numTrainDocs = len(trainMatrix)                            # 计算训练的文档数目
    numWords = len(trainMatrix[0])                             # 计算每篇文档的词条数
    pAbusive = sum(trainCategory)/float(numTrainDocs)          # 文档属于侮辱类的概率,相当于先验概率(P(侮辱类))
    p0Num = np.ones(numWords); p1Num = np.ones(numWords)     # 创建numpy.ones数组,拉普拉斯平滑(如果设置为zeros,那么其中一个概率为0,那么最后乘积也为0)
    p0Denom = 2.0; p1Denom = 2.0                               # 分母初始化为2
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:                     # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:                                     # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p0Vect = np.log(p0Num/p0Denom)              # 条件概率对数化,防止下溢出
    p1Vect = np.log(p1Num/p1Denom)
    return p0Vect,p1Vect,pAbusive                 # 返回属于非侮辱类的条件概率数组,属于侮辱类的条件概率数组,文档属于侮辱类的概率


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):         # 朴素贝叶斯分类器分类函数
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)             # 对应元素相乘 log(A*B)=log(A)+log(B)
    p0 = sum(vec2Classify * p0Vec) + np.log(1-pClass1)
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else:
        return 0


def testingNB():
    listOPosts,listClasses = loadDataSet()									# 创建实验样本
    myVocabList = createVocabList(listOPosts)								# 创建词汇表
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))				# 将实验样本向量化

    p0V,p1V,pAb = trainNB0(np.array(trainMat),np.array(listClasses))		# 训练朴素贝叶斯分类器

    testEntry = ['love', 'my', 'him','so']									# 测试样本1
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))				# 测试样本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')										    # 执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')										# 执行分类并打印分类结果

    testEntry = ['stupid', 'garbage']										# 测试样本2
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))				# 测试样本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')										    # 执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')										# 执行分类并打印分类结果

    testEntry = ['I','love','him']                              # 测试样本3
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))              # 测试样本向量化
    if classifyNB(thisDoc, p0V, p1V, pAb):
        print(testEntry, '属于侮辱类')                                        # 执行分类并打印分类结果
    else:
        print(testEntry, '属于非侮辱类')                                      # 执行分类并打印分类结果


if __name__ == '__main__':
    testingNB()
p0: -9.854332321737981
p1: -12.178089750893692
['love', 'my', 'him', 'so'] 属于非侮辱类
p0: -7.20934025660291
p1: -4.702750514326955
['stupid', 'garbage'] 属于侮辱类
p0: -7.982530144836391
p1: -9.13356731317027
['I', 'love', 'him'] 属于非侮辱类

实战三 垃圾邮件分类

数据集参考文末链接

import numpy as np
import random
import re


def textParse(bigString):                                                   # 将字符串转换为字符列表
    # 这里使用\W 或者\W+ 都可以将字符数字串分割开,产生的空字符将会在后面的列表推导式中过滤掉
    listOfTokens = re.split(r'\W+', bigString)                              # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]            # 除了单个字母,例如大写的I,其它单词变成小写


def createVocabList(dataSet):
    vocabSet = set([])  					                         # 创建一个空的不重复集合
    for document in dataSet:
        vocabSet = vocabSet | set(document)                          # 取并集
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)									# 创建一个其中所含元素都为0的向量
    for word in inputSet:												# 遍历每个词条
        if word in vocabList:											# 如果词条存在于词汇表中,则置1
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec													# 返回文档向量


def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)										# 创建一个其中所含元素都为0的向量
    for word in inputSet:												# 遍历每个词条
        if word in vocabList:											# 如果词条存在于词汇表中,则计数加一
            returnVec[vocabList.index(word)] += 1
    return returnVec


def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)                         # 计算训练集的数目
    numWords = len(trainMatrix[0])							# 计算每封邮件的词条数
    pAbusive = sum(trainCategory)/float(numTrainDocs)		# 属于垃圾邮件的概率
    p0Num = np.ones(numWords); p1Num = np.ones(numWords)	# 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
    p0Denom = 2.0; p1Denom = 2.0                        	# 分母初始化为2,拉普拉斯平滑
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:							# 统计属于垃圾类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:												# 统计属于非垃圾类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p0Vect = np.log(p0Num/p0Denom)
    p1Vect = np.log(p1Num/p1Denom)							# 取对数,防止下溢出
    return p0Vect,p1Vect,pAbusive							# 返回属于非垃圾类的条件概率数组,属于垃圾类的条件概率数组,邮件属于垃圾类的概率


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)    	# 对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0


def spamTest():
    docList = []; classList = []
    for i in range(1, 26):                                                  # 遍历25个txt文件
        wordList = textParse(open('spam/%d.txt' % i, 'r').read())     # 读取每个垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(1)                                                 # 标记垃圾邮件,1表示垃圾文件
        wordList = textParse(open('ham/%d.txt' % i, 'r').read())      # 读取每个非垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(0)                                                 # 标记非垃圾邮件,0表示非垃圾文件

    vocabList = createVocabList(docList)                                 # 创建词汇表,不重复

    errorrate = 0

    for i in range(10):                                                         # 迭代10次求平均错误率
        trainingSet = list(range(50)); testSet = []                             # 创建存储训练集的索引值的列表和测试集的索引值的列表
        for i in range(10):                                                     # 从50个邮件中,随机挑选出40个作为训练集,10个做测试集
            randIndex = int(random.uniform(0, len(trainingSet)))                # 随机选取索索引值
            testSet.append(trainingSet[randIndex])                              # 添加测试集的索引值
            del(trainingSet[randIndex])                                         # 在训练集列表中删除添加到测试集的索引值

        trainMat = []; trainClasses = []                                        # 创建训练集矩阵和训练集类别标签系向量
        for docIndex in trainingSet:                                            # 遍历训练集
            trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))       # 将生成的词集模型添加到训练矩阵中
            trainClasses.append(classList[docIndex])                            # 将类别添加到训练集类别标签系向量中

        p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  # 训练朴素贝叶斯模型

        errorCount = 0                                                          # 错误分类计数
        for docIndex in testSet:                                                # 遍历测试集
            wordVector = setOfWords2Vec(vocabList, docList[docIndex])           # 测试集的词集模型
            if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:    # 如果分类错误
                errorCount += 1                                                 # 错误计数加1
                print("分类错误的测试集:",docList[docIndex],end=" ")
                if classList[docIndex]:
                    print(docList[docIndex], '属于正常文件')
                else:
                    print(docList[docIndex], '属于垃圾文件')
            elif classifyNB(np.array(wordVector), p0V, p1V, pSpam):
                print(docList[docIndex], '属于垃圾文件')  # 执行分类并打印分类结果
            else:
                print(docList[docIndex], '属于正常文件')
        print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))
        errorrate += float(errorCount) / len(testSet) * 100
    print('10次总的错误率为:%.2f%%' % errorrate)
    print('平均错误率为:%.2f%%' % (errorrate / 10))


if __name__ == '__main__':
    spamTest()
['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于正常文件
['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['hydrocodone', 'vicodin', 'brand', 'watson', 'vicodin', '750', '195', '120', '570', 'brand', 'watson', '750', '195', '120', '570', 'brand', 'watson', '325', '199', '120', '588', 'noprescription', 'required', 'free', 'express', 'fedex', 'days', 'delivery', 'for', 'over', '200', 'order', 'major', 'credit', 'cards', 'check'] 属于垃圾文件
错误率:0.00%
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order', 'save', 'off', 'quality', 'watches'] 属于垃圾文件
['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
错误率:0.00%
['this', 'mail', 'was', 'sent', 'from', 'notification', 'only', 'address', 'that', 'cannot', 'accept', 'incoming', 'mail', 'please', 'not', 'reply', 'this', 'message', 'thank', 'you', 'for', 'your', 'online', 'reservation', 'the', 'store', 'you', 'selected', 'has', 'located', 'the', 'item', 'you', 'requested', 'and', 'has', 'placed', 'hold', 'your', 'name', 'please', 'note', 'that', 'all', 'items', 'are', 'held', 'for', 'day', 'please', 'note', 'store', 'prices', 'may', 'differ', 'from', 'those', 'online', 'you', 'have', 'questions', 'need', 'assistance', 'with', 'your', 'reservation', 'please', 'contact', 'the', 'store', 'the', 'phone', 'number', 'listed', 'below', 'you', 'can', 'also', 'access', 'store', 'information', 'such', 'store', 'hours', 'and', 'location', 'the', 'web', 'http', 'www', 'borders', 'com', 'online', 'store', 'storedetailview_98'] 属于正常文件
分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['linkedin', 'kerry', 'haloney', 'requested', 'add', 'you', 'connection', 'linkedin', 'peter', 'like', 'add', 'you', 'professional', 'network', 'linkedin', 'kerry', 'haloney'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
错误率:10.00%
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['scifinance', 'now', 'automatically', 'generates', 'gpu', 'enabled', 'pricing', 'risk', 'model', 'source', 'code', 'that', 'runs', '300x', 'faster', 'than', 'serial', 'code', 'using', 'new', 'nvidia', 'fermi', 'class', 'tesla', 'series', 'gpu', 'scifinance', 'derivatives', 'pricing', 'and', 'risk', 'model', 'development', 'tool', 'that', 'automatically', 'generates', 'and', 'gpu', 'enabled', 'source', 'code', 'from', 'concise', 'high', 'level', 'model', 'specifications', 'parallel', 'computing', 'cuda', 'programming', 'expertise', 'required', 'scifinance', 'automatic', 'gpu', 'enabled', 'monte', 'carlo', 'pricing', 'model', 'source', 'code', 'generation', 'capabilities', 'have', 'been', 'significantly', 'extended', 'the', 'latest', 'release', 'this', 'includes'] 属于正常文件
['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['benoit', 'mandelbrot', '1924', '2010', 'benoit', 'mandelbrot', '1924', '2010', 'wilmott', 'team', 'benoit', 'mandelbrot', 'the', 'mathematician', 'the', 'father', 'fractal', 'mathematics', 'and', 'advocate', 'more', 'sophisticated', 'modelling', 'quantitative', 'finance', 'died', '14th', 'october', '2010', 'aged', 'wilmott', 'magazine', 'has', 'often', 'featured', 'mandelbrot', 'his', 'ideas', 'and', 'the', 'work', 'others', 'inspired', 'his', 'fundamental', 'insights', 'you', 'must', 'logged', 'view', 'these', 'articles', 'from', 'past', 'issues', 'wilmott', 'magazine'] 属于正常文件
['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
错误率:0.00%
['will', 'there', 'the', 'latest'] 属于正常文件
['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['zach', 'hamm', 'commented', 'your', 'status', 'zach', 'wrote', 'doggy', 'style', 'enough', 'said', 'thank', 'you', 'good', 'night'] 属于正常文件
['peter', 'with', 'jose', 'out', 'town', 'you', 'want', 'meet', 'once', 'while', 'keep', 'things', 'going', 'and', 'some', 'interesting', 'stuff', 'let', 'know', 'eugene'] 属于正常文件
['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['buyviagra', '25mg', '50mg', '100mg', 'brandviagra', 'femaleviagra', 'from', 'per', 'pill', 'viagranoprescription', 'needed', 'from', 'certified', 'canadian', 'pharmacy', 'buy', 'here', 'accept', 'visa', 'amex', 'check', 'worldwide', 'delivery'] 属于垃圾文件
错误率:0.00%
['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
分类错误的测试集: ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于垃圾文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['linkedin', 'kerry', 'haloney', 'requested', 'add', 'you', 'connection', 'linkedin', 'peter', 'like', 'add', 'you', 'professional', 'network', 'linkedin', 'kerry', 'haloney'] 属于正常文件
['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
['hydrocodone', 'vicodin', 'brand', 'watson', 'vicodin', '750', '195', '120', '570', 'brand', 'watson', '750', '195', '120', '570', 'brand', 'watson', '325', '199', '120', '588', 'noprescription', 'required', 'free', 'express', 'fedex', 'days', 'delivery', 'for', 'over', '200', 'order', 'major', 'credit', 'cards', 'check'] 属于垃圾文件
['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
错误率:20.00%
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['buyviagra', '25mg', '50mg', '100mg', 'brandviagra', 'femaleviagra', 'from', 'per', 'pill', 'viagranoprescription', 'needed', 'from', 'certified', 'canadian', 'pharmacy', 'buy', 'here', 'accept', 'visa', 'amex', 'check', 'worldwide', 'delivery'] 属于垃圾文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
['buy', 'ambiem', 'zolpidem', '5mg', '10mg', 'pill', 'pills', '129', 'pills', '199', '180', 'pills', '430', 'pills', '138', '120', 'pills', '322'] 属于垃圾文件
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
['peter', 'these', 'are', 'the', 'only', 'good', 'scenic', 'ones', 'and', 'too', 'bad', 'there', 'was', 'girl', 'back', 'one', 'them', 'just', 'try', 'enjoy', 'the', 'blue', 'sky'] 属于正常文件
错误率:0.00%
['codeine', 'the', 'most', 'competitive', 'price', 'net', 'codeine', 'wilson', '30mg', '156', 'codeine', 'wilson', '30mg', '291', 'freeviagra', 'pills', 'codeine', 'wilson', '30mg', '396', 'freeviagra', 'pills', 'codeine', 'wilson', '30mg', '120', '492', 'freeviagra', 'pills'] 属于垃圾文件
分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
['scifinance', 'now', 'automatically', 'generates', 'gpu', 'enabled', 'pricing', 'risk', 'model', 'source', 'code', 'that', 'runs', '300x', 'faster', 'than', 'serial', 'code', 'using', 'new', 'nvidia', 'fermi', 'class', 'tesla', 'series', 'gpu', 'scifinance', 'derivatives', 'pricing', 'and', 'risk', 'model', 'development', 'tool', 'that', 'automatically', 'generates', 'and', 'gpu', 'enabled', 'source', 'code', 'from', 'concise', 'high', 'level', 'model', 'specifications', 'parallel', 'computing', 'cuda', 'programming', 'expertise', 'required', 'scifinance', 'automatic', 'gpu', 'enabled', 'monte', 'carlo', 'pricing', 'model', 'source', 'code', 'generation', 'capabilities', 'have', 'been', 'significantly', 'extended', 'the', 'latest', 'release', 'this', 'includes'] 属于正常文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
['peter', 'these', 'are', 'the', 'only', 'good', 'scenic', 'ones', 'and', 'too', 'bad', 'there', 'was', 'girl', 'back', 'one', 'them', 'just', 'try', 'enjoy', 'the', 'blue', 'sky'] 属于正常文件
['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
错误率:10.00%
['what', 'going', 'there', 'talked', 'john', 'email', 'talked', 'about', 'some', 'computer', 'stuff', 'that', 'went', 'bike', 'riding', 'the', 'rain', 'was', 'not', 'that', 'cold', 'went', 'the', 'museum', 'yesterday', 'was', 'get', 'and', 'they', 'had', 'free', 'food', 'the', 'same', 'time', 'was', 'giants', 'game', 'when', 'got', 'done', 'had', 'take', 'the', 'train', 'with', 'all', 'the', 'giants', 'fans', 'they', 'are', 'drunk'] 属于正常文件
分类错误的测试集: ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
错误率:10.00%
['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards', 'order', 'today', 'from'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order', 'save', 'off', 'quality', 'watches'] 属于垃圾文件
['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['hommies', 'just', 'got', 'phone', 'call', 'from', 'the', 'roofer', 'they', 'will', 'come', 'and', 'spaying', 'the', 'foaming', 'today', 'will', 'dusty', 'pls', 'close', 'all', 'the', 'doors', 'and', 'windows', 'could', 'you', 'help', 'close', 'bathroom', 'window', 'cat', 'window', 'and', 'the', 'sliding', 'door', 'behind', 'the', 'don', 'know', 'how', 'can', 'those', 'cats', 'survive', 'sorry', 'for', 'any', 'inconvenience'] 属于正常文件
错误率:0.00%
10次总的错误率为:50.00%
平均错误率为:5.00%

实战四 新闻分类

数据集参考文末链接

from sklearn.naive_bayes import MultinomialNB
import matplotlib.pyplot as plt
import os
import random
import jieba


def TextProcessing(folder_path, test_size=0.2):
    folder_list = os.listdir(folder_path)                  # 查看folder_path下的文件
    data_list = []  # 数据集数据
    class_list = []  # 数据集类别

    # 遍历每个子文件夹
    for folder in folder_list:
        new_folder_path = os.path.join(folder_path, folder)    # 根据子文件夹,生成新的路径
        files = os.listdir(new_folder_path)                    # 存放子文件夹下的txt文件的列表

        j = 1
        for file in files:   # 遍历每个txt文件
            if j > 100:      # 每类txt样本数最多100个
                break
            with open(os.path.join(new_folder_path, file), 'r', encoding='utf-8') as f:    # 打开txt文件
                raw = f.read()

            word_cut = jieba.cut(raw, cut_all=False)      # 精简模式,返回一个可迭代的generator
            word_list = list(word_cut)                    # generator转换为list

            data_list.append(word_list)             # 添加数据集数据
            class_list.append(folder)               # 添加数据集类别
            j += 1

    data_class_list = list(zip(data_list, class_list))   # zip压缩合并,将数据与标签对应压缩
    random.shuffle(data_class_list)                   # 将data_class_list乱序
    index = int(len(data_class_list) * test_size) + 1  # 训练集和测试集切分的索引值
    train_list = data_class_list[index:]        # 训练集
    test_list = data_class_list[:index]           # 测试集
    train_data_list, train_class_list = zip(*train_list)    # 训练集解压缩
    test_data_list, test_class_list = zip(*test_list)     # 测试集解压缩

    all_words_dict = {}                # 统计训练集词频,建立一个空字典,键值对
    for word_list in train_data_list:     # 遍历每个列表
        for word in word_list:              # 遍历每个单词
             if word in all_words_dict.keys():
                all_words_dict[word] += 1
             else:
                all_words_dict[word] = 1
    # 根据键的值倒序排序
    all_words_tuple_list = sorted(all_words_dict.items(), key=lambda f: f[1], reverse=True)   # sorted返回的是一个新的列表
    all_words_list, all_words_nums = zip(*all_words_tuple_list)  # 解压缩
    all_words_list = list(all_words_list)  # 转换成列表
    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list   # 训练词汇表,训练集,测试集,训练标签,测试标签


def MakeWordsSet(words_file):
    words_set = set()      # 创建set集合
    with open(words_file, 'r', encoding='utf-8') as f:  # 打开文件
        for line in f.readlines():  # 一行一行读取
            word = line.strip()  # 去回车
            if len(word) > 0:  # 有文本,则添加到words_set中
                words_set.add(word)
    return words_set  # 返回处理结果


def words_dict(all_words_list, deleteN, stopwords_set):
    feature_words = []  # 特征列表
    n = 1
    for t in range(deleteN, len(all_words_list), 1):
        if n > 1000:  # feature_words的维度为1000
            break
        # 如果这个词不是数字,并且不是指定的结束语,并且单词长度大于1小于5,那么这个词就可以作为特征词
        if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len(all_words_list[t]) < 5:
            feature_words.append(all_words_list[t])
        n += 1
    return feature_words


# 根据feature_words将文本向量化
def TextFeatures(train_data_list, test_data_list, feature_words):
    def text_features(text, feature_words):  # 出现在特征集中,则置1
        text_words = set(text)                     # 首先对text去重,没有重复的值,作为词汇表
        features = [1 if word in text_words else 0 for word in feature_words]
        return features

    train_feature_list = [text_features(text, feature_words) for text in train_data_list]
    test_feature_list = [text_features(text, feature_words) for text in test_data_list]
    return train_feature_list, test_feature_list  # 训练集,测试集向量化


# 新闻分类器
def TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list):
    classifier = MultinomialNB().fit(train_feature_list, train_class_list)
    test_accuracy = classifier.score(test_feature_list, test_class_list)
    return test_accuracy

if __name__ == '__main__':
    # 文本预处理
    folder_path = './SogouC/Sample'  # 训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path)
    # 生成stopwords_set
    stopwords_file = './stopwords_cn.txt'
    stopwords_set = MakeWordsSet(stopwords_file)

    test_accuracy_list = []
    '''
    deleteNs = range(0, 1000, 20)  # 0 20 40 60 ... 980
    for deleteN in deleteNs:
        feature_words = words_dict(all_words_list, deleteN, stopwords_set)
        train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
        test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
        test_accuracy_list.append(test_accuracy)

    plt.figure()
    plt.plot(deleteNs, test_accuracy_list)
    plt.title('Relationship of deleteNs and test_accuracy')
    plt.xlabel('deleteNs')
    plt.ylabel('test_accuracy')
    plt.show()
    '''

    feature_words = words_dict(all_words_list, 450, stopwords_set)
    train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
    test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
    test_accuracy_list.append(test_accuracy)
    ave = lambda c: sum(c) / len(c)
    print(ave(test_accuracy_list))

    clt = MultinomialNB()
    clt.fit(train_feature_list, train_class_list)
    final_class_list = list(zip(test_data_list, clt.predict(test_feature_list)))  # zip压缩合并,将测试数据与标签对应压缩
    for each in final_class_list:
        print(each)
0.5789473684210527
(['\u3000', '\u3000', '20', '位', '网友', '领到', '免费', '回家', '机票', '\n', '\u3000', '\u3000', '自从', 'Qunar', '与', '搜狐', '、', '天益游', '网站', '合办', '“', '夺宝奇兵', '”', '的', '活动', '以来', ',', '已经', '有', '好多', '人中', '得', '免费', '机票', ',', '其中', '有', '二十位', '已经', '定', '好', '回家', '的', '机票', ',', '时间', '就', '在', '临近', '春节', '之前', '。', '为了', '让', '大家', '能够', '轻松愉快', '的', '领到', '机票', ',', 'Qunar', '和', '天益游', '决定', '把', '领票', '地点', '放在', '咖啡店', ',', '让', '大家', '既', '可', '领到', '免费', '机票', ',', '又', '可以', '享受', '到', '咖啡', '的', '浓香', ',', '让', '活动', '至始', '至', '终有', '个', '完美', '的', '诠释', '。', '\n', '\u3000', '\u3000', '上周五', '晚上', '六点', '多', '钟', ',', '中奖人', '陆陆续续', '来到', '领奖', '现场', ',', '在', 'Qunar', '几个', '工作人员', '的', '组织', '下', ',', '由', '去', '哪儿', '旅游', '搜索引擎', '合伙人', '庄臣', '超', '和', '天益游', '总经理', '谭', '治国', '把', '机票', '发到', '每位', '中奖人', '手中', '。', '先来', '的', '惊诧', ',', '后来', '的', '惊讶', ',', '大家', '都', '没想到', '有', '这么', '多中', '得', '大奖', '的', '人', '可以', '拿到', '年前', '的', '免费', '机票', '。', '其中', '有', '好几位', '家离', '北京', '都', '很', '远', ',', '家', '在', '贵阳', '、', '兰州', '、', '重庆', '、', '广州', '的', '都', '有', ',', '每次', '都', '挺', '害怕', '过年', ',', '而', '今年', '他们', '不再', '为此', '而', '担心', '了', '。', '当', '大家', '听到', '还有', '到', '机场', '的', '免费', '接送', '时', ',', '不由得', '发出', '欢乐', '的', '笑声', '。', '\n', '\u3000', '\u3000', '活动', '很快', '结束', '了', ',', '大家', '留下', '合影', ',', '也', '回去', '了', '。', '对', '某些', '人', '来说', '这', '一刻', '已经', '在', '记忆', '中', '消失', ',', '而', '对于', '某些', '人', '来说', ',', '这', '一刻', '刻骨铭心', '!'], 'C000022')
(['\u3000', '\u3000', '关键字', ':', '裁员', '\u3000', '美国在线', '\u3000', '呼叫', '中心', '\n', '\u3000', '\u3000', '标题', ':', '美国在线', '计划', '裁员', '1300', '人', '占', '全球', '员工', '总数', '7%', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '30', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国在线', '计划', '裁员', '1300', '人', ',', '约', '占', '其', '全球', '员工', '总数', '的', '7%', ',', '位于', '费罗', '里', '达州', '杰克逊', '维尔', '呼叫', '中心', '将', '被', '关闭', ',', '此外', ',', '位于', '犹他州', '奥格登', '美国', '亚利桑那州', '图森', '的', '呼叫', '中心', '也', '被', '列入', '此次', '裁员', '的', '范围', '。', '这', '是', '自', '去年', '秋天', '美国在线', '裁员', '700', '人', '以来', '最', '大规模', '的', '一次', '人员', '精简', '行动', '。', '去年', '10', '月份', ',', '面对', '拨号上网', '用户数量', '持续', '下跌', ',', '美国在线', '关闭', '奥兰多', '的', '呼叫', '中心', ',', '位于', '杰克逊', '维尔和', '总部', '杜勒斯', '的', '呼叫', '中心', '有', '部分', '职位', '被', '削减', ',', '总共', '裁员', '700', '人', ',', '约', '占', '其', '全球', '员工', '总数', '的', '4%', ',', '尽管', '美国在线', '的', '用户', '流失', '现象', '严重', ',', '但', '该', '公司', '的', '发言人', '尼古拉斯', '-', '格', '拉汉姆', '将', '这', '一', '结果', '归咎于', '用户', '对', '电脑', '的', '日益', '了解', '以及', '更', '多', '工具', '的', '出现', ',', '他', '表示', ':', '“', '与', '1996', '年', '美国在线', '建立', '会员中心', '相比', ',', '2006', '年', '的', '英特网', '世界', '是', '一个', '完全', '不同', '的', '世界', ',', '美国在线', '的', '会员', '们', '头脑', '更加', '灵活', ',', '具备', '更加', '丰富', '的', '电脑知识', ',', '他们', '几乎', '都', '是', '电脑', '通', ',', '一般', '的', '故障', '都', '能', '自己', '排除', ',', '呼叫', '中心', '的', '功能', '日趋', '减弱', '。', '”', '一项', '数据', '显示', ',', '自', '2004', '年', '以来', ',', '美国在线', '的', '呼叫', '量', '下降', '了', '近一半', '。', '\n', '\u3000', '\u3000', '关键字', ':', '手机', '销售', '\u3000', '排名', '\u3000', '瑞典', '\n', '\u3000', '\u3000', '标题', ':', '4', '月份', 'Telia', '商店', '手机', '销售', '排名', '前', '10', '位', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '35', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '法新社', '\n', '\u3000', '\u3000', '内容摘要', ':', '瑞典', '最大', '的', '通信', '产品', '零售店', 'Telia', '今天', '公布', '2006', '年', '4', '月份', '手机', '销售', '排行榜', ',', '进入', '销售', '前十', '的', '手机', '中索', '爱', '占', '5', '款', ',', '诺基亚', '占', '3', '款', ',', '三星', '占', '2', '款', ',', '其中', '有', '两款', '是', '3G', '手机', '(', '诺基亚', '6280', '和', '三星', 'Z140', ')', ',', '六款', '有', '照相', '功能', ',', '六款', '有', 'MP3', '播放', '功能', ',', '具体', '的', '排名', '为', ':', '排名', '前', '十位', '的', '手机', '为', ':', '(', '1', ')', '索爱', 'K750i', '(', '上', '月', '排名', '第四', ')', '、', '(', '2', ')', '诺基亚', '3120', '(', '上', '月', '排名', '第三', ')', '、', '(', '3', ')', '诺基亚', '5140i', '(', '上', '月', '排名', '第一', ')', '、', '(', '4', ')', '索爱', 'Z300i', '(', '上', '月', '排名', '第五', ')', '、', '(', '5', ')', '诺基亚', '6280', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '6', ')', '索爱', 'W810i', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '7', ')', '三星', 'X660', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '8', ')', '索爱', 'Z520i', '(', '上', '月', '排名', '第二', ')', '、', '(', '9', ')', '索爱', 'W800i', '(', '上', '月', '排名', '第六', ')', '、', '(', '10', ')', '三星', 'Z140', '(', '上', '月', '排名', '第九', ')', '。', 'Telia', '是', '瑞典', '最大', '的', '移动电话', '零售店', ',', '拥有', '78', '个', '商店', ',', '该', '排名', '就是', '依据', '各', '商店', '的', '销售', '数据', '得出', '的', '结果', ',', 'Telia', '市场部', '的', '负责人', '指出', ',', '“', '照相', '以及', 'MP3', '播放', '功能', '已经', '成为', '许多', '客户', '对', '手机', '的', '基本', '要求', ',', '手机用户', '对于', '移动', '电视', '的', '需求', '也', '在', '不断', '增加', '。', '”', '\n', '\u3000', '\u3000', '关键字', ':', '业内', '合作', '\u3000', '下载', '\u3000', '电视', '连续剧', '\n', '\u3000', '\u3000', '标题', ':', '苹果公司', '提供', '福克斯', '娱乐', '集团', '出品', '的', '电视', '连续剧', '的', '下载', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '苹果公司', '日前', '宣布', ',', 'iTunes', '音乐', '商店', '(', 'Music', ' ', 'Store', ')', '已经', '开始', '销售', '福克斯', '娱乐', '集团', '出品', '的', '电视', '连续剧', ',', '例如', '此前', '风靡', '全球', '的', '《', '24', '》', '。', '苹果公司', '介绍', '称', ',', '每部', '电视', '连续剧', '的', '下载', '费用', '为', '1.99', '美元', ',', '除了', '《', '24', '》', '之外', ',', '《', '盾牌', '》', '、', '《', '越狱', '》', '、', '《', '吸血鬼', '猎人', '巴菲', '》', '也', '在', '下载', '之', '列', '。', '此前', ',', 'iTunes', '音乐', '商店', '提供', '来自', 'ABC', '、', 'CBS', '以及', 'NBC', '的', '节目', '下载', '服务', '。', '\n', '\u3000', '\u3000', '关键字', ':', '民意测验', '\u3000', '电子游戏', '\u3000', '美国', '\n', '\u3000', '\u3000', '标题', ':', '40%', '美国', '成年', '男子', '玩', '电子游戏', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美联社', '与', '美国在线', '近期', '开展', '的', '一项', '民意测验', '显示', ',', '十个', '成年', '美国', '男人', '当中', '有四人', '通过', '电脑', '或者', '游戏机', '玩', '电子游戏', ',', '其中', '有', '45%', '的', '人', '通过', '因特网', '玩', '电子游戏', ',', '多于', '三分之一', '的', '人', '2005', '年', '花费', '在', '网络游戏', '上', '的', '资金', '达到', '两百', '美元', ',', '42%', '的', '人', '每周', '玩', '电子游戏', '的', '时间', '超过', '了', '四个', '小时', ',', '26%', '的', '人', '通过', '游戏机', '玩', '电子游戏', ',', '六分之一', '的', '人', '每周', '在线', '玩游戏', '的', '时间', '为', '十个', '小时', '。', '关于', '游戏', '的', '内容', ',', '战略', '游戏', '最', '受欢迎', ',', '其次', '为', '体育', '游戏', ',', '冒险游戏', '还有', '射击', '游戏', '以及', '仿真', '游戏', '。', '\n', '\u3000', '\u3000', '关键字', ':', '打击', '盗版', '\u3000', '下载', '\u3000', '华纳', '兄弟', '\n', '\u3000', '\u3000', '标题', ':', '华纳', '兄弟', '计划', '通过', 'BitTorrent', '提供', '影片', '下载', '服务', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '55', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国', '娱乐业', '巨头', '华纳', '兄弟', '公司', '(', 'Warner', ' ', 'Brothers', ')', '将', '成为', '第一家', '向', 'BitTorrent', '用户', '提供', '电影', '内容', '下载', '服务', '的', '公司', ',', '该', '公司', '希望', '通过', '此举', '打击', '盗版', '行为', '。', '华纳', '兄弟', '家庭', '娱乐', '公司总裁', 'Tsujihara', '表示', ':', '“', '盗版', '的', '问题', '变得', '越来越', '严重', ',', '我们', '的', '这种', '作法', '是', '将', '这', '一', '问题', '变成', '一种', '机会', ',', '如果', '我们', '能够', '将', '5%', ',', '10%', '甚至', '是', '15%', '的', '这些', '用户', '转化成', '合法', '的', '用户', ',', '其', '影响力', '将会', '十分', '的', '重大', '。', '”', '华纳', '兄弟', '公司', '指出', ',', '用户', '可以', '租用', '或者', '下载', '那些', '可以', '被', '制作', '成', 'DVD', '的', '拷贝', ',', '但是', '此项', '服务', '推出', '日期', '以及', '具体', '的', '定价', '目前', '还', '不得而知', '。', '此前', ',', '华纳', '兄弟', '准备', '将', '电影', '如', '《', '蝙蝠侠', '》', '、', '电视', '连续剧', '《', '玩酷', '世代', '》', '等', '影片', '通过', 'P2P', '网络', '在', '网路上', '销售', '。', '该', '公司', '一', '负责人', '指出', ',', '成功', '打败', '目前', '线上', '剽窃', '行为', '最', '有效', '的', '武器', '之一', '就是', '向', '用户', '提供', '合法', '且', '容易', '使用', '的', '替代性', '选择', '。', 'In2Movies', '服务', '使', '观众', '能够', '合法', '下载', '华纳', '旗下', '百视', '达', '的', '电影', '、', '地区性', '节目', '。', '\n', '\u3000', '\u3000', '关键字', ':', '业绩', '\u3000', '荷兰', '电讯', '公司', '\u3000', '净收入', '\n', '\u3000', '\u3000', '标题', ':', '荷兰', '电讯', '公司', 'Royal', ' ', 'KPN', ' ', 'NV', '周二', '表示', '其', '第一季度', '净收入', '达到', '3.83', '亿美元', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '道琼斯', '新闻', '\n', '\u3000', '\u3000', '内容摘要', ':', '荷兰', '电讯', '公司', 'Royal', ' ', 'KPN', ' ', 'NV', '周二', '表示', '其', '第一季度', '净收入', '达到', '3.83', '亿美元', ',', '比', '去年同期', '的', '2.74', '亿美元', '增长', '了', '40%', ',', '销售收入', '也', '达到', '了', '37.2', '亿美元', '。', '在', '固定', '电话', '部门', '收入', '下降', '2.3%', '达到', '21.4', '亿美元', '的', '情况', '下', ',', '移动', '收入', '增长', '了', '15%', ',', '达到', '了', '19', '亿美元', '。', '此外', ',', '该', '公司', '在', '德国', '新', '增加', '用户', '70', '万', '。', '\n', '\u3000', '\u3000', '关键字', ':', '新举措', '\u3000', '漫游费', '\u3000', '沃达丰', '\n', '\u3000', '\u3000', '标题', ':', '沃达丰', '表示', '将', '在', '明年', '降低', '手机', '漫游', '资费', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '25', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '道琼斯', '新闻', '\n', '\u3000', '\u3000', '内容摘要', ':', '迫于', '欧洲委员会', '的', '压力', ',', '英国', '电信', '巨头', '沃达丰公司', '(', 'Vodafone', ')', '近日', '表示', '将', '在', '明年', '降低', '手机', '漫游', '资费', ',', '其', '低价', '幅度', '将', '达到', '40%', '。', '欧洲委员会', '此前', '的', '建议', '称', ',', '当', '欧洲', '用户', '出国', '后', ',', '他们', '不', '应该', '被', '收取', '漫游费', ',', '不能', '因为', '他们', '出国', '旅行', '而', '缴纳', '更', '高', '的', '费用', '。', '\n', '\u3000', '\u3000', '关键字', ':', '新', '产品', '\u3000', '超薄', '手机', '\u3000', '三星', '\n', '\u3000', '\u3000', '标题', ':', '三星公司', '在', '莫斯科', '电信展', '推出', '两款', '超薄', '手机', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '40', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '在', '莫斯科', '的', 'Sviaz', ' ', 'ExpoComm', ' ', '2006', '电信展', '上', ',', '三星公司', '推出', '两款', '超薄', '手机', ',', '其中', '一款', '为', 'SGH', '-', 'X820', ',', '厚', '6.9', '毫米', ',', '重', '66', '克', ',', '内置', '200', '万', '像素', '摄像头', '和', 'MP3', '播放器', ',', '容量', '80MB', ',', '支持', '视频', '录制', '、', '蓝牙', '和', '电视', '输出', '。', '另外', '一款', '为', '滑盖式', '手机', 'SGH', '-', 'D900', ',', '厚度', '及', '重量', '比', 'SGH', '-', 'X820', '稍大', '一些', ',', '内置', '300', '万', '像素', '摄像头', ',', '支持', 'Quad', '-', 'band', ' ', 'GSM', '网络', ',', '但', '三星公司', '并', '没有', '透露', '这', '两款', '手机', '的', '价格', '。', '\n', '\u3000', '\u3000', '关键字', ':', '服务', ' ', '高清晰', ' ', '数字', '广播', '\n', '\u3000', '\u3000', '标题', ':', '英国广播公司', '(', 'BBC', ')', '首次', '推出', '免费', '的', '数字', '广播', '服务', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '7', '时', '10', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '路透社', '\n', '\u3000', '\u3000', '内容摘要', ':', '英国广播公司', '(', 'BBC', ')', '本周', '内', '首次', '推出', '了', '使用', '电视', '格式', '的', '高清晰', '数字', '广播', ',', '这项', '服务', '将', '进行', '为期', '一年', '的', '试验', '。', '根据', '此前', '英国广播公司', '所作', '的', '调查', '显示', ',', '了解', '高清晰', '数字', '广播', '的', '听众', '都', '期待', '着', 'BBC', '尽早', '开通', '高清晰', '数字', '广播', '服务', ',', '并', '希望', '在', '任何', '频道', '都', '能', '收到', '该', '广播', '。', '据', '报道', ',', '该项', '广播', '将', '从', '5', '月', '11', '日', '正式', '开通', ',', '开通', '之初', '仅限于', '拥有', '高清晰', '设备', '的', '用户', '。', 'BBC', '公司', '同时', '还', '证实', '了', '在', '世界杯', '期间', ',', '在', '某些', '地区', '数字', '广播', '能', '用', '电缆', '进行', '传播', '。', '从', '6', '月', '9', '日', '开始', ',', 'BBC', '公司', '将', '对', '世界杯', '进行', '高清晰', '无线电', '和', '电视', '的', '同时', '联播', '。', '这种', '联播', '还', '将', '应用', '于', '温布尔登', '主要', '的', '赛事', '。', 'BBC', '电视', '部门', '总监', '加纳', '?', '贝内特', '(', 'Jana', ' ', 'Bennett', ')', '说', ':', '“', '高清晰', '数字', '广播', '是', 'BBC', '公司', '计划', '在', '未来', '向', '全世界', '提供', '高清晰', '服务', '的', '而', '迈出', '的', '第一步', ',', '虽然', '步幅', '小', ',', '但是', '是', '激动人心', '的', '。', '”', '\n', '\u3000', '\u3000', '关键字', ':', '电脑', '黑客', ' ', '审判', ' ', '服刑', '\n', '\u3000', '\u3000', '标题', ':', '美国', '电脑', '黑客', '安契塔', '被判', '入狱', '57', '个', '月', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '35', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '法新社', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国', '电脑', '黑客', '安契塔', '被判', '入狱', '57', '个', '月', '。', '检方', '指出', ',', '安契塔', ',', '20', '岁', ',', '是', '知名', '秘密', '骇客', '网络', '“', '地下', '蠕虫', '大师', '”', '的', '要员', ',', '于', '去年', '十一月', '被捕', ',', '这是', '第一', '起遭', '起诉', '的', '相关', '案件', '。', '他', '被控', '侵入', '四十万', '余部', '电脑', '(', '或称', '僵尸', '网路', ',', 'bot', ' ', 'nets', ')', '损害', '其', '系统', ',', '并', '促使', '受害', '电脑', '大量', '寄发', '垃圾邮件', '。', '遭', '安契塔', '入侵', '的', ',', '还', '包括', '美国', '军方', '的', '服务器', '。', ' ', '在', '洛杉矶', '的', '联邦', '法庭', '上', ',', '面对', '17', '项', '指控', ',', '安契塔', '承认', '密谋', '违反', '电脑', '诈欺', '滥用', '法', '、', '反', '垃圾邮件', '法', ',', '和', '损及', '美国', '军方', '电脑', '。', '他', '并', '坦承', '散播', '能', '促使', '电脑', '发送', '垃圾邮件', '、', '广告', '以及', '对', '网站', '发动', '瘫痪', '性', '攻击', '的', '恶意', '软体', '。', ' ', '检方', '发言人', '莫柴克', '说', ':', '“', '安契塔', '尤其', '对', '这', '一连串', '的', '秘密', '犯行', '负有责任', ',', '他', '入侵', '加州', '近', '五十万', '部', '电脑系统', ',', '受', '波及', '的', '电脑', '并', '不', '限于', '家用电脑', ',', '这', '也', '让', '他', '与', '他人', '得以', '发动', '大规模', '的', '攻击', '。', '”', ' ', '安契塔', '在', '庭上', '同意', '赔偿', '军事', '单位', '一万五千', '美元', ',', '他', '的', '不法', '获益', '也', '遭', '没收', ',', '其中', '包括', '逾', '六万美元', '现金', '、', '一辆', 'B', 'M', 'W', '汽车', '与', '一些', '电脑设备', '。', '(', '章田', '编译', ')'], 'C000008')
(['\u3000', '\u3000', '\u3000', '世界', '的', '旅游业', '越来越', '熟悉', '一个', '新名词', '—', '—', '中国', '的', '黄金周', '。', '每到', '这个', '时候', ',', '中国', '都', '会', '迎来', '一次', '旅游', '高潮', ',', '一直', '席卷', '周边', '甚至', '更为', '遥远', '的', '一些', '国家', '和', '地区', ',', '使', '他们', '也', '跟', '随着', '这种', '固定', '的', '周期', '迎来', '一个个', '旅游', '、', '消费', '旺季', '。', '\n', '\u3000', '\u3000', '尽管', '出入境', '管理', '部门', '尚未', '公布', '具体', '数字', ',', '全国假日办', '负责人', '预测', '说', ',', '今年', '“', '五一', '”', '黄金周', ',', '出境', '旅游', '规模', '很', '可能', '超过', '去年', '“', '五一', '”', '黄金周', '1000', '多万人次', '的', '水平', '。', '\n', '\u3000', '\u3000', '中国', '游客', '涌', '来', '\n', '\u3000', '\u3000', '“', '标志', '”', '泰国', '从', '海啸', '中', '复苏', '\n', '\u3000', '\u3000', '5', '月', '2', '日', ',', '从事', '服装设计', '的', '胡明明', '第四次', '飞往', '泰国', '普吉岛', '度假', '。', '黄金周', '对', '她', '而言', ',', '就是', '躺', '在', '普吉岛', '沙滩', '上', ',', '晒', '一周', '太阳', '。', '作为', '中国', '公民', '最早', '的', '旅游', '目的地', '代表', '景点', ',', '普吉岛', '代表', '了', '东南亚', '国家', '在', '中国', '消费者', '心目', '中', '的', '独特', '地位', ':', '回头客', '越来越', '多', '。', '\n', '\u3000', '\u3000', '泰国', '国家旅游局', '的', '数据', '显示', ',', '2005', '年', '前往', '普吉', '的', '中国', '旅游者', '达', '10', '万人次', '左右', ',', '预计', '2006', '年', '将', '突破', '15', '万', ',', '从而', '成为', '泰国', '南部', '旅游业', '在', '印度洋', '海啸', '后', '全面', '恢复', '的', '“', '重要', '标志', '”', '。', '\n', '\u3000', '\u3000', '目前', '中国', '人', '出境游', '基本', '都', '是', '第一次', '出国', ',', '因此', '更', '看重', '价格', '。', '“', '中国', '人', '喜欢', '出访', '大城市', ',', '且', '往往', '都', '是', '走马观花', ',', '到', '哪里', '都', '要', '先', '照相', '。', '”', '一', '旅行社', '总经理', '助理', '郭明', '告诉', '记者', '。', '出境', '爱', '购物', '可能', '是', '中国', '人', '出境游', '的', '又', '一大', '特色', '。', '\n', '\u3000', '\u3000', '俄罗斯', '、', '蒙古', '游', '\n', '\u3000', '\u3000', '国人', '今年', '出游', '“', '新亮点', '”', '\n', '\u3000', '\u3000', '东南亚', '国家', '打出', '“', '山水相连', '”', '牌', ',', '韩国', '和', '日本', '旅游界', '则', '希望', '以', '“', '文化', '渊源', '”', '赢得', '中国', '“', '休闲', '商机', '”', '。', '在', '《', '大长', '今', '》', '、', '“', '韩流', '”', '等', '文化', '因素', '刺激', '之下', ',', '中', '韩', '两国之间', '的', '航线', '变得', '越来越', '繁忙', '。', '就', '在', '“', '五一', '”', '前', ',', '大', '韩', '航空', '宣布', '计划', '5', '年内', '将', '韩中', '航线', '增至', '50', '条', '。', '\n', '\u3000', '\u3000', '旅游', '交通', '经济', '分析', '师刘斌', '说', ',', '2006', '年', '“', '五一', '”', '黄金周', ',', '中国', '周边旅游', '的', '新亮点', '是', '俄罗斯', '、', '蒙古国', '。', '随着', '夏季', '到来', ',', '北亚', '风光', '呈现出', '独特', '的', '吸引力', '。', '目前', ',', '俄罗斯', '专门', '为', '中国', '旅游者', '成立', '的', '“', '无国界', '世界', '”', '协会', '正', '全力以赴', '利用', '中', '俄', '两国', '互办', '“', '国家', '年', '”', '的', '机遇', ',', '吸引', '更', '多', '中国', '游客', '“', '北上', '消费', '”', '。', '\n', '\u3000', '\u3000', '羡慕', '黄金周', '\n', '\u3000', '\u3000', '印度', '日本', '都', '“', '心动', '”', '了', '\n', '\u3000', '\u3000', '旅游', '观察家', '指出', ',', '中国', '“', '旅游', '休闲', '”', '商机', ',', '正', '从', '东南亚', '向', '东北亚', '“', '扇形', '展开', '”', ',', '并', '惠及', '越来越', '多', '的', '邻邦', '。', '\n', '\u3000', '\u3000', '刘斌', '认为', ',', '目前', '东南亚', '抢', '得', '中国', '“', '休闲', '潮', '”', '之先', ',', '可以', '为', '中国', '东盟', '经济', '贸易', '一体化', '“', '推波助澜', '”', '。', '东北亚地区', '作为', '中国', '主要', '客源', '市场', ',', '“', '双向', '流动', '”', '将', '催生', '“', '东北亚', '旅游圈', '”', ',', '从而', '与', '东南亚', '旅游圈', '南北', '呼应', '。', '这样', ',', '中国', '人', '的', '休闲', '不仅', '将', '成为', '所有', '周边国家', '的', '商机', ',', '而且', '将', '成为', '中国', '与', '这些', '国家', '睦邻友好', '的', '“', '休闲', '纽带', '”', '。', '\n', '\u3000', '\u3000', '从', '发展', '旅游', '经济', '的', '角度', '来说', ',', '中国', '的', '黄金周', '无疑', '让', '各国', '羡慕', '。', '印度', '的', '一家', '报纸', '曾', '对', '中国政府', '“', '聪明', '并且', '执行', '有力', '的', '黄金周', '政策', '”', '大加', '赞赏', ',', '认为', '印度政府', '应当', '向', '中国', '学习', '。', '而', '日本', '为了', '促进', '旅游', '、', '拉动', '内需', ',', '也', '修改', '了', '“', '节日', '法', '”', ',', '人为', '地', '制造', '出', '更', '多', '的', '长假', ',', '方便', '人们', '外出', '旅游', '或', '安排', '各种', '休闲活动', '。', '(', '新华', '每日电讯', ')', '\n', '\u3000', '\u3000', '新闻', '链接', '\n', '\u3000', '\u3000', '悉尼', '\n', '\u3000', '\u3000', '“', '处处', '是', '中国', '人', ',', '还', '以为', '回国', '了', '”', '\n', '\u3000', '\u3000', '“', '到', '悉尼', '来', '旅游', ',', '到处', '都', '能', '看到', '中国', '人', '的', '面孔', '。', '要不是', '看到', '外国人', '多点', ',', '还', '以为', '又', '回到', '了', '中国', '呢', '!', '”', '一位', '来自', '北京', '的', '张姓', '游客', '说', '。', '\n', '\u3000', '\u3000', '这', '也', '是', '不少', '中国', '游客', '初到', '澳大利亚', '时', '的', '感觉', '。', '去年', ',', '有', '28', '万', '中国', '游客', '赴', '澳', '旅游', ',', '占来', '澳', '游客', '总数', '的', '5.2%', '。', '\n', '\u3000', '\u3000', '在', '去年', '12', '月', '澳大利亚联邦政府', '发布', '的', '旅游', '战略', '中', ',', '中国', '被', '认为', '是', '澳', '旅游业', '增长', '最快', '的', '市场', '。', '据澳', '旅游业', '预测', '委员会', '预计', ',', '中国', '到', '澳大利亚', '旅游', '的', '人数', '将', '以', '每年', '16.5%', '的', '速度', '增长', ',', '到', '2014', '年', ',', '将会', '有', '110', '万', '中国', '游客', '来澳', '旅游', ',', '澳大利亚', '每', '7', '名', '游客', '中', '就', '有', '1', '名', '中国', '公民', '。', '届时', ',', '中国', '将', '有望', '成为', '澳大利亚', '最大', '的', '客源国', ',', '中国', '游客', '每年', '将', '为', '澳', '旅游业', '贡献', '60', '亿澳元', '。', '\n', '\u3000', '\u3000', '巴黎', '\n', '\u3000', '\u3000', '中国', '人', '不再', '“', '上车', '睡觉', '下车', '拍照', '”', '\n', '\u3000', '\u3000', '四五', '月份', '本是', '中国', '人', '赴法', '旅游', '的', '淡季', ',', '但', '“', '五一', '”', '长假', '却是', '淡季', '中', '的', '旺季', ',', '法国', '各大', '华人', '旅行社', '在此期间', '接待', '的', '中国', '游客', '数量', '几乎', '是', '平时', '的', '两倍', '。', '而', '中国', '人', '对', '赴', '法国', '乃至', '欧洲', '旅游', '的', '观念', '也', '发生', '改变', '。', '\n', '\u3000', '\u3000', '据', '法国', '文华', '旅行社', '总经理', '陈超英', '介绍', ',', '过去', ',', '中国', '游客', '总想', '在', '最', '短时间', '内以', '最少', '费用', '游览', '到', '最', '多', '数量', '的', '法国', '及其', '周边国家', '景点', '。', '一时间', ',', '“', '上车', '睡觉', ',', '下车', '拍照', ',', '一问', '什么', '都', '不', '知道', '”', '这', '段', '顺口溜', '成', '了', '此类', '贪多', '求全', '的', '旅游', '方式', '的', '生动', '写照', '。', '\n', '\u3000', '\u3000', '几年', '过去', ',', '随着', '出境游', '机会', '增加', ',', '越来越', '多', '的', '中国', '游客', '迷上', '了', '欧美', '游客', '所', '青睐', '的', '休闲游', '和', '主题', '游', '。', '陈超英', '说', ',', '以', '文华', '旅行社', '为例', ',', '参加', '休闲游', '和', '主题', '游', '的', '中国', '游客', '三年', '前', '只', '占', '中国', '游客', '总数', '的', '5%', ',', '现在', '已', '占', '到', '了', '30%', ',', '预计', '三年', '后', '将', '达到', '50%', '左右', '。', '他', '说', ',', '这', '不仅', '说明', '中国', '游客', '的', '消费', '能力', '提高', ',', '也', '说明', '他们', '的', '消费', '心理', '趋于', '成熟', '。', '\n', '\u3000', '\u3000'], 'C000016')
(['\u3000', '\u3000', '万络', '给', '止痛药', '市场', '带来', '的', '阴霾', '久久', '仍未散', '去', ',', '但', '这', '丝毫', '不能', '说明', '该', '市场', '的', '需求', '在', '减少', '。', '在', '既定', '的', '需求', '现实', '下', ',', 'C', 'O', 'X', '-', '2', '抑制剂', '的', '衰落', ',', '必然', '引来', '趁虚而入', '者', '。', '不久前', '我国', '河南', '帅克', '制药', '和', '贵州', '益佰', '先后', '宣称', '将', '倚靠', '新', '的', '止痛药', '进入', '该', '领域', ',', '一场', '“', '分羹', '”', '之战', '显然', '已经', '急促', '展开', '。', '\n', '\u3000', '\u3000', '潜力', '巨大', '的', '镇痛药', '市场', '一直', '是', '跨国公司', '的', '天下', ',', '而', '最近', '它们', '的', '优势', '地位', '正', '经受', '挑战', ',', '其', '缘由', '是', '2', '0', '0', '4', '年', '8', '月份', '王牌', '止痛药', '万络', '爆出', '安全性', '问题', '引发', '了', '市场', '对', '新型', '非甾体', '止痛药', '的', '不信任感', '。', '\n', '\u3000', '\u3000', '去年', '9', '月', '万络', '自动', '撤出', '我国', '后', '腾出', '了', '巨大', '的', '市场', '空间', ',', '引起', '了', '众多', '企业', '的', '觊觎', ',', '去年', '5', '月', '1', '3', '日', ',', '中美史克', '曾经', '发起', '“', '霞光', '行动', '”', ',', '试图', '从', '困境', '中', '挽救', '其', 'O', 'T', 'C', '王牌', '药', '芬必得', ',', '但', '更', '多', '的', '国内', '企业', '则', '尽量', '避开', '身处', '安全性', '危机', '旋涡', '中', '的', 'C', 'O', 'X', '-', '2', '抑制剂', '领域', ',', '希望', '从', '新', '的', '镇痛', '领域', '入手', '找到', '征战', '止痛药', '市场', '的', '新', '武器', '。', '\n', '\u3000', '\u3000', '不久前', '我国', '河南', '帅克', '制药', '和', '贵州', '益佰', '先后', '宣称', '将', '倚靠', '新', '的', '止痛药', '进入', '这个', '潜力', '仅次于', '感冒药', '的', '新', '领域', ',', '据帅克', '制药', '董事长', '张克军', '透露', ',', '帅克', '开发', '的', '止痛', '新药', '氨酚', '曲马', '多片', '即将', '上市', '。', '据', '记者', '了解', ',', '该', '产品', '也', '是', '今年', '西安', '杨森', '力推', '的', '重点', '产品', '。', '而', '贵州', '益佰', '方面', '则', '透露', ',', '该', '公司', '将', '凭借', '一种', '止痛', '中药', '来', '分切', '国内', '巨大', '的', '止痛药', '市场', '。', '\n', '\u3000', '\u3000', '显然', ',', '一场', '新', '的', '止痛药', '市场', '“', '分羹', '”', '大战', '已经', '打响', '。', '\n', '\u3000', '\u3000', '止痛药', '市场', '依然', '是', '金矿', '\n', '\u3000', '\u3000', '分析', '人士', '指出', ',', '尽管', '目前', '使用', '最多', '的', 'C', 'O', 'X', '-', '2', '抑制剂', '正', '遭遇', '安全性', '危机', ',', '但', '对于', '整个', '止痛药', '并', '不', '构成', '影响', ',', '此', '事件', '的', '最大', '可能', '是', '各大类', '止痛药', '由此', '进行', '一轮', '市场', '替代', ',', '而', '与此同时', ',', '整个', '市场', '还', '在', '继续', '增长', '。', '\n', '\u3000', '\u3000', '中国', '已经', '步入', '老龄化', '社会', ',', '中老年', '人口', '约', '有', '5', '亿', '。', '风湿', '和', '类风湿', '关节炎', '、', '肩周炎', '、', '颈椎病', '、', '骨质增生', '等', '疾病', '在', '老年', '甚至', '中年人', '群中', '属于', '常见病', '、', '多发病', ',', '各类', '疼痛', '病症', '患者', '约', '占', '中老年', '群体', '的', '6', '5', '%', ',', '而且', '这一', '群体', '数量', '还', '在', '不断', '的', '增加', '。', '\n', '\u3000', '\u3000', '另外', ',', '随着', '我国', '制造业', '大国', '地位', '的', '不断', '提升', ',', '产业工人', '数量', '急剧', '膨胀', ',', '长期', '的', '劳作', '容易', '导致', '各种', '机体', '劳损', '和', '关节', '疼痛', ',', '因此', ',', '该', '群体', '已经', '成为', '疼痛', '药物', '消费', '的', '另', '一个', '大', '群体', '。', '由于', '电脑', '等', '工具', '的', '引入', ',', '人们', '的', '工作', '和', '生活', '方式', '已经', '发生', '了', '根本', '的', '改变', ',', '长期', '的', '静坐', '催生', '了', '这', '一', '人群', '各种', '疼痛', '的', '出现', ',', '这是', '导致', '疼痛', '人群', '增长', '的', '又', '一个', '重要', '因素', '。', '\n', '\u3000', '\u3000', '据', 'I', 'M', 'S', '国际', '咨询', '公司', '预测', ',', '2', '0', '0', '5', '年', ',', '全球', '止痛剂', '市场', '总量', '达', '8', '0', '0', '亿美元', '以上', '。', '目前', ',', '美国', '、', '欧洲', '和', '日本', '是', '全球', '最大', '的', '止痛药', '市场', ',', '过去', '3', '0', '年', '来', '止痛药', '市场', '销售额', '一直', '在', '稳步', '上升', '。', '国内', '的', '资料', '也', '显示', ':', '我国', '非处方药', '市场', '上', '止痛药', '增长', '迅速', ',', '其', '销售', '仅次于', '感冒药', ',', '大约', '占', '到', '了', '2', '0', '%', '的', '比例', '。', '\n', '\u3000', '\u3000', '与此同时', ',', '目前', '医学', '更加', '注重', '病人', '的', '生活', '质量', ',', '对患', '各种', '疾病', '引起', '的', '疼痛', '的', '治疗', '也', '催生', '了', '新', '的', '止痛药', '市场', '。', '以', '癌症', '疼痛', '为例', ',', '\n', '\u3000', '\u3000', '据', '我国', '卫生部', '统计数据', '显示', ',', '2', '0', '世纪', '9', '0', '年代', '我国', '肿瘤', '发病率', '已', '上升', '为', '1', '2', '7', '例', '/', '1', '0', '万人', '。', '近年来', '我国', '每年', '新增', '肿瘤', '患者', '1', '6', '0', '万', '~', '1', '7', '0', '万人', ',', '死', '于', '恶性肿瘤', '人数', '达', '1', '4', '0', '万人', ',', '肿瘤', '患者', '总数', '估计', '在', '4', '5', '0', '万人', '左右', '。', '肿瘤', '患者', '中', '至少', '有', '1', '/', '3', '存在', '着', '不同', '程度', '的', '疼痛', ',', '其中', '晚期', '患者', '占', '6', '0', '%', '~', '9', '0', '%', '。', '\n', '\u3000', '\u3000', '市场', '加速', '洗牌', '\n', '\u3000', '\u3000', '由于', '止痛药', '使用', '领域', '及其', '广泛', ',', '所以', '各类', '药物', '的', '使用', '不能', '一概而论', ',', '但', '就', '医院', '处方', '板块', '分析', ',', '目前', '主要', '有', '四大', '类', '镇痛药', ',', '分别', '为', '阿片类', '镇痛药', '、', '非甾体', '类', '镇痛药', '、', '植物', '类', '镇痛药', '以及', '抗', '偏头痛', '制剂', '。', '非甾体', '类', '镇痛药', '原本', '是', '被', '寄予', '了', '厚望', ',', '在', '万络', '以及', '西乐', '葆', '等', '一批', '新型', '药物', '的', '带动', '下', '整个', '市场', '发展趋势', '非常', '喜人', '。', '1', '9', '9', '8', '年', ',', '全国', '1', '4', '个', '典型', '城市', '入网', '医院', '的', '非甾体', '抗炎药', '购药', '金额', '为', '9', '9', '0', '3', '.', '3', '万元', ',', '到', '2', '0', '0', '2', '年', '已经', '增长', '至', '1', '4', '0', '2', '2', '.', '3', '万元', '(', '见表', '1', ')', '。', '\n', '\u3000', '\u3000', '不过', '由于', '非甾体', '类', '镇痛药', '的', '安全性', '问题', ',', '其', '市场', '有', '逐渐', '下滑', '的', '趋势', ',', '而', '阿片类', '药物', '则', '有', '上升', '的', '势头', ',', '相互', '市场', '取代', '现象', '比较', '明显', '。', '以', '使用', '较', '多', '的', '癌症', '镇痛', '为例', ',', '在', '2', '0', '0', '2', '~', '2', '0', '0', '4', '年', '样本', '医院', '镇痛', '类药物', '使用', '情况', '(', '见表', '2', ')', '中', ',', '阿片类', '镇痛药', '的', '市场', '分额', '由', '2', '0', '0', '2', '年', '的', '6', '2', '.', '4', '%', '上升', '到', '2', '0', '0', '4', '年', '的', '6', '8', '.', '4', '%', '。', '而', '非甾体', '类', '镇痛药', '的', '份额', '却', '从', '2', '0', '0', '2', '年', '的', '3', '4', '.', '4', '%', '下跌', '至', '2', '0', '0', '4', '年', '的', '2', '9', '.', '2', '%', '。', '\n', '\u3000', '\u3000', '在', '阿片类', '镇痛药', '中', ',', '目前', '主要', '由曲', '马多', '、', '芬太尼', '和', '吗啡', '3', '大', '品种', '领衔', ',', '这三大', '品种', '占', '整个', '阿片类', '药品', '使用', '金额', '的', '7', '0', '%', '以上', '(', '见', '附图', ')', '。', '\n', '\u3000', '\u3000', '芬太尼', '为', '人工合成', '的', '非', '衍生物', '类', '阿片', '药片', ',', '属于', '强', '阿片类', '镇痛药', ',', 'W', 'H', 'O', '将', '它', '归入', '第三', '阶梯', '镇痛药', ',', '其', '主要', '通过', '激动', '阿片类', '受体', '(', 'μ', '受体', ')', '而', '发挥', '镇痛', '作用', ',', '止痛', '作用', '为', '相同', '剂量', '吗啡', '的', '5', '0', '~', '1', '0', '0', '倍', '。', '吗啡', '主要', '用于', '晚期', '癌症', '患者', '第三', '阶梯', '止痛', '。', '从', '市场趋势', '来看', ',', '曲马多', '增长', '后劲', '十足', ',', '该', '产品', '是', '胺', '苯环', '醇类', '人工合成', '弱', '阿片类', '药物', ',', '镇痛', '强度', '在', '同等', '剂量', '时', ',', '相当于', '吗啡', '的', '1', '/', '5', ',', '但', '明显', '强于', '其他', '非', '类固醇', '抗炎药', ',', '适用', '于', '中', '、', '重度', '癌性', '疼痛', ',', '被', 'W', 'H', 'O', '列为', '癌痛', '三', '阶梯', '止痛', '治疗', '的', '第二', '阶梯', '推荐', '药物', '。', '该药', '与', '阿片', '受体', '的', '亲和力', '比', '吗啡', '弱', '6', '0', '0', '0', '倍', ',', '基本', '不', '存在', '成瘾性', ',', '可以', '长期', '使用', ',', '因此', '在', '治疗', '剂量', '下', ',', '不', '产生', '呼吸', '抑制', ',', '不', '影响', '心血管', '功能', ',', '也', '不', '产生', '便秘', '、', '排尿', '困难', '等', '不良反应', '。', '由于', '该药', '的', '管制', '相对', '较松', ',', '除', '可以', '用于', '癌症', '疼痛', '的', '治疗', '外', ',', '还', '可以', '在', '骨关节炎', '、', '腰椎间盘', '突出', '症', '、', '肩关节', '周围', '炎', '、', '创伤', '、', '手术', '后', '疼痛', '和', '骨质疏松症', '所致', '的', '腰腿痛', '中', '使用', '。', '该类', '药', '在', '医保', '目录', '中属', '乙类', '药物', ',', '目前', '癌痛', '临床', '应用', '中多为', '缓释片', '。', '\n', '\u3000', '\u3000', '复合', '使用', '药物', '增长势头', '明显', '\n', '\u3000', '\u3000', '目前', '镇痛药', '市场', '还有', '一个', '明显', '的', '趋势', '就是', '越来越', '强调', '联合', '用药', ',', '根据', '2', '0', '0', '5', '年前', '三季度', '典型', '医院', '用药', '情况', '显示', ',', '一些', '复合', '使用', '的', '药物', '增长势头', '明显', ',', '像', '氨基', '比林', '+', '安替比林', '+', '巴比', '妥', ',', '克痛宁', '+', '曲马多', '+', '布洛芬', ',', '羟考', '酮', '+', '对乙酰氨基酚', '等', '。', '\n', '\u3000', '\u3000', '张克军', '也', '认为', ',', '鉴于', '止痛', '新药', '不断', '遭受', '安全性', '问题', ',', '复方', '用药', '将', '是', '镇痛药', '今后', '新', '产品开发', '的', '一个', '重要', '方向', ',', '一些', '新型', '的', '复方', '产品', '正', '显示', '良好', '的', '市场前景', ',', '目前', '选择', '的', '重点', '就是', '将', '一些', '原来', '在', '临床', '使用', '多年', ',', '疗效', '确切', ',', '安全性', '高', '的', '药', '组合', '在', '一起', '。', '像', '最近', '上市', '的', '氨酚', '曲马', '多片', '就是', '由', '阿片类', '和', '非甾体', '类', '使用', '最久', '的', '盐酸', '曲马多', '和', '对乙酰氨基酚', '组合', '在', '一起', '的', '复方', '产品', ',', '临床', '研究', '证实', '该药', '主要', '用于', '缓解', '中度', '及', '重度', '疼痛', ',', '起效', '迅速', ',', '镇痛', '效果', '明显', ',', '无', '成瘾性', ',', '不良反应', '相比', '其', '单方', '制剂', '和', '其他', '参比', '制剂', '明显', '更', '低', ',', '该', '产品', '2', '0', '0', '1', '年', '8', '月', '在', '美国', '由', 'F', 'D', 'A', '批准', '上市', '。', '西安', '杨森', '在', '去年', '将', '该药', '引进', '我国', ',', '目前', '正在', '力拓', '市场', '。', '鉴于', '该', '产品', '在', '我国', '无', '相关', '产权保护', ',', '河南', '帅克', '制药', '在', '国内', '企业', '中', '抢先', '仿制', '了', '这个', '产品', '。', '张克军', '透露', ',', '该', '产品', '目前', '已经', '上市', ',', '有望', '培养', '成为', '一个', '镇痛药', '的', '大', '品种', ',', '或许', '依靠', '新型', '复方', '制剂', '可以', '参与', '重新', '划分', '止痛药', '市场', '的', '格局', '。'], 'C000008')
(['\u3000', '\u3000', '牙防组', '事件', '再起', '风波', ',', '此次', '争议', '的', '核心', '是', ',', '口腔', '用品', '认证', '办法', '的', '管理', '对象', '应该', '是', '“', '保健', '”', '品', '还是', '“', '护理', '”', '品', '。', '\n', '\u3000', '\u3000', '本报', '独家', '获悉', ',', '4', '月', '24', '日', ',', '中国', '口腔', '清洁', '护理', '用品', '工业协会', '(', '原', '牙膏', '工业协会', ',', '下称', '“', '牙膏', '协会', '”', ')', '以', '书面形式', '向', '国家', '认证', '认可', '监督管理', '委员会', '(', '下称', '“', '认监委', '”', ')', '递交', '了', '一份', '文件', ',', '称', '如果', '把', '牙膏', '纳入', '认证', ',', '将', '不利于', '企业', '的', '发展', '。', '\n', '\u3000', '\u3000', '文件', '陈述', '了', '数条', '理由', ',', '诸如', '牙膏', '企业', '的', '每个', '产品', '都', '必须', '认证', '将会', '影响', '到', '生产', '和', '销售', '的', '效率', '等等', '。', '\n', '\u3000', '\u3000', '文件', '还称', ',', '即便', '必须', '认证', ',', '也', '应该', '是', '认证', '“', '口腔', '护理', '”', '用品', ',', '而', '不是', '“', '口腔', '保健', '”', '用品', '。', '\n', '\u3000', '\u3000', '4', '月', '13', '日', ',', '认监委', '发布', '了', '《', '口腔', '保健用品', '认证', '管理', '办法', '(', '征求意见', '稿', ')', '》', '。', '\n', '\u3000', '\u3000', '自', '发布', '之', '日', '以来', ',', '围绕', '这', '两个', '词', '的', '拉锯', '始终', '没有', '停止', '。', '而', '在', '意见', '征求', '期', '过后', ',', '卫生部', '法规', '司将', '根据', '程序', '将', '这个', '办法', '发布', '成为', '部颁标准', '。', '\n', '\u3000', '\u3000', '“', '如', '不', '采用', '‘', '保健', '’', ',', '而', '采用', '‘', '护理', '’', ',', '那么', '办法', '将', '失去', '意义', '。', '”', '江苏', '雪豹', '日化', '有限公司', '的', '董事长', '童渝于', '昨日', '向', '认监委', '提交', '了', '一份', '针锋相对', '的', '建议', '。', '\n', '\u3000', '\u3000', '据', '知情', '人士', '透露', ',', '牙膏', '协会', '如此', '激烈', '反对', '的', '原因', '是', ',', '一旦', '“', '保健', '”', '认证', '推行', ',', '将会', '由', '具备', '专业', '团队', '的', '相关', '单位', '来', '担当', '。', '而', '牙膏', '协会', '属于', '原', '轻工', '系统', ',', '缺乏', '这些', '资源', '。', '\n', '\u3000', '\u3000', '“', '所以', '他们', '更', '倾向', '于用', '‘', '护理', '’', '一词', ',', '可以', '名正言顺', '地', '把', '认证', '权', '纳入', '自己', '的', '管理', '范畴', '。', '”', '\n', '\u3000', '\u3000', '相对', '于', '强调', '牙膏', '功能性', '的', '“', '保健', '”', ',', '“', '护理', '”', '一词', '在', '字面', '的', '意义', '更', '倾向', '于', '清洁', '。', '前者', '的', '主管部门', '是', '卫生部门', ',', '后者', '则', '是', '牙膏', '协会', '。', '\n', '\u3000', '\u3000', '有', '消息人士', '称', ',', '现在', '已有', '数百家', '单位', '开始', '申请', '成为', '合法', '的', '牙膏', '认证', '机构', '。', '\n', '\u3000', '\u3000', '“', '最后', '的', '认证', '机构', '已经', '基本', '成型', '。', '”', '有关', '人士', '透露', '说', ',', '这个', '即将', '浮出', '水面', '的', '机构', '与', '卫生系统', '下属', '的', '全国', '牙防组', '有着', '紧密', '的', '“', '血缘', '”', '关系', '。', '\n', '\u3000', '\u3000', '在此之前', '的', '牙防组', '事件', '中', ',', '没有', '认证', '资格', '的', '全国', '牙防组', '违规', '认证', '十多年', ',', '被', '北京', '律师', '李纲告', '上', '法庭', '。', '此后', ',', '认监委', '紧急', '启动', '认证', '程序', ',', '目前', '最后', '的', '用词', '尚', '不明朗', '。'], 'C000008')
(['\u3000', '\u3000', '设想', '一下', ',', '如果', '某', '家', '银行', '花', '了', '大', '力气', '进行', '品牌', '建设', ',', '可', '顾客', '每每', '面对', '的', '是', '铁栅栏', '后面', '一张', '冷冰冰', '的', '脸', ',', '敷衍', '推诿', ',', '甚至', '恶语相向', ',', '他们', '自然', '很难', '相信', '这家', '银行', '所作', '的', '品牌', '承诺', ',', '也', '会', '动摇', '对', '银行', '的', '信任', '\n', '\u3000', '\u3000', '本报记者', '范松璐', '发自', '上海', '\n', '\u3000', '\u3000', '在', '一个', '金融服务', '品牌', '提升', '研讨会', '上', ',', '扬特', '品牌', '欧洲', '的', '董事长', 'TerryTyrrell', '饶有兴趣', '地', '展示', '了', '一些', '别出心裁', '的', '银行', '标志', ',', '从', '图案', '的', '设计', '中', '很', '容易', '发现', '为', '人们', '所', '熟悉', '的', '知名', '公司', '品牌', '的', '影子', ',', '比如', '麦当劳', '那个', '醒目', '的', '“', 'm', '”', '和', '苹果电脑', '缺', '了', '口', '的', '苹果', ',', '而', '类似', '可口可乐', '的', '标志', '下', ',', '索性', '写', '着', '“', 'CocaCash', '”', ',', '看到', '这些', '易于', '识别', '和', '引发', '联想', '的', '标志', ',', '台下', '观众', '发出', '一阵阵', '会心', '的', '笑声', '。', '\n', '\u3000', '\u3000', '“', '当然', ',', '这些', '银行', '标志', '只是', '我', '的', '想象', ',', '不过', ',', '目前', '在', '金融', '服务业', '领域', ',', '有没有', '像', '这', '几家', '企业', '那样', '影响', '深远', '的', '品牌', '呢', '?', '恐怕', '还', '没有', '。', '”', 'Terry', '说', '。', '在', '激烈', '的', '竞争', '环境', '中', ',', '弱势', '品牌', '可能', '会', '被', '猎食', ',', '不过', ',', '只', '知道', '掏钱', '购买', '弱势', '品牌', '、', '而', '并', '不能', '建立', '一个', '强大', '品牌', '的', '猎食', '者', '也', '未必', '能', '得到', '良好', '的', '投资', '回报', '。', '对', '现有', '的', '银行', '而言', ',', '建立', '自身', '的', '强势', '品牌', '适逢其时', ',', '而且', '相当', '重要', '。', '\n', '\u3000', '\u3000', '应求', '与众不同', '\n', '\u3000', '\u3000', '国内', '金融', '服务业', '暗流', '汹涌', '。', '2006', '年', '是', '中国', '进入', 'WTO', ',', '承诺', '开放', '金融市场', '的', '关键', '一年', ',', '外资银行', '即将', '进入', ',', '竞争', '格局', '正', '发生变化', ',', '市场', '内部', '也', '萌生', '诸多', '影响', '零售', '银行业务', '成长', '的', '因素', '—', '—', '高强度', '的', '经济', '发展', '、', '政府', '收缩', '对', '社会福利', '的', '补助', '、', '房屋', '私有', '率', '提高', '、', '人口', '日益', '老龄化', '、', '个人消费', '成为', '经济', '发展', '的', '关键', '动力', ',', '而且', '企业', '银行业务', '要', '利用', '总体性', '平衡', '来', '管理', '中小型', '企业', '贷款', '、', '开发', '收费', '产品', '。', '\n', '\u3000', '\u3000', '讲', '到', '银行', '现存', '的', '症结', ',', '人们', '的', '第一', '反应', '往往', '是', '不良贷款', '比率', '偏高', '、', '风险', '评估', '实战经验', '不足', '、', '消费性', '金融', '产品', '缺失', '、', '企业', '管理', '标准', '不够', '完备', '等等', '。', '但', '另一方面', ',', '不容忽视', '的', '是', ',', '国内', '银行', '的', '品牌', '建设', '也', '存在', '某种', '滞后', '—', '—', '鲜有', '差异化', '的', '品牌', '定位', '、', '品牌', '经营', '思维', '和', '以', '客户', '为本', '的', '鲜明形象', ',', '顾客', '感受', '到', '的', '环境', '和', '服务', '面目', '雷同', ',', '甚至', '干脆', '一模一样', '。', '扬特', '中国区', '创意', '总监', '黄鼎杰', '展示', '了', '一页', '图片', ',', '是', '某家', '知名', '商业银行', '的', '营业厅', ',', '“', '能', '看', '出来', '这', '是', '哪', '一家', '银行', '吗', '?', '”', '的确', ',', '对', '多数', '人', '来说', ',', '只能', '感觉', '似曾相识', ',', '却', '基本', '无从', '分辨', '究竟', '是', '哪', '一家', '。', '\n', '\u3000', '\u3000', '再', '看', '银行', '的', '图标', ',', '如果', '把', '具体', '的', '图案', '及', '字体', '隐', '去', ',', '会', '发现', '图标', '的', '颜色', '和', '形状', '极其', '接近', ',', '比如', '四大', '国有', '商业银行', '的', '图标', '都', '是', '圆形', '图案', '加上', '银行', '名字', '。', '“', '圆形', ',', '应该', '是', '钱币', '的', '意思', ',', '不过', '是否', '可以', '改换', '一下', '视觉', '形象', ',', '让', '自己', '更', '醒目', '些', ',', '区分', '性会', '带来', '更', '多', '机会', '。', '”', '黄鼎杰', '还', '展示', '了', '某家', '美国银行', '的', '营业厅', '照片', ',', '乍一看', '去', ',', '难以想象', '这', '居然', '会', '是', '银行', ',', '而', '更', '像', '一家', '前卫', '酒吧', '—', '—', '设计', '活泼', '明快', ',', '各种', '独特', '有趣', '的', '细节', '点缀', '夺人', '眼球', ',', '还有', '咖啡', '台', '和', '上网', '的', '电脑', ',', '“', '在', '这样', '的', '银行', '里', ',', '等待', '也', '似乎', '不', '那么', '让', '人', '心焦', '了', '—', '—', '不过', '这种', '风格', '在', '国内', '还是', '有些', '超前', ',', '可能', '很多', '人会', '不', '放心', '把', '钱', '放进去', '。', '”', '黄鼎杰', '觉得', ',', '毕竟', '大多数', '顾客', '对', '银行', '的', '期望', '还是', '以', '“', '专业', '、', '安全', '、', '权威', '”', '为主', ',', '在', '此基础', '上', ',', '如果', '适当', '加入', '更', '多', '“', '友善', '、', '亲切', '”', '的', '元素', ',', '会', '进一步', '提升', '银行', '在', '顾客', '心中', '的', '形象', '。', '比如', '在', '香港', ',', '大多数', '银行', '的', '保安', '并', '不', '穿', '制服', ',', '这些', '细节', '往往', '能', '拉近', '顾客', '的', '心理', '距离', '。', '\n', '\u3000', '\u3000', '对', '银行', '来说', ',', '通过', '识别系统', '、', '广告', '活动', '等', '方式', '来', '建立', '品牌', '构造', '是', '远远不够', '的', ',', '必须', '有', '更', '高标准', ',', '还要', '更', '多', '地', '从', '感情', '上', '联结', '顾客', ',', '建立', '强烈', '的', '认同感', '。', '银行业', '正在', '掀起', '一场', '争取', '客户', '心智', '的', '战役', '。', '\n', '\u3000', '\u3000', '别', '让', '冰山', '倾覆', '\n', '\u3000', '\u3000', 'Terry', '展示', '了', '一幅', '冰山', '的', '图片', ',', '在', '他', '看来', ',', '人们', '从', '外面', '感受', '一家', '企业', ',', '就', '如同', '看到', '露出', '海面', '的', '冰山', ',', '其中', '包括', '品牌', '的', '定位', '、', '个性', '、', '表述', '等', '方面', ',', '而', '水面', '以下', '深藏不露', '的', '更', '大部分', '则', '是', '企业', '自身', '对内', '的', '战略', '、', '愿景', '、', '价值', '和', '激励', ',', '这些', '是', '令', '品牌', '长久', '保持', '活力', '的', '源泉', ',', '作用', '更为', '关键', ',', '正', '所谓', '“', '吸引', '人', '的', '真实', '”', '(', 'com', ' ', 'p', ' ', 'e', ' ', 'llin', ' ', 'g', ' ', 'tru', ' ', 'th', ')', '。', '露出', '水面', '的', '冰山', '可以', '吸引', '外界', '注意', ',', '但', '倘若', '缺少', '真实', '的', '根基', ',', '冰山', '终究', '难逃', '倾覆', '的', '命运', '。', '\n', '\u3000', '\u3000', '很多', '企业', '在', '努力', '建立', '和', '管理', '品牌', '的', '时候', ',', '不觉', '间会犯', '一个', '错误', ',', '只', '把', '注意力', '聚焦', '在', '顾客', '身上', ',', '而', '忽略', '了', '对', '员工', '的', '沟通', '、', '了解', '和', '重视', '。', '\n', '\u3000', '\u3000', '“', '如果', '不能', '把', '员工', '培养', '成', '忠实', '的', '内部', '品牌', '拥护者', ',', '那', '就', '太', '可惜', '了', '。', '”', '扬特', '中国区', '董事', '总经理', 'Debora', ' ', 'Chatwin', ' ', '认为', ',', '前线', '员工', '应该', '成为', '真正', '的', '品牌', '大使', ',', '发挥', '独特', '能力', ',', '和', '顾客', '建立', '良好', '关系', ',', '给', '公司', '带来', '利润', ',', '自己', '也', '得到', '更大', '的', '满足', '。', '\n', '\u3000', '\u3000', '员工', '投入', '度', '对', '公司', '的', '回报', '影响', '不可', '忽视', ',', '《', '星期日', '泰晤士报', '》', '在', '2002', '年', '一项', '“', '最佳雇主', '”', '调查', '中', '也', '指出', ',', '获得', '雇员', '好评', '的', '公司', '股价', '和', '股息', '收益', '增幅', '达', '25', '%', ',', '远高于', '同期', '英国', '全股', '指数', '6.3%', '的', '上涨幅度', '。', '再', '回到', '国内', ',', '盖勒', '普', '2004', '年', '进行', '了', '一项', '调查', ',', '将', '工作', '的', '人们', '分为', '“', '投入', '型', '”', '、', '“', '不', '投入', '型', '”', '、', '“', '积极', '投入', '型', '”', '三种', '类型', ',', '结果显示', ',', '有', '68%', '的', '人', '属于', '“', '不', '投入', '型', '”', ',', '对', '工作', '没有', '激情', ',', '觉得', '工作', '与', '自己', '个人', '关系不大', ',', '工作', '时', '几乎', '形同', '梦游', '。', '粗暴', '、', '冷漠', '、', '不', '满足', '的', '员工', '会', '伤及', '客户', '和', '公司', '自身', ',', '身处', '服务业', '的', '银行', '更是如此', '。', '\n', '\u3000', '\u3000', '设想', '一下', ',', '如果', '某', '家', '银行', '花', '了', '大', '力气', '进行', '品牌', '建设', ',', '可', '顾客', '每每', '面对', '的', '是', '铁栅栏', '后面', '一张', '冷冰冰', '的', '脸', ',', '敷衍', '推诿', ',', '甚至', '恶语相向', ',', '他们', '自然', '很难', '相信', '这家', '银行', '所作', '的', '品牌', '承诺', ',', '也', '会', '动摇', '对', '银行', '的', '信任', '。', '许多', '国有', '商业银行', '在', '此', '方面', '可能', '需要', '多一些', '反思', '。', '“', '领导层', '的', '重视', '是', '使得', '员工', '与', '品牌', '紧密', '联结', '在', '一起', '的', '重要', '因素', '。', '”', 'Terry', '表示', '。', '\n', '\u3000', '\u3000', '“', '员工', '联结', '”', '修固', '品牌', '根基', '\n', '\u3000', '\u3000', '银行', '的', '顾客', '细分', '、', '产品开发', '、', '风险管理', '都', '需要', '高水平', '的', '管理者', '和', '职员', ',', '有些', '人才', '要', '从', '外部', '市场', '引进', '并', '整合', '到', '银行', '的', '运营', '和', '文化', '中', ',', '这', '一点', '上', ',', '超越', '金钱', '奖励', '而', '创造', '积极向上', '的', '企业', '文化', '可能', '更为', '长远', '。', '\n', '\u3000', '\u3000', '渣打银行', '在', '员工', '联结', '方面', '的', '努力', '产生', '了', '一定', '的', '效果', ',', '面对', '资源', '收缩', '、', '员工', '士气', '开始', '低落', '的', '现象', ',', '银行', '开展', '了', '名为', '“', '树立', '典范', '”', '(', 'TaketheLead', ')', '的', '内部', '沟通', '计划', ',', '希望', '将', '所有', '人力资源', '和', '传播', '活动', '加以', '整合', ',', '清晰', '传递', '管理层', '的', '承诺', ',', '对', '员工', '进行', '积极', '有效', '的', '奖励', ',', '使', '他们', '重获', '工作', '的', '信心', '和', '自豪感', ',', '表现', '自己', '的', '领导', '才能', '。', '\n', '\u3000', '\u3000', '计划', '的', '代言人', '是', '一个', '活泼', '的', '卡通人物', '“', 'StarMan', '”', '(', '星仔', ')', ',', '它', '的', '各种', '形象', '代表', '了', '各种', '“', '树立', '典范', '”', '的', '行动', ',', '力求', '将', '抽象', '鼓励', '变成', '具体', '榜样', '。', '渣打银行', '向', '高级', '经理', '们', '发放', '一套', '介绍', '计划', '的', '录像带', '和', '新', '的', '员工', '通讯录', ',', '贯彻', '名为', '“', 'JustSayThankYou', '”', '(', '说句', '谢谢您', ')', '的', '员工', '表扬', '计划', ',', '用', '有', '“', '星', '”', '形象', '的', '卡片', '给', '努力', '工作', '的', '同事', '写', '谢谢', ',', '公司', '刊物', '也', '更名', '为', '“', 'TheLeader', '”', '(', '典范', ')', '。', '另外', ',', '银行', '在', '对外', '的', '信息', '传递', '中', '也', '采用', '很多', '“', '星仔', '”', '标志', ',', '这', '一切', '都', '使', '员工', '对', '整个', '计划', '的', '印象', '不断', '深化', ',', '并', '逐步', '加强', '认同感', '。', '最终', ',', '顾客', '满意度', '显著', '上升', ',', '员工', '流失', '减少', ',', '对', '品牌', '内涵', '的', '理解', '更深', '。', '\n', '\u3000', '\u3000', '“', '员工', '联结', '”', '不', '只是', '让', '大伙儿', '了解', '正在', '发生', '的', '事情', ',', '更要', '得到', '他们', '的', '投入', '和', '参与', ',', '与', '品牌', '之间', '产生', '一种', '紧密', '的', '情感', '。', '这样', '不仅', '能', '使', '冰山', '露出', '水面', '的', '部分', '看上去', '很', '美', ',', '深埋在', '水下', '、', '不易', '为', '人', '所', '见', '的', '真实', '根基', '也', '会', '更加', '牢固', ',', '做到', '这些', ',', '依靠', '银行', '自身', '长久', '的', '修为', '。'], 'C000008')
(['\u3000', '\u3000', '杭州', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '9', '日', '-', '11', '日', ' ', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '杭州', '华辰', '国际饭店', ' ', '四层', '会议厅', '(', '杭州', '平', '海路', '27', '号', ')', '\u3000', '\u3000', '南京', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '17', '日', '-', '19', '日', ' ', ' ', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '南京', '希尔顿', '国际', '大酒店', ' ', '二层', 'A', '厅', '(', '南京', '中山东路', '319', '号', ')', '\u3000', '\u3000', '上海', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '21', '日', '-', '23', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '上海图书馆', ' ', '第一', '展厅', '(', '上海市', '淮海中路', '1555', '号', ')', '\u3000', '\u3000', '济南', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '27', '日', '-', '29', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '山东', '大厦', ' ', '一层', '多功能厅', '(', '济南市', '马鞍山', '路', '2', '-', '1', '号', ')', '\u3000', '\u3000', '北京', '\u3000', '\u3000', '时间', ':', '2005', '年', '11', '月', '1', '日', '-', '3', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '北京', '港澳', '中心', ' ', '二层', '宴会', '大厅', '(', '北京', '朝阳门', '北大街', '2', '号', ')', '\u3000', '\u3000', '\u3000', '\u3000', '拍', ' ', '卖', ' ', '预', ' ', '展', '\u3000', '\u3000', '时间', ':', '2005', '年', '11', '月', '23', '日', '-', '25', '日', ' ', ' ', ' ', '9', ':', '00', '-', '20', ':', '00', '\u3000', '\u3000', '地点', ':', '北京', '亚洲', '大酒店', '(', '北京', '工体', '北路', '新中', '西街', '8', '号', ')', '\u3000', '\u3000', '拍', ' ', ' ', ' ', ' ', ' ', '卖', '\u3000', '\u3000', '时间', ':', '\u3000', '\u3000', '2005', '年', '11', '月', '26', ' ', ' ', ' ', '上午', '9', ':', '30', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '2005', '年', '11', '月', '26', ' ', ' ', '下午', '13', ':', '00', '\u3000', '\u3000', '中国书画', '(', '一', ')', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '中国书画', '(', '二', ')', '\u3000', '\u3000', '2005', '年', '11', '月', '27', ' ', ' ', ' ', '上午', '9', ':', '30', '\u3000', '\u3000', '中国书画', '(', '三', ')', ' ', ' ', '-', '-', '《', '当代', '中国画', '风貌', '》', '\u3000', '\u3000', '2005', '年', '11', '月', '27', ' ', ' ', '下午', '13', ':', '00', '\u3000', '\u3000', '中国', '油画', '\u3000', '\u3000', '地点', ':', '北京', '亚洲', '大酒店', ' ', '三层', '多功能厅', '(', '北京', '工体', '北路', '新中', '西街', '8', '号', ')', '\u3000', '\u3000', '搜狗', '(', 'www', '.', 'sogou', '.', 'com', ')', '搜索', ':', '“', '书画', '”', ',', '共', '找到', '2', ',', '095', ',', '334', '\n', '个', '相关', '网页', '.', '\x00', '\x00'], 'C000023')
(['\u3000', '\u3000', '新华网', '深圳', '3', '月', '3', '日电', '(', '记者', '贾文军', ')', '全国', '拳击', '锦标赛', '3', '日', '在', '深圳市', '龙岗', '体育中心', '拉开战幕', ',', '在', '接下来', '的', '一周', '里', ',', '来自', '全国', '各地', '的', '200', '多名', '拳击', '健儿', '将', '在', '这里', '展开', '角逐', '。', '\n', '\n', '\u3000', '\u3000', '本次', '锦标赛', '由', '国家体育总局', '拳击', '跆拳道', '运动', '管理中心', '主办', '。', '比赛', '设置', '了', '51', '公斤', '、', '57', '公斤', '、', '64', '公斤', '、', '75', '公斤', '和', '91', '公斤', '5', '个', '级别', ',', '全国', '各地', '共有', '45', '支', '代表队', '参赛', '。', '\n', '\n', '\u3000', '\u3000', '此前', ',', '中国', '拳击', '队', '已经', '在', '深圳', '进行', '了', '3', '个', '月', '的', '冬训', '。', '国家体育总局', '拳击', '跆拳道', '运动', '管理中心', '副', '主任', '崔', '富国', '表示', ',', '要', '通过', '这次', '比赛', '来', '检验', '冬训', '的', '成果', ',', '也', '要', '根据', '比赛', '成绩', '为', '2008', '年', '北京', '奥运会', '选拔', '优秀人才', '。', '\n'], 'C000014')
(['\u3000', '\u3000', '中广网', '5', '月', '9', '日', '广州', '图库', '消息', '(', '记者', '何伟奇', ' ', '通讯员', '仇文确', ')', '据', '广东', '肇庆', '图库', '旅游', '部门', '统计', ',', '“', '五一', '”', '黄金周', '到', '肇庆', '各地', '主要', '旅游', '景区', '的', '游客', '人数', '达', '106', '万人次', ',', '与', '去年', '同期相比', '增长', '16%', ',', '其中', '城市', '接待', '旅游者', '人数', '为', '55.95', '万人次', ',', '同比', '增长', '10.2%', ',', '旅游', '收入', '2.09', '亿元', ',', '同比', '增长', '12.4%', '。', '\n', '\u3000', '\u3000', ' ', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\u3000', '\u3000', '\u3000', '“', '五一', '”', '黄金周', '肇庆', '鼎湖山', '举行', '“', '山泉', '泼水节', '”', '\n', '\u3000', '\u3000', '“', '五一', '”', '黄金周', '期间', ',', '七星岩', '图库', '推出', '的', '“', '十里', '走单骑', '”', '自行车', '环湖', '游', '、', '鼎湖山', '“', '山泉', '泼水节', '”', '、', '德庆', '醇正', '岭面', '古迹', '游', '、', '封开', '萝筐', '节', '、', '梦多奇', '溶洞', '、', '怀集', '燕峰峡', '温泉', '漂流', '、', '广宁', '竹海', '美食', '、', '四', '会', '造纸', '村', '访古', '、', '高', '要', '生态园', '寻梦', '等', '活动', '让', '游客', '感受', '到', '肇庆', '千里', '旅游', '走廊', '旅游', '“', '天天', '有', '新意', '、', '日日', '景', '不同', '”', '的', '休闲', '旅游', '新体验', '。', '\n', '\u3000', '\u3000', '\n', '\n', '\u3000', '\u3000', '\u3000', '\u3000', '肇庆', '千里', '旅游', '走廊', '如诗如画', '\n', '\u3000', '\u3000', '今年', '肇庆市', '不断完善', '旅游', '配套', '设施', '建设', ',', '在', '千里', '旅游', '走廊', '上', '新', '增设', '了', '多个', '一目了然', '的', '景区', '指引', '牌', ',', '为', '自驾车', '旅游', '人士', '提供', '了', '清晰', '的', '指引', '。', '此外', '还', '加强', '了', '旅游', '安全', '生产', '管理', '和', '规范', '旅游', '服务质量', '管理', ',', '推出', '了', '旅游', '志愿者', '服务', ',', '为', '到达', '景区', '的', '游客', '免费', '提供方便', '指引', ',', '受到', '众多', '中外', '旅游者', '的', '欢迎', '。', '\n', '\u3000', '\u3000', '来源', ':', '中国', '广播网'], 'C000016')
(['\n', '\u3000', '\u3000', '皇帝', '“', '金口', '”', '吓', '走', '奇才', '\n', '\u3000', '\u3000', '詹姆斯', '绝对', '全能', ',', '能', '突破', '、', '能', '投篮', '、', '能', '运球', '、', '能', '传球', ',', '还', '能', '…', '…', '用', '嘴', '赢得', '比赛', '。', '在', '骑士队', '114', '比', '113', '战胜', '奇才队', '以', '总比分', '4', '比', '2', '晋级', '东区', '半决赛', '的', '比赛', '中', ',', '詹姆斯', '就', '施展', '了', '一回', '他', '的', '嘴', '上', '功夫', ',', '仅', '只言片语', '就', '说', '得', '阿里', '纳斯罚', '输', '了', '比赛', '。', '刚刚', '在', '联盟', '里', '混', '了', '三年', '的', '詹姆斯', ',', '已经', '开始', '向伯德', '、', '米勒', '等', '“', '口技', '”', '出众', '的', '老前辈', '看齐', '了', '。', '\n', '\u3000', '\u3000', '现场', ' ', '一', '张嘴', '战败', '一', '双手', '\n', '\u3000', '\u3000', '阿里', '纳斯有', '一双', '投手', '的', '手', ',', '这', '双手', '可以', '让', '他', '投中', '三分', '线', '两米', '开外', '的', '三分球', ',', '可以', '让', '他', '在', '对', '骑士队', '的', '生死', '大战', '上', '独得', '36', '分', '。', '然而', '阿里', '纳斯', '没有', '想到', ',', '当', '这', '双', '可以', '把', '罚球', '命中率', '控制', '在', '80', '%', '以上', '的', '手', '遭遇', '詹姆斯', '宽', '而', '厚', '的', '双唇', '时', ',', '竟然', '抖', '得', '连', '一个', '球', '也', '罚', '不进', '。', '\n', '\u3000', '\u3000', '是', '阿里', '纳斯', '的', '手', '葬送', '了', '奇才队', ',', '还是', '从', '詹姆斯', '唇间', '吐出', '的', '只言片语', '成就', '了', '骑士', '?', '\n', '\u3000', '\u3000', '一切', '应该', '从', '比赛', '最后', '两秒', '说起', '。', '当时', ',', '得到', '球', '的', '阿里', '纳斯', '没有', '选择地', '在', '三分', '线', '两米', '开外', '起跳', '投篮', '。', '球', '出手', '后', ',', '阿里', '纳斯', '的', '双眼', '一直', '盯', '着', '皮球', '在', '空中', '飞行', '的', '轨迹', ',', '当球', '进筐', '的', '一刹那', ',', '阿里', '纳斯', '几乎', '和', '全场', '观众', '的', '惊呼', '声', '同步', '举起', '双手', '。', '这', '是', '他', '对', '这', '双手', '的', '感谢', ',', '是', '它们', '让', '奇才队', '出现', '了', '一丝', '生', '的', '希望', '。', '或许', ',', '当时', '的', '阿里', '纳斯', '已经', '开始', '认为', '胜利', '女神', '在', '这', '一天', '是', '站', '在', '他们', '这边', '的', '。', '\n', '\u3000', '\u3000', '可', '一切', '并', '不', '顺利', ',', '阿里', '纳斯', '的', '最后', '一投', '好像', '耗尽', '了', '他', '的', '神奇', '。', '在', '加时赛', '里', ',', '骑士队', '的', '防守', '让', '他', '一分', '未得', '。', '直到', '比赛', '还', '剩', '15', '秒', ',', '休斯', '对', '阿里', '纳斯', '犯规', ',', '后者', '才', '获得', '了', '两次', '轻易', '得分', '的', '罚球', '机会', '。', '而', '这时', ',', '奇才队', '领先', '一分', '。', '\n', '\u3000', '\u3000', '本赛季', '罚球', '命中率', '高达', '82%', '的', '阿里', '纳斯', '走上', '了', '罚球线', ',', '在', '习惯性', '的', '将', '球', '绕身', '三周', '之后', ',', '他', '的', '第一', '罚', '并', '没有', '罚中', '。', '手感', '还', '没有', '恢复', ',', '阿里', '纳斯', '深吸', '了', '一口气', '。', '\n', '\u3000', '\u3000', '就', '在', '这时', ',', '詹姆斯', '走', '到', '阿里', '纳斯', '身边', ',', '拍', '着', '对方', '的', '胸口', ',', '低着头', '轻轻地', '说道', ':', '“', '如果', '你', '连', '第二', '罚', '也', '错失', '了', ',', '你', '知道', '谁', '会', '来', '终结', '比赛', '。', '”', '在', '之前', '第三场', '和', '第五场', '的', '较量', '中', ',', '骑士队', '均', '以', '一分', '优势', '险胜', ',', '而且', '都', '是', '由', '詹姆斯', '在', '最后', '时刻', '强攻', '上篮', '投中', '制胜球', '。', '\n', '\u3000', '\u3000', '阿里', '纳斯', '的', '表情', '变得', '很', '凝重', ',', '而', '他', '的', '罚篮', '准备', '动作', '也', '发生', '了', '改变', '。', '他', '第二次', '罚球', '前', ',', '并', '没有', '在', '腰间', '绕球', ',', '而是', '直接', '罚篮', '。', '这是', '平时', '的', '阿里', '纳斯', '绝不会', '做', '的', '事情', '。', '阿里', '纳斯', '心急', '了', ',', '方寸大乱', '!', '结果', ',', '第二', '罚球', '偏得', '比', '第一', '罚时', '还', '离谱', '。', '骑士队', '反攻', '的', '机会', '来', '了', '。', '\n', '\u3000', '\u3000', '战术', ' ', '皇帝', '发话', ' ', '小兵', '下手', '\n', '\u3000', '\u3000', '詹姆斯', '真的', '履行', '了', '对', '阿里', '纳斯', '的', '“', '诺言', '”', ',', '在', '接下来', '的', '进攻', '中', '对', '奇才队', '进行', '了', '绝杀', '吗', '?', '没有', '。', '完成', '绝杀', '的', '是', '阿里', '纳斯', '根本', '想不到', '的', '达蒙', '·', '琼斯', '。', '应该', '说', ',', '詹姆斯', '的话', '完全', '是', '一次', '攻心', '战术', '。', '\n', '\u3000', '\u3000', '在', '阿里', '纳斯罚', '失两球', '后', ',', '骑士队', '随即', '叫', '了', '暂停', '。', '主帅', '布朗', '布置', '了', '他', '这场', '比赛', '的', '最后', '一个', '战术', ':', '詹姆斯', '主攻', ',', '休斯', '接应', ',', '如果', '休斯', '还', '没有', '机会', ',', '球', '就', '交给', '琼斯', '投', '。', '\n', '\u3000', '\u3000', '比赛', '再次', '开始', ',', '詹姆斯', '一', '接到', '球', ',', '阿里', '纳斯', '和', '丹尼尔斯', '马上', '跟', '出', '三分', '线', ',', '对', '詹姆斯', '进行', '包夹', ',', '奇才队', '显然', '不', '希望', '再', '重蹈', '前', '几场', '的', '覆辙', ',', '因此', '立刻', '对', '其', '采取', '包夹', '战术', '。', '已经', '知道', '如何', '应对', '的', '“', '小', '皇帝', '”', '将球', '传给', '休斯', ',', '而', '在', '一旁', '防守', '琼斯', '的', '巴特勒', '立刻', '选择', '了', '放弃', '对', '琼斯', '的', '防守', ',', '去', '盯防', '休斯', '。', '而', '此时', '琼斯', '在', '底线', '无人', '防守', ',', '休斯', '立即', '传球', ',', '琼斯', '一击', '命中', '。', '\n', '\u3000', '\u3000', ' ', '\n', '“', '很', '显然', ',', '胜利', '女神', '今晚', '并', '没有', '站', '在', '我们', '这边', '。', '你', '能', '想象', '吗', '?', '一个', '罚球', '命中率', '在', '80%', '的', '投手', ',', '在', '最后', '时刻', '竟然', '两罚', '不', '中', '。', '我', '只能', '说', ',', '今晚', '太', '糟糕', '了', '。', '”', '比赛', '已经', '结束', ',', '阿里', '纳斯', '还', '在', '想着', '刚才', '发生', '的', '事情', '。', '\n', '\u3000', '\u3000', '历史', ' ', '“', '邮差', '周日', '不', '送信', '”', '\n', '\u3000', '\u3000', '詹姆斯', '并', '不是', '第一个', '使用', '攻心', '战术', '帮助', '球队', '获胜', '的', '人', '。', '这', '其中', '最', '经典', '的', '莫过于', '原', '公牛队', '著名', '球星', '皮蓬', '对', '马龙', '说', '的', '那句', '“', '邮差', '周日', '不', '送信', '”', ',', '简直', '就是', '詹姆斯', '对', '阿里', '纳斯', '的', '翻版', '。', '\n', '\u3000', '\u3000', '1996', '-', '97', '赛季', '公牛', '与', '爵士', '总决赛', '第六场', ',', '那', '是', '一个', '星期天', '。', '两支', '球队', '杀得', '难解难分', ',', '终场', '前', '35', '秒', '战成', '82', '比', '82', '平', '。', '马龙', '在', '最后', '关头', '获得', '罚球', '机会', ',', '但', '站', '在', '一边', '的', '皮蓬', '对', '绰号', '“', '邮差', '”', '的', '马龙', '说', ':', '“', '星期天', '邮差', '不', '送信', '。', '”', '一句', '话', '让', '马龙', '“', '心惊胆战', '”', ',', '结果', '终场', '前', '9.2', '秒', '居然', '两次', '关键', '罚球', '砸', '筐', '而', '出', '。', '\n', '\u3000', '\u3000', '而', '此后', '“', '飞人', '”', '乔丹', '在', '下', '一', '回合', '进攻', '时', ',', '一个', '胯下', '运球', ',', '突然', '急停', '并', '向', '后撤', '步', ',', '一记', '稳稳', '的', '跳投', '随着', '终场哨', '响', '飞入', '篮筐', ',', '公牛队', '84', '比', '82', '两分', '险胜', '。', '这一球', '也', '是', '近', '20', '年来', 'NBA', '总决赛', '中', '惟一', '一个', '真正', '的', '压哨', '绝杀', '球', '。', '\n', '\u3000', '\u3000', '“', '口技', '大师', '”', ' ', '各有', '绝活', '\n', '\u3000', '\u3000', '用', '言语', '干扰', '对手', '心态', ',', '从', '精神', '上', '击败', '对手', '的', '情况', '在', 'NBA', '的', '赛场', '上', '很', '普遍', ',', '包括', '伯德', '、', '乔丹', '、', '米勒', '在内', '的', '一批', '天皇巨星', '都', '会', '利用', '这', '招来', '打击', '对手', '的', '自信心', '。', '然而', '每位', '巨星', '运用', '“', '口技', '”', '的', '特点', '却', '各不相同', '。', '\n', '\u3000', '\u3000', '伯德', ' ', '先知', '型', '\n', '\u3000', '\u3000', '伯德', '喜欢', '对', '某个', '事件', '进行', '“', '预测', '”', ',', '再', '把', '他', '“', '预测', '”', '的', '结果', '告诉', '对手', ',', '最后', '用', '自己', '的', '实力', '将', '他', '的', '“', '预言', '”', '实现', '。', '\n', '\u3000', '\u3000', '“', '我要', '在', '这里', '进', '三分', '送', '你们', '回家', '。', '”', '—', '—', '伯德', '在', '一场', '比赛', '的', '最后', '一次', '进攻', '前', '指着', '三分', '线外', '的', '一块', '地板', '对', '对手', '说', ',', '当时', '拥有', '进攻', '权', '的', '凯尔特人', '队', '与', '对手', '平分', '。', '结果', '界外球', '开出', '后', ',', '伯德', '真的', '在', '那里', '接球', '投进', '压哨', '三分', ',', '赢下', '比赛', '。', '\n', '\u3000', '\u3000', '“', '你们', '决定', '谁', '要', '拿', '第二名', '了', '吗', '?', '”', '—', '—', '1986', '年', '全明星', '三分球', '大赛', '前', ',', '伯德', '一进', '休息室', '就', '问', '所有', '参赛者', '。', '伯德', '最终', '夺得', '了', '那届', '三分', '大赛', '的', '冠军', '。', '\n', '\u3000', '\u3000', '乔丹', ' ', '显摆', '型', '\n', '\u3000', '\u3000', '乔丹', '喜欢', '向', '所有人', '炫耀', '自己', '的', '超人', '实力', ',', '因此', ',', '使用', '“', '口技', '”', '也', '就', '变成', '了', '他', '向', '对手', '显摆', '的', '工具', '。', '在', '他', '使用', '这', '招时', ',', '完全', '是', '一副', '上帝', '对', '凡人', '训诫', '的', '模样', '。', '\n', '\u3000', '\u3000', '“', '你', '投', '呀', ',', '我', '让', '你', '投', '…', '…', '投呀', '!', '”', '—', '—', '乔丹', '在', '防守', '时', '最常', '说', '的话', ',', '通常', '情况', '下', '对手', '都', '会', '投篮不中', '。', '\n', '\u3000', '\u3000', '“', '加油', ',', '你', '差点', '就', '守住', '我', '了', '。', '”', '—', '—', '乔丹', '在', '进攻', '得手', '之后', '最常', '说', '的话', '。', '\n', '\u3000', '\u3000', '姚明', ' ', '\n', '努力', '型', '\n', '\u3000', '\u3000', '别以为', '母语', '是', '汉语', '的', '姚明', '不会', '使用', '“', '口技', '”', '。', '在', 'NBA', '征战', '了', '三个', '赛季', '的', '姚明', '融入', 'NBA', '是', '全方位', '的', ',', '在', '口技', '方面', '虽然', '不比', '之前', '几位', '大师', ',', '但', '也', '有', '上乘之作', '。', '\n', '\u3000', '\u3000', '“', '我要', '打得', '你', '把', '护齿', '都', '吞下去', '。', '”', '—', '—', '2005', '年', '2', '月', '10', '日', ',', '在', '火箭队', '105', '比', '92', '战胜', '公牛队', '的', '比赛', '中', ',', '姚明', '对', '公牛队', '中锋', '钱德勒', '说', '。', '在', '说完', '这句', '话', '后', ',', '姚明', '在', '对手', '头上', '连得', '6', '分', '。', '是', '役', ',', '他', '10', '投', '9', '中', '砍', '下', '21', '分', '。', '\n', '\u3000', '\u3000', '“', '口技', '对决', '”', '米勒', '太嫩', '\n', '\u3000', '\u3000', '使用', '“', '口技', '”', '攻击', '对手', ',', '并', '不是', '百分之百', '能', '成功', '的', '。', '在', 'NBA', '的', '历史', '中', ',', '经常', '使用', '“', '口技', '”', '的', '雷杰', '·', '米勒', '就', '碰到', '过', '使用', '“', '口技', '”', '得到', '反', '效果', '的', '事情', ',', '因为', '他', '攻击', '的', '对象', '是', '心理素质', '超强', '且', '更', '擅长', '“', '口技', '”', '的', '伯德', '。', '\n', '\u3000', '\u3000', '在', '米勒', '的', '新秀', '赛季', ',', '年轻', '的', '米勒', '在', '步行者队', '的', '主场', '第一次', '碰到', '伯德', '。', '当时', '步行者队', '落后', '两分', ',', '伯德', '获得', '罚球', '机会', '。', '米勒', '随即', '向伯德', '发出', '“', '嘿', '!', '嘿', '!', '”', '的', '干扰', '声', '。', '“', '你', '没', '开玩笑', '吧', ',', '菜鸟', '?', '”', '伯德', '对', '米勒', '说', ',', '然后', '从容', '地', '罚进', '一', '球', '。', '当伯德', '再次', '得到', '球时', ',', '他', '又', '说', ':', '“', '菜鸟', ',', '我', '告诉', '你', ',', '我', '是', '现在', '联盟', '里', '最', '顶尖', '的', '投手', ',', '全', 'NBA', '!', '知道', '吗', '?', '你', '还有', '什么', '想', '说', '的', '吗', '?', '”', '接着', ',', '伯德', '又', '罚进', '一', '球', '。', '“', '我', '当时', '真是', '蠢到', '十八层', '地狱', '去', '了', '。', '”', '米勒', '在', '自己', '的', '回忆录', '中', '提到', '这', '段', '往事', '时', ',', '评价', '自己', '当时', '的', '表现', '说', '。'], 'C000014')
(['\n', '【', '倾城', '之恋', '】', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '1984', '年', '香港', '邵氏', '公司出品', '\n', '倾城', '之恋', '\n', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '到处', '都', '是', '传奇', ',', '可', '不见得', '有', '这么', '圆满', '的', '收场', '。', '胡琴', '咿咿呀呀', '拉着', ',', '在', '万盏', '灯火', '的', '夜晚', ',', '拉过来', '又', '拉', '过去', ',', '说', '不尽', '的', '苍凉', '的', '故事', '—', '—', '不问', '也罢', '!', '---', '【', '倾城', '之恋', '】', '\n', '出品', ':', '邵逸夫', '原著', ':', '张爱玲', '改编', ':', '蓬草', '美术', ':', '区丁平', '摄影', ':', '何东尼', '作曲', ':', '林敏怡', '作词', ':', '林敏聪', '演唱', ':', '汪明荃', '片长', ':', '95min', '语言', ':', '粤语', '/', '普通话', '外文', '别名', ':', 'Love', ' ', 'in', ' ', 'a', ' ', 'FallenCity', '(', '1984', ')', '副', '导演', ':', '关锦鹏', '、', '曹建南', '导演', ':', '许鞍华', '主演', ':', '周润发', '&', 'nbsp', ';', ' ', '饰', '&', 'nbsp', ';', ' ', '范柳原', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '缪骞', '人', '&', 'nbsp', ';', ' ', '饰', '&', 'nbsp', ';', ' ', '白流苏', '获奖', ':', '第', '25', '届', '金马奖', '最佳', '服装设计', ' ', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '第', '4', '届', '香港电影', '金像奖', '最佳', '音乐', '\n', '【', '剧情简介', '】', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '本片', '改编自', '张爱玲', '的', '同名', '原著', '小说', ',', '是', '一部', '具有', '相当', '怀旧', '色彩', '的', '爱情故事', ',', '讲述', '一个', '城市', '(', '香港', ')', '的', '陷落', ',', '是', '为了', '成全', '范柳原', '(', '周润发', ')', '和', '白流苏', '(', '缪骞', '人', ')', '的', '爱情', '。', '导演', '许鞍华', '捕捉到', '了', '男女之间', '那种', '似假', '还', '真的', '微妙', '感情', ',', '但', '对白', '有所', '拘紧', ',', '局限', '在', '原著', '小说', '中', ',', '有', '欠', '挥洒自如', '。', '本片', '的', '情节', '发展', '为', '前后', '二', '部分', ',', '前半部', '描写', '离婚', '多年', '的', '白流苏', '在', '上海', '的', '娘家', '饱爱', '兄嫂', '的', '讽刺', '欺凌', ',', '后半部', '白流苏', '到', '了', '香港', ',', '跟', '风流', '浪子', '周润发', '展开', '了', '拉锯', '式', '的', '爱情', '。', '缪演', '得', '相当', '敏感', '而', '细腻', ',', '把', '一个', '不错', '的', '上海', '女子', '塑造', '得', '相当', '有', '味道', ',', '而周', '也', '卖弄', '了', '他', '的', '俊雅', '潇洒', '。', '幸而', '导演', '掌握', '了', '对白', '独有', '的', '尖刻', '嘲讽', ',', '重现', '了', '香港', '四十年代', '的', '风情', '。', '上', '一页', '&', 'nbsp', ';', '[', '1', ']', '&', 'nbsp', ';', '[', '2', ']', '&', 'nbsp', ';', '[', '3', ']', '&', 'nbsp', ';', '[', '4', ']', '&', 'nbsp', ';', '[', '5', ']', '&', 'nbsp', ';', '[', '6', ']', '&', 'nbsp', ';', '[', '7', ']', '&', 'nbsp', ';', '[', '8', ']', '&', 'nbsp', ';', '[', '9', ']', '&', 'nbsp', ';', '下', '一页', '&', 'nbsp', ';'], 'C000023')
(['\u3000', '\u3000', '时报讯', ' ', '昨天', '是', '五一', '黄金周', '的', '最后', '一天', ',', '游客', '们', '纷纷', '踏上', '了', '回家', '的', '旅程', ',', '宁波', '各大', '景区', '全面', '“', '退烧', '”', '。', '而', '此时', ',', '宁波', '的', '各大', '餐饮', '商场', '负责人', '却', '喜笑颜开', '。', '\n', '\u3000', '\u3000', '宁波市', '假日办', '统计数据', '显示', ',', '7', '天', '时间', '内', ',', '宁波市', '共', '接待', '游客', '216', '.', '3', '万人次', ',', '创', '历年', '五一', '黄金周', '新高', '。', '全市', '旅游', '总收入', '达', '12', '.', '9', '亿元', '人民币', ',', '同比', '增长', '12', '.', '5%', '。', '也就是说', ',', '游客', '在', '宁波', '的', '人均', '旅游', '单项', '消费', '近', '600', '元', '。', '\n', '\u3000', '\u3000', '随着', '人们', '旅游', '需求', '层次', '的', '提高', ',', '旅游', '正', '从', '观光', '时代', '转向', '休闲', '时代', ',', '这个', '特点', '在', '今年', '更为', '明显', '。', '“', '吃', '农家饭', '、', '住', '农家', '屋', '、', '学', '农家', '活', '、', '享', '农家乐', '”', ',', '乡村', '旅游', '景区', '成为', '了', '热点', '。', '\n', '\u3000', '\u3000', '从', '宁波市', '接待', '的', '游客', '分布', '情况', '分析', ',', '大部分', '来自', '省内', '周边地区', '和', '上海', '、', '江苏', '等', '地', ',', '景区', '内', '各地', '牌照', '的', '私家车', '成为', '亮点', '和', '看点', ',', '特别', '是', '随着', '高速公路', '网络', '的', '完善', ',', '来自', '长三角', '地区', '、', '福建', '、', '江西', '等', '地', '的', '私家车', '明显', '增多', ',', '宁波市', '已', '成为', '长三角', '地区', '一个', '重要', '的', '旅游', '目的地', '。', '\n', '\u3000', '\u3000', '今年', '的', '五一', '黄金周', ',', '宁波', '游客', '的', '出游', '观念', '趋于', '理性', '。', '和', '去年', '相比', ',', '出境游', '人数', '下降', ',', '国内游', '人数', '增长', ',', '但', '长线', '游', '的', '人数', '增长幅度', '不', '大', ',', '短线', '游', '和', '休闲', '度假', '线', '人气旺盛', '。', '宁波', '市民', '长线', '游', '主要', '集中', '在', '北京', '、', '海南', '、', '桂林', '[', '图库', ']', '、', '西安', '[', '图库', ']', '、', '大连', '[', '图库', ']', '、', '香港', '等', '地', ',', '长三角', '周边', '景点', '成为', '短线', '游', '的', '热点', '。', '甬金', '高速', '开通', '以后', ',', '往', '金华', '、', '江西', '方向', '的', '游客', '数量', '也', '呈', '快速增长', '态势', '。', '\n', '\u3000', '\u3000'], 'C000016')
(['\u3000', '\u3000', '新华社', '电', ' ', '美国宇航局', '官员', '近日', '说', ',', '宇航局', '已', '决定', '设立', '一项', '总', '奖金', '为', '2', '5', '0', '万美元', '的', '大奖赛', ',', '希望', '用', '这种', '方式', '选出', '未来', '登陆', '月球', '的', '飞行器', '设计方案', '。', '\n', '\u3000', '\u3000', '美宇航局', '副局长', '戴尔', '5', '月', '5', '日', '在', '加利福尼亚州', '举行', '的', '一次', '航天', '会议', '上', '说', ',', '宇航局', '已', '选定', '“', 'X', '大奖', '”', '基金会', '管理', '这项', '竞赛', ',', '宇航局', '除了', '出', '奖金', '外', ',', '也', '将', '在', '未来', '的', '月球', '登陆', '计划', '中', '应用', '获奖', '方案', '。', '\n', '\u3000', '\u3000', '这项', '大奖赛', '要求', '参赛者', '设计', '出能', '在', '月球', '上', '飞行', '、', '着陆', '的', '飞行器', '原型', '。', '“', 'X', '大奖', '”', '基金会', '说', ',', '它', '将', '比赛', '分成', '两个', '级别', ',', '在', '地球', '上', '模拟', '月球', '飞行', '。', '第一阶段', ',', '参赛', '飞行器', '要求', '从', '地球', '上', '的', '发射点', '发射', '到', '5', '0', '米', '高度', ',', '盘旋', '飞行', '9', '0', '秒钟', ',', '并', '在', '距', '发射点', '1', '0', '0', '米处', '的', '指定', '地点', '着陆', ',', '比赛', '的', '第一名', '将', '获得', '3', '5', '万美元', '奖金', '。', '\n', '\u3000', '\u3000', '而', '第二级', '别的', '难度', '高得', '多', '。', '参赛', '飞行器', '要求', '从', '发射点', '发射', '至', '5', '0', '米', '高度', ',', '盘旋', '飞行', '1', '8', '0', '秒', ',', '并', '在', '1', '0', '0', '米外', '类似', '月球', '表面', '的', '一处', '崎岖', '地点', '精确', '着陆', '。', '这项', '比赛', '的', '第一名', '将', '获得', '1', '2', '5', '万美元', '的', '奖金', ',', '其', '方案', '很', '可能', '被', '宇航局', '采纳', ',', '作为', '未来', '登陆', '月球', '的', '飞行器', '的', '原型', '。', '\n', '\u3000', '\u3000', '“', 'X', '大奖', '”', '基金会', '因', '举办', '私人', '设计', '航天器', '大奖赛', '而', '著名', ',', '著名', '航天', '设计师', '伯特', '·', '鲁坦', '设计', '的', '“', '宇宙飞船', '一号', '”', '于', '2', '0', '0', '4', '年', '成功', '地', '飞入', '亚', '轨道', ',', '成为', '全世界', '第一个', '私人', '设计', '建造', '的', '航天器', ',', '并', '赢得', '了', '1', '0', '0', '0', '万美元', '的', '“', 'X', '大奖', '”', '。'], 'C000013')
(['\u3000', '\u3000', '大学生', '小', '袁', '网上', '投', '简历', '求职', ',', '一家', '自称', '设在', '广东', '的', '跨国公司', '分公司', '很快', '就', '打来', '电话', '进行', '“', '面试', '”', '。', '然而', '小', '袁', '查询', '该', '公司', '在', '上海', '的', '总部', '得知', ',', '他们', '没有', '在', '广东', '设立', '分公司', ',', '也', '没有', '在', '广东', '进行', '招聘', '。', '警方', '提醒', ',', '这', '很', '可能', '是', '个', '骗局', '。', '\n', '\u3000', '\u3000', '小', '袁是', '在', '一', '知名', '人才', '网站', '上', '发出', '电子', '简历', '的', ',', '令小', '袁', '意外', '的', '是', ',', '简历', '没投', '几天', ',', '就', '有', '一家', '比较', '知名', '的', '半导体', '跨国公司', '给', '自己', '打', '来', '电话', '。', '一位', '姓', '曹', '的', '女士', '告诉', '他', ',', '公司', '现在', '正要', '\n', '\u3000', '\u3000', '引进', '一批', '毕业生', ',', '年前', '就', '到', '岗', '培训', ',', '询问', '小', '袁', '有没有', '去', '的', '意向', '。', '欣喜若狂', '的', '小', '袁', '当即', '就', '同意', '了', '。', '1', '月', '15', '日', ',', '对方', '煞有介事', '地', '给', '小', '袁', '进行', '了', '电话', '招聘', '面试', '。', '三天', '后', ',', '小', '袁', '接到', '电话', '通知', '面试', '通过', '了', ',', '于', '1', '月', '22', '日到', '广东', '东莞', '体检', '、', '复试', '。', '\n', '\u3000', '\u3000', '据', '小', '袁', '所知', ',', '这家', '半导体', '公司', '好像', '是', '在', '上海', ',', '而', '对方', '让', '去', '东莞', '复试', ',', '他', '有点', '纳闷', '。', '曹', '女士', '解释', '说', ',', '公司', '要', '在', '东莞', '设立', '分点', ',', '亟待', '一批', '相关', '专业', '的', '大学生', '加盟', '。', '随后', ',', '她', '又', '把', '公司', '丰厚', '的', '工资', '、', '住房', '待遇', '向小袁', '作', '了', '一番', '介绍', '。', '\n', '\u3000', '\u3000', '小', '袁', '动心', '了', ',', '1', '月', '17', '日', '他', '来到', '火车站', ',', '准备', '预订', '到', '东莞', '的', '车票', '。', '由于', '没有', '直达车', ',', '到', '广州', '的', '票', '也', '没有', '了', ',', '他', '只好', '又', '回到', '了', '学校', '。', '此时', ',', '冷静下来', '的', '小', '袁才', '感觉', '事情', '有点', '不对劲', '。', '随后', ',', '他', '上网', '搜索', '了', '这家', '公司', '的', '详细资料', ',', '发现', '只有', '上海', '总部', '在', '发布', '招聘启事', ',', '其他', '地方', '根本', '就', '没有', '设立', '分公司', '。', '东莞', '的', '114', '也', '根本', '查不到', '这家', '公司', '的', '电话', '。', '\n', '\u3000', '\u3000', '随后', ',', '小', '袁', '拨打', '了', '东莞', '110', '报警', '电话', ',', '当地', '民警', '告知', '这', '很', '可能', '是', '个', '骗局', '。', '此前', '就', '有', '不少', '急于', '找', '工作', '的', '大学生', ',', '被', '不法分子', '骗进', '传销', '窝点', '。', '\n', '\u3000', '\u3000', '(', '来源', ':', '北京', '人才', '市场报', ')'], 'C000022')
(['\u3000', '\u3000', '话题', '多', '、', '题材', '广', '、', '时间', '紧', '、', '要求', '高', '的', '议论文', '写作', '一直', '是', '雅思', '写作', '中', '的', '难点', ',', '思维', '狭窄', '、', '词汇', '不足', '也', '一直', '是', '中国', '考生', '的', '通病', ',', '如何', '在', '议论文', '写作', '中', '拓宽', '思路', '?', '怎样', '背诵', '8000', '个', '雅思', '词汇', '?', '备考', '雅思', '写作', '的', '误区', '和', '应对', '方法', '又', '是', '什么', '?', '上周末', ',', '启德', '教育', '吴建业', '老师', '在', '广州', '图书馆', '给', '广大', '考生', '上', '了', '一堂', '生动', '的', '雅思', '议论文', '写作', '课', '。', '\n', '\u3000', '\u3000', '开拓', '思维', '的', '十大', '原则', '\n', '\u3000', '\u3000', '据统计', ',', '近年来', '雅思', '议论文', '写作', '共有', '265', '个', '话题', ',', '常考', '的', '涉及', '环保', '、', '经济', '、', '社会', '、', '教育', '、', '犯罪', '等', '题材', ',', '十分', '广泛', '。', '鉴于', '很多', '考生', '写作', '时', '感觉', '无话可说', ',', '吴建业', '提醒', '考生', '从', '经济', '、', '时间', '、', '健康', '、', '情感', '、', '教育', '、', '心理', '、', '权利', '、', '文化', '、', '环保', '和', '道德', '十大', '原则', '来', '思考', '话题', '的', '意义', '。', '他', '以养', '狗', '为例', ':', '经济', '上要', '花', '很多', '钱', ';', '情感', '上', '亲近', '狗', '就', '会', '在', '一定', '程度', '上', '疏远', '家人', ';', '遛狗', '、', '给', '狗', '冲凉', '等', '浪费时间', ';', '狗', '传播', '疾病', '会', '影响', '健康', ';', '养狗会', '影响', '学习', ';', '狗', '很', '忠诚', ',', '养狗会', '让', '人', '从', '心理', '上', '疏远', '狡诈', '的', '人类', ';', '侵犯', '邻居', '的', '权利', ';', '狗', '到处', '排泄', '会', '破坏', '环境', '等', '。', '“', '这样', '大家', '碰到', '任何', '一个', '话题', '都', '不用', '心虚', '了', '。', '”', '但是', '他', '同时', '提醒', '广大', '考生', '不必', '面面俱到', ',', '只要', '挑出', '十大', '原则', '中', '的', '两三点', '来', '自圆其说', '就', '绰绰有余', '了', '。', '\n', '\u3000', '\u3000', '记住', '800', '个', '核心', '词汇', '\n', '\u3000', '\u3000', '“', '垃圾', '怎么', '说', '?', '可回收', '垃圾', '?', '可降解', '的', '垃圾', '?', '…', '…', '”', '课堂', '上', ',', '吴建业', '关于', '垃圾', '的', '几个', '提问', '难倒', '了', '很多', '在场', '的', '英语专业', '的', '学生', '。', '吴建业', '老师', '表示', ',', '中国', '学生', '在', '学校', '学习', '的', '词汇', '在', '很多', '场合', '用不上', ',', '比如', '英语专业', '八级', '侧重于', '文学名著', ',', '商务英语', '则', '侧重', '谈判', '、', '商业', '词汇', '。', '雅思', '需要', '8000', '词汇', ',', '但', '相当', '一部分', '考生', '疯狂', '地', '从', 'A', '背到', 'Z', ',', '还', '存在', '想', '说', '却说', '不', '出来', ',', '即使', '说', '得', '出来', '也', '衔接', '不来', '的', '问题', '。', '怎么办', '?', '\n', '\u3000', '\u3000', '“', '分类', '背诵', ',', '联想', '记忆', '。', '”', '吴建业', '告诉', '广大', '考生', ',', '只要', '掌握', '了', '800', '个', '词汇', ',', '就', '可', '轻松', '应对', '雅思', '写作', '。', '“', '当然', '这些', '词汇', '是', '剔除', '了', 'dog', '、', 'pig', '之类', '的', '核心', '词汇', '。', '”', '那', '什么', '词才', '叫', '核心', '词汇', '呢', '?', '吴建业', '举', '了', '一个', '例子', ',', '如由', '奢侈', '→', '贫穷', '→', '救助', '→', '难民', '→', '…', '…', ',', '就', '这样', '把', '相关联', '的', '词汇', '串通', '起来', '背诵', ',', '既', '掌握', '了', '词汇', ',', '而', '这些', '词汇', '往往', '是', '一篇', '文章', '中', '可能', '涉及', '的', '内容', '。', '\n', '\u3000', '\u3000', '写', '个性化', '的', '八股文', '\n', '\u3000', '\u3000', '吴', '老师', '还', '指出', '了', '考生', '的', '备考', '误区', '和', '应对', '方法', '。', '针对', '很多', '人', '希望', '通过', '学习', '外文', '名著', '来', '提高', '写作水平', '的', '想法', ',', '吴', '老师', '认为', '外国名著', '对', '大多数', '中国', '考生', '而言', '是', '可望而不可及', '的', '。', '“', '外国人', '学', '汉语', '要', '学习', '汉语', '说得好', '的', '大山', '和', '大牛', ',', '而', '不', '可能', '让', '他们', '学习', '鲁迅', '先生', '的', '《', '药', '》', '、', '《', '孔乙己', '》', '等', '名篇', '。', '”', '同样', ',', '中国', '考生', '要', '学习', '英语', '学得', '优秀', '的', '中国', '人', ',', '他', '认为', '真正', '优秀', '的', '教材', '其实', '是', '中国', '考生', '的', '优秀', '范文', '。', '\n', '\u3000', '\u3000', '提到', '一些', '辅导', '老师', '教育', '学生', '写作文', '一定', '要', '真情流露', ',', '想到', '什么', '就', '说', '什么', ',', '吴', '老师', '认为', '这', '是', '不', '现实', '的', ',', '因为', '对', '大多数', '中国', '考生', '来说', ',', '做到', '挥洒自如', '、', '下笔', '自若', '、', '真情流露', '很难', '。', '而', '很多', '人', '争相', '背诵', '名师', '的', '范文', '又', '搞', '得', '千人一面', ',', '味同嚼蜡', '。', '鉴于', '此', ',', '他', '认为', '既', '要', '学习', '范文', '的', '格式', ',', '又', '要', '有所', '改装', ',', '加入', '自己', '的', '东西', ',', '凸显', '个性', ',', '“', '写', '个性化', '的', '八股文', '”', '。', '\n', '\u3000', '\u3000', '讲座', '上', ',', '吴', '老师', '还', '提醒', '考生', '写作', '时', '不要', '想着', '标新立异', '、', '旁征博引', ',', '只要', '能够', '自圆其说', ',', '多用', '权威', '、', '翔实', '的', '数据', '事例', '来', '说明', '观点', '就', '好', ',', '否则', '会', '画蛇添足', '。'], 'C000020')
(['\u3000', '\u3000', '科龙德', '勤案', '又', '有', '新进展', ':', '已有', '多位', '科龙', 'H股', '股东', '到', '律师', '处', '咨询', '、', '登记', ',', '所涉', '股份', '达', '200', '余万股', '。', '而', '这些', '投资者', '正在', '为', '等待', '提起', '民事', '赔偿', '所', '需', '的', '前置条件', '焦急', '等待', '。', '\n', '\u3000', '\u3000', '4', '月', '29', '日', ',', '上海', '新', '望闻达', '律师', '事务所律师', '宋一欣', '、', '秦桢凯', '在', '中国', '证券', '网上', '发表', '了', '《', '向', '境内', '外科', '龙', 'H股', '投资者', '征集', '民事', '赔偿', '诉讼', '代理', '的', '启事', '》', ',', '全面', '接受', '科龙电器', '流通', 'H股', '及', 'A股', '投资者', '的', '诉讼', '及', '仲裁', '委托', '代理', '事项', '。', '宋一欣', '律师', '告诉', '《', '上海', '证券报', '》', '记者', ',', '“', '《', '启事', '》', '刊登', '当天', ',', '就', '有', 'H股', '股东', '前来', '咨询', '登记', ',', '由于', '五一', '长假', ',', '事务所', '休息', ',', '许多', 'H股', '股东', '想方设法', '找到', '我', '的', '电子信箱', '同', '我', '联系', '。', '截至', '今天', ',', '已有', '七八位', 'H股', '股东', '前来', '咨询', '、', '登记', ',', '所', '涉及', '股份', '己', '达', '50', '余万股', ',', '损失', '金额', '有待', '统计', '。', '这些', 'H股', '股东', '中有', '境外', '居民', '。', '他们', '正', '焦急', '等待', '此案', '前置程序', '的', '满足', '。', '”', '\n', '\u3000', '\u3000', '首位', '代表', '科龙', '股东', '状告', '德勤', '的', '上海市', '光明', '律师', '事务所', '南京', '分', '所', '律师', '涂勇则', '向', '记者', '透露', ':', '“', '多位', '科龙', 'H股', '股东', '前来', '向', '我', '咨询', '起诉', '事宜', '。', '其中', '一位', '就', '持有', '150', '万股', '科龙', 'H股', ',', '持股', '成本', '高达', '300', '多万元', '。', '他', '非常', '渴望', '前置程序', '能', '尽快', '满足', ',', '以便', '诉上', '公堂', '。', '”', '\n', '\u3000', '\u3000', '据', '宋一欣', '介绍', ',', '“', '根据', '最高人民法院', '司法解释', '的', '规定', ',', '提起', '虚假', '陈述', '民事', '赔偿', '诉讼', '必须', '满足', '前置条件', ',', '即', '中国证监会', '或', '财政部', '的', '行政处罚', '决定', ',', '或', '有关', '法院', '认定', '有罪', '并', '生效', '的', '刑事', '判决书', ',', '两者', '以先', '出台', '者', '为准', '。', '”', '\n', '\u3000', '\u3000', '“', '在', '科龙案', '中', ',', '中国证监会', '已经', '对', '科龙电器', '与', '德勤', '会计师', '事务所', '进行', '了', '行政处罚', '前', '的', '听证', '程序', ',', '如果', '没有', '意外', ',', '估计', '今年', '上半年', '内', '行政处罚', '决定', '将', '出台', ';', '而', '顾雏军', '编制', '虚假', '财务报告', '罪案', '已经', '被', '广东省', '佛山市', '人民检察院', '立案', '、', '即将', '提起公诉', ',', '刑事', '审判', '在', '即', '。', '因此', ',', '包括', 'H股', '股东', '在内', '的', '科龙电器', '权益', '受损', '的', '投资者', '提起', '民事', '赔偿', '应该', '不成问题', ',', '只是', '需要', '等待', ',', '万事俱备', '、', '只欠东风', '。', '”', '宋一欣', '进一步', '解释', '道', '。', '\n', '\u3000', '\u3000', '谈及', '此案', '的', '被告', ',', '宋一欣', '表示', ',', '“', '科龙电器', '虚假', '陈述', '可', '涉及', '很多', '被告', ',', '如', '科龙电器', '公司', ';', '顾雏军', '等', '原', '董事', '、', '高管', '人员', '及', '直接', '责任人员', ';', '存在', '失职', '的', '原', '监事会', '成员', '和', '独立', '董事', ';', '进行', '审计', '的', '会计师', '事务所', '(', '会计师', '行', ')', '及其', '承担责任', '的', '合伙人', '、', '相关', '注册', '会计师', ';', '由于', '虚假', '陈述', '而', '获益', '的', '关联', '企业', '、', '控股', '股东', '等', '。', '但', '主要', '被告', '有', '三', ',', '即', '科龙电器', '公司', '、', '顾雏军', '、', '德勤华', '永', '会计师', '事务所', '(', 'A股', '股东', ')', '或德勤', '·', '关黄陈', '会计师', '行', '(', 'H股', '股东', ')', '。', '”', '\n', '\u3000', '\u3000', '宋一欣', '称', ',', '“', '证券', '民事', '赔偿', '诉讼', '应当', '采取', '目前', '《', '民事', '诉讼法', '》', '规定', '的', '共同', '诉讼', '方式', ',', '科龙案', '也', '是', '如此', '。', '以', '共同', '诉讼', '提起', '的', '原告', '由于', '合并', '后', '按', '比例', '计算', '诉讼费', ',', '故其', '支出', '的', '诉讼费', '要', '比', '单独', '诉讼', '提起', '的', '原告', '所', '支付', '的', '诉讼费', '要少', '。', '所以', ',', '作为', '代理律师', ',', '从', '投资者', '的', '角度', '考虑', ',', '我', '需要', '筹集', '到', '一定', '数量', '投资者', '委托', '后', '才', '安排', '起诉', '。', '”', '(', '本报记者', ' ', '岳敬飞', ' ', '何军', ')'], 'C000008')
(['\u3000', '\u3000', '大学生', '小', '袁', '网上', '投', '简历', '求职', ',', '一家', '自称', '设在', '广东', '的', '跨国公司', '分公司', '很快', '就', '打来', '电话', '进行', '“', '面试', '”', '。', '然而', '小', '袁', '查询', '该', '公司', '在', '上海', '的', '总部', '得知', ',', '他们', '没有', '在', '广东', '设立', '分公司', ',', '也', '没有', '在', '广东', '进行', '招聘', '。', '警方', '提醒', ',', '这', '很', '可能', '是', '个', '骗局', '。', '\n', '\u3000', '\u3000', '小', '袁是', '在', '一', '知名', '人才', '网站', '上', '发出', '电子', '简历', '的', ',', '令小', '袁', '意外', '的', '是', ',', '简历', '没投', '几天', ',', '就', '有', '一家', '比较', '知名', '的', '半导体', '跨国公司', '给', '自己', '打', '来', '电话', '。', '一位', '姓', '曹', '的', '女士', '告诉', '他', ',', '公司', '现在', '正要', '\n', '\u3000', '\u3000', '引进', '一批', '毕业生', ',', '年前', '就', '到', '岗', '培训', ',', '询问', '小', '袁', '有没有', '去', '的', '意向', '。', '欣喜若狂', '的', '小', '袁', '当即', '就', '同意', '了', '。', '1', '月', '15', '日', ',', '对方', '煞有介事', '地', '给', '小', '袁', '进行', '了', '电话', '招聘', '面试', '。', '三天', '后', ',', '小', '袁', '接到', '电话', '通知', '面试', '通过', '了', ',', '于', '1', '月', '22', '日到', '广东', '东莞', '体检', '、', '复试', '。', '\n', '\u3000', '\u3000', '据', '小', '袁', '所知', ',', '这家', '半导体', '公司', '好像', '是', '在', '上海', ',', '而', '对方', '让', '去', '东莞', '复试', ',', '他', '有点', '纳闷', '。', '曹', '女士', '解释', '说', ',', '公司', '要', '在', '东莞', '设立', '分点', ',', '亟待', '一批', '相关', '专业', '的', '大学生', '加盟', '。', '随后', ',', '她', '又', '把', '公司', '丰厚', '的', '工资', '、', '住房', '待遇', '向小袁', '作', '了', '一番', '介绍', '。', '\n', '\u3000', '\u3000', '小', '袁', '动心', '了', ',', '1', '月', '17', '日', '他', '来到', '火车站', ',', '准备', '预订', '到', '东莞', '的', '车票', '。', '由于', '没有', '直达车', ',', '到', '广州', '的', '票', '也', '没有', '了', ',', '他', '只好', '又', '回到', '了', '学校', '。', '此时', ',', '冷静下来', '的', '小', '袁才', '感觉', '事情', '有点', '不对劲', '。', '随后', ',', '他', '上网', '搜索', '了', '这家', '公司', '的', '详细资料', ',', '发现', '只有', '上海', '总部', '在', '发布', '招聘启事', ',', '其他', '地方', '根本', '就', '没有', '设立', '分公司', '。', '东莞', '的', '114', '也', '根本', '查不到', '这家', '公司', '的', '电话', '。', '\n', '\u3000', '\u3000', '随后', ',', '小', '袁', '拨打', '了', '东莞', '110', '报警', '电话', ',', '当地', '民警', '告知', '这', '很', '可能', '是', '个', '骗局', '。', '此前', '就', '有', '不少', '急于', '找', '工作', '的', '大学生', ',', '被', '不法分子', '骗进', '传销', '窝点', '。', '\n', '\u3000', '\u3000', '(', '来源', ':', '北京', '人才', '市场报', ')'], 'C000022')
(['\n', '\n', '\n', '夜幕', '下', '的', '太和', '门', '广场', '\n', '\u3000', '\u3000', '9', '月', '18', '日晚', ',', '时值', '中国', '传统', '佳节', '农历', '八月', '十五', '中秋节', '之际', ',', '由', '中国', '故宫博物院', '主办', '、', '山东', '潍柴', '动力', '股份', '有限公司', '冠名', '赞助', '的', '“', '太和', '邀月颂', '和平', '—', '—', '潍柴', '动力', '之夜', '”', '中秋', '招待会', '在', '北京故宫', '太和', '门', '广场', '举行', '。', '来自', '国内', '政府', '、', '文化', '演艺界', '及', '企业界', '等', '各界', '精英', '汇聚', '古老', '神秘', '的', '宫内', '广场', ',', '抒发', '当代', '国人', '对', '历史', '的', '追思', '和', '对', '中华民族', '未来', '的', '憧憬', ',', '举杯', '邀月', '共度', '中秋', ',', '把', '纪念', '故宫博物院', '建院', '80', '周年', '、', '中国', '人民', '抗日战争', '胜利', '60', '周年', '两个', '活动', '再次', '推向', '了', '高潮', '。', '本次', '招待会', '由', '著名', '学者', '田青', '和', '凤凰卫视', '当家花旦', '陈鲁豫', '、', '曹', '景行', '主持', '。', '\n', '\u3000', '\u3000', '是', '日', '晚上', ',', '北京', '太和', '门', '广场', '灯光', '璀璨', ',', '高朋满座', ',', '文化氛围', '浓郁', '。', '来自', '戏曲界', '、', '演奏', '界', '、', '表演', '界', '的', '大师', '们', '给', '与会者', '奉献', '上', '了', '《', '思乡曲', '》', '《', '二泉映月', '》', '《', '八月', '十五', '月', '光明', '》', '等', '著名', '的', '传统', '曲目', ',', '著名', '表演家', '濮存昕', '、', '吴俊全', '等', '还', '朗诵', '了', '《', '水调歌头', '》', '《', '雪落', '在', '中国', '土地', '上', '》', '等', '著名', '古今', '诗歌', ',', '表达', '了', '对', '中华民族', '优秀', '传统', '文化', '的', '追思', '和', '对', '民族', '昌盛', '的', '期盼', '。', '此外', ',', '来自', '书画界', '的', '大师', '们', '还', '现场', '泼墨', ',', '鉴赏', '经典', '古画', ',', '并', '留下', '墨宝', '以作', '纪念', '。', '艺术表演', '家们', '在', '舞台', '上', '精彩', '的', '表现', '赢得', '了', '与会', '各界', '嘉宾', '的', '阵阵', '掌声', ',', '人们', '乘着', '朗朗', '月色', ',', '举杯', '邀月', ',', '畅谈', '古今', ',', '抒发', '着', '当代', '中国', '对', '历史', '的', '铭记', '和', '对', '未来', '民族', '复兴', '的', '祈盼', '。', '\n', '独唱', '《', '今夜', '无人', '入睡', '》', '—', '—', '著名', '男高音', '歌唱家', '莫华伦', '\n', '小提琴', '演奏家', '陈曦', '与', '主持人', '陈鲁豫', '交流', '\n', '\u3000', '\u3000', '今年', '是', '北京故宫博物院', '成立', '八十周年', ',', '八十年', '来', ',', '北京故宫', '为', '弘扬', '中华民族', '的', '传统', '文化', ',', '为', '保护', '我国', '珍贵', '的', '历史', '遗产', '作出', '了', '巨大', '的', '贡献', ';', '同时', ',', '今年', '也', '是', '中国', '人民', '抗日', '胜利', '六十周年', ',', '身处', '北京故宫', '的', '太和', '门', '广场', '正是', '当年', '日寇', '华北', '方面军', '向', '中国', '统辖', '华北地区', '的', '第十一', '战区', '投降', '的', '仪式', '举行', '的', '地方', '。', '可以', '说', ',', '身处', '紫禁城', '的', '太和殿', '见证', '了', '我国', '历史', '的', '兴衰', '荣辱', ',', '见证', '了', '中国', '人民', '抗日战争', '的', '伟大胜利', ';', '六十年', '后', ',', '在', '同一', '地点', '举行', '纪念活动', ',', '意义', '非同小可', '。', '它', '告诉', '我们', '要', '铭记', '历史', ',', '继往开来', ',', '要', '为', '中华民族', '的', '伟大', '复兴', ',', '为', '世界', '各族人民', '的', '和平', '而', '不懈', '奋斗', '!', '\n', '濮存昕', '朗诵', '\n', '\u3000', '\u3000', '据悉', ',', '来自', '潍柴', '动力', '股份', '有限公司', '的', '领导', '介绍', ',', '作为', '国内', '知名', '的', '内燃机', '研发', '、', '制造', '、', '销售', '骨干企业', ',', '潍柴', '动力', '一直', '关注', '首都', '文化产业', '的', '发展', ',', '希望', '凭借', '此次', '活动', ',', '给', '中国', '的', '精英', '人士', '提供', '一个', '更好', '的', '交流', '机会', '和', '场所', ',', '拓展', '企业', '发展', '平台', ',', '振奋', '民族', '精神', ',', '为', '繁荣', '国际', '文化交流', ',', '进一步', '开辟', '中国', '文化', '传承', '空间', '贡献', '更', '多', '的', '力量', '!', '\n', '书法', '表演', '\n', '\u3000', '\u3000', '晚会', '在', '著名', '男高音', '歌唱家', '莫华伦', '的', '一曲', '《', '今夜', '无人', '入眠', '》', '中', '结束', ',', '留给', '了', '节日', '的', '京城', '一个', '难忘', '的', '夜晚', '。', '\n', '\u3000', '\u3000', '搜狗', '(', 'www', '.', 'sogou', '.', 'com', ')', '搜索', ':', '“', '太和', '”', ',', '共', '找到', '322', ',', '079', '\n', '个', '相关', '网页', '.', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00'], 'C000022')
(['\u3000', '\u3000', '50', '余名', '沈阳市', '职业', '学校', '校长', '近日', '走进', '清华园', ',', '在', '沈阳市', '教育局', '与', '清华大学', '共同', '举办', '的', '首期', '沈阳市', '职业', '学校', '校长', '高级', '研修班', '上', '为', '自己', ',', '更为', '沈阳', '的', '职业', '教育', '而', '“', '充电', '”', '。', '\n', '\u3000', '\u3000', '沈阳市', '中等职业', '学校', '重组', '于', '上', '世纪', '80', '年代', ',', '绝大部分', '学校', '是', '由', '薄弱', '学校', '改造', '而成', '。', '近年来', ',', '随着', '国家', '、', '省', '、', '市', '各级', '政府', '对', '职业', '教育', '的', '重视', ',', '沈阳市', '职业', '教育', '\n', '\u3000', '\u3000', '有', '了', '较大', '发展', '。', '目前', ',', '沈阳市', '已有', '中等职业', '学校', '131', '所', ',', '中等职业', '学校', '教师', '9500', '人', ',', '专业', '教师', '4800', '人', ',', '在校生', '9', '万余', '人', ',', '年', '毕业生', '3', '万余', '人', '。', '\n', '\u3000', '\u3000', '2006', '年', ',', '为了', '让', '职业', '教育', '有', '一个', '更大', '的', '发展', ',', '沈阳市', '决定', '不仅', '在', '硬件', '上', '加大', '投入', ',', '按照', '国家级', '示范校', '的', '标准', '建', '6', '所万人', '规模', '的', '中等职业', '学校', ',', '同时', ',', '还要', '在', '在', '软件', '建设', '上', '有', '一个', '新', '突破', ',', '按照', '国家', '职业', '教育', '教学质量', '评估', '标准', ',', '全面', '提升', '沈阳市', '中等职业', '学校', '教育', '教学质量', '。', '为此', ',', '沈阳市', '教育局', '借助', '清华大学', '这样', '一个', '高层次', '的', '培训', '平台', ',', '举办', '各种', '层次', '的', '共', '10', '期', '研修班', ',', '对', '分管', '各项', '工作', '的', '副校长', '和', '专业', '教师', '约', '500', '人', '进行', '培训', ',', '通过', '国家教育部', '职业', '与', '成人教育', '司', '有关', '领导', '、', '国内', '优秀', '企业家', '、', '教育', '专家', '、', '知名', '学者', '和', '国内', '重点', '职业院校', '校长', '的', '讲座', '及', '经验交流', ',', '使', '参加', '研修', '人员', '政策', '水平', '、', '理论知识', '、', '教学管理', '能力', '及', '个人', '学养', '得到', '提高', ',', '从而', '全面', '提升', '沈阳市', '职业院校', '的', '内涵', '建设', ',', '进一步', '培养', '、', '打造出', '一支', '高水平', '的', '职业院校', '优秀', '的', '管理者', '和', '“', '双师型', '”', '教师队伍', '。', '\n', '\u3000', '\u3000', '沈阳市', '副', '市长', '王玲', '、', '沈阳市', '教育局', '局长', '李梦玲', '、', '教育部', '职成司', '副司长', '刘占山', '、', '清华大学', '副校长', '陈吉宁', '参加', '了', '首期', '研修班', '的', '开班', '仪式', '。', '他们', '表示', ',', '清华大学', '和', '沈阳市', '的', '这种', '合作', ',', '必将', '促进', '沈阳市', '职业', '教育', '的', '跨越式', '发展', ',', '双方', '在', '市', '、', '校', '人才', '合作', '培养', '模式', '上', '的', '有益', '探索', ',', '不仅', '会', '加深', '和', '扩大', '双方', '在', '各个领域', '的', '合作', ',', '也', '会', '对', '全国', '的', '职业', '教育', '提供', '有益', '的', '经验', '。', '\n', '\u3000', '\u3000', '来源', ':', '光明日报'], 'C000024')

五、半朴素贝叶斯分类器

(1)半朴素贝叶斯理论

在朴素贝叶斯分类器中采用了属性条件独立性假设,但在现实任务中这个假设往往很难成立,于是半朴素贝叶斯分类器就适当考虑一部分属性间的相互依赖关系,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖
在这里插入图片描述

实例1

属性依赖关系为:属性大小依赖于形状,且大小为大时,形状为圆,颜色没有依赖属性,属性形状依赖于大小,且形状为圆时,大小为大

判断属性大小为大,颜色为青,形状为圆下,是否为好果
苹果分类
先分别计算类先验概率和带有依赖属性的类条件概率,其中计算类先验概率时,由于好果只有是和否两种情况,所以分母+2,计算带有依赖属性的类条件概率时,每个属性的取值情况也恰好为2,所以分母+2,最后计算后验概率,属于一般果的后验概率较大,所以把属性大小为大,颜色为青,形状为圆的样本判别为一般果

(2)寻找父属性的三种方法

- 方法1 SPODE(Super-Parent ODE)

假设所有属性都依赖于同一个属性,称为“超父”,然后通过交叉验证等模型选择方法来确定超父属性,由此形成了SPODE方法,如图,x2,x3,…,xd都依赖于超父属性x1
在这里插入图片描述

- SPODE实战

训练集

1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,是
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,是
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,是
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,否
10,青绿,硬挺,清脆,清晰,平坦,软粘,否
11,浅白,硬挺,清脆,模糊,平坦,硬滑,否
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,否
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,否
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,否

测试集

3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,是
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,是
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,是
12,浅白,蜷缩,浊响,模糊,平坦,软粘,否
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,否
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,否
import math
import numpy as np
import random


# 加载数据
def loadData(filename):
    dataSet = []
    f = open(filename,encoding='utf-8')
    for line in f.readlines():
        lineArr = line.strip().split(',')
        dataSet.append(lineArr)
    labels = ['编号','色泽','根蒂','敲声','纹理','脐部','触感']
    return dataSet,labels           # 返回数据集,标签


# SPODE算法
def SPODE(dataSet,labels,testData):
    index = CrossValidation(dataSet, labels,testData)    # 交叉验证获取超父属性
    print("Super-Parent = ",labels[index])
    pn = [3, 3, 3, 3, 3, 2]  # 各变量的类型数
    tdata = dataSet[random.randint(0,len(dataSet)-1)]   # 选择一个测试样本,将其index属性作为超父属性
    px = np.zeros((2, 1))        # px为当前属性在类别和依赖属性下的计数
    pclass = 0  # 为正类的概率
    nclass = 0  # 为负类的概率
    pc = np.zeros((2, 1))        # pc为类别和依赖属性的计数,作分母
    tempdata = []

    for data in dataSet:       # 遍历训练数据,筛选出满足依赖属性的数据
        if (data[-1] == '是' and data[index] == tdata[index]):  # 刷选出满足依赖属性的数据
            pc[0] += 1
            tempdata.append(data)
        if (data[-1] == '否' and data[index] == tdata[index]):
            pc[1] += 1
            tempdata.append(data)
    for j in range(1, len(labels)):
        if (index != j):
            for data in tempdata:  # 遍历训练数据,筛选出符合条件数据
                if (data[-1] == '是' and data[index] == tdata[index] and data[j] == tdata[j]):  # 刷选出满足依赖属性的数据
                    px[0] += 1
                if (data[-1] == '否' and data[index] == tdata[index] and data[j] == tdata[j]):
                    px[1] += 1
            pclass += np.log((px[0] + 1) / (pc[0] + pn[j - 1]))         # 类条件概率
            nclass += np.log((px[1] + 1) / (pc[1] + pn[j - 1]))
    good = np.log((pc[0] + 1) / (pc[0] + pc[1] + 2)) + pclass          # 后验概率
    bad = np.log((pc[1] + 1) / (pc[0] + pc[1] + 2)) + nclass
    print(tdata)
    if (good >= bad):
        print('P(good) =',good,'\n','P(bad) = ',bad,'\n','是',sep='')
    else:
        print('P(good) =',good,'\n','P(bad) = ',bad,'\n','否',sep='')


# 交叉验证选择最优的属性
def CrossValidation(dataSet,labels,testData):
    pn = [3, 3, 3, 3, 3, 2]  # 各变量的类型数
    maxcorrect = 0
    index = 0
    for i in range(1,len(labels)):                  # 遍历所有属性,选择第i个属性作为超父
        correct = 0
        pc = np.zeros((2, 1))           # pc为类别和依赖属性的计数,作分母
        tempdata = []
        for tdata in testData:          # 遍历测试数据
            for data in dataSet:        # 遍历训练数据,筛选出满足依赖属性的数据
                if (data[-1] == '是' and data[i] == tdata[i]):
                    pc[0] += 1
                    tempdata.append(data)
                if (data[-1] == '否' and data[i] == tdata[i]):
                    pc[1] += 1
                    tempdata.append(data)
            # print(pc)

            for j in range(1,len(labels)):      # 该循环计算带有依赖属性的类条件概率
                px = np.zeros((2, 1))           # px为当前属性在依赖属性下的计数
                pclass = 0  # 为正类的概率
                nclass = 0  # 为负类的概率
                if (i != j):
                    for data in tempdata:  # 遍历训练数据,筛选出符合条件数据
                        if (data[-1] == '是' and data[i] == tdata[i] and data[j]==tdata[j] ):  # 刷选出满足依赖属性的数据
                            px[0] += 1
                        if (data[-1] == '否' and data[i] == tdata[i] and data[j]==tdata[j] ):
                            px[1] += 1
                    pclass += np.log((px[0] + 1) / (pc[0] + pn[j - 1]))
                    nclass += np.log((px[1] + 1) / (pc[1] + pn[j - 1]))
                    '''print(px)
                       print(pclass)
                       print(nclass)'''
            pclass = np.log((pc[0] + 1) / (pc[0] + pc[1] + 2)) + pclass            # 后验概率
            nclass = np.log((pc[1] + 1) / (pc[0] + pc[1] + 2)) + nclass
            if ((pclass >= nclass and tdata[-1]=='是') or (pclass < nclass and tdata[-1]=='否')):  # 正确的分类
                correct+=1

        if( correct > maxcorrect ):    # 正确分类最多的所依赖的属性作为”超父“
            maxcorrect = correct
            index= i
    return index


if __name__ == '__main__':
    dataSet, labels_1 = loadData('train_Data.txt')
    testData, label_2 = loadData('test_Data.txt')
    SPODE(dataSet, labels_1, testData)
Super-Parent =  纹理
['1', '青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '是']
P(good) =[0.23514949]
P(bad) = [-4.12274404]
是

- 方法2 TAN(Tree Augmented naive Bayes)

(1).计算任意两个属性之间的条件互信息
在这里插入图片描述
(2). 以属性为结点构建完全图,任意两个结点之间边的权重设为I(x_i,x_j|y)
(3). 构建此完全图的最大带权生成树,挑选根变量,将边置为有向。
(4). 加入类别结点y,增加从y到每个属性的有向边。

如下图,假设有4个属性(凹陷,清晰,青绿,浊响),首先计算任意两个结点间的条件互信息,得到一个无向完全图(左),再根据无向完全图构建最大带权生成数,挑选根变量(根变量的选择可以将树中所有结点均作为根结点),将边设置为有向,加入类别结点y,增加从y到每个属性的有向(右)
在这里插入图片描述

- 方法3 AODE(Averaged One-Dependent Estimator)

AODE一种基于集成学习机制、更为强大的独依赖分类器,其过程就是一个计数过程

相关计算公式:
计算公式
在这里插入图片描述
以西瓜数据集为例
在这里插入图片描述

- AODE实战

import numpy as np
import random


def getDataSet():
    dataSet = [
        ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, 1],
        ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, 1],
        ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, 1],
        ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, 1],
        ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, 1],
        ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, 1],
        ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, 1],
        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, 1],
        ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, 0],
        ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, 0],
        ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, 0],
        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, 0],
        ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, 0],
        ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, 0],
        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, 0],
        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, 0],
        ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, 0]
    ]

    features = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感']

    featureDic = {}
    for i in range(len(features)):
        featureList = [example[i] for example in dataSet]
        uniqueFeature = list(set(featureList))
        featureDic[features[i]] = uniqueFeature

    dataSet = np.array(dataSet)
    return dataSet, features, featureDic   # 数据集,标签,属性取值字典


def AODE(dataSet, data, features, featureDic):
    m, n = dataSet.shape
    n = n - 3       # 特征不取连续值的属性,如密度和含糖量。
    pDir = {}       # 保存三个值。好瓜的可能性,坏瓜的可能性,和预测的值。
    for classLabel in ["好瓜", "坏瓜"]:
        P = 0.0
        if classLabel == "好瓜":
            sign = '1'
        else:
            sign = '0'
        extrDataSet = dataSet[dataSet[:, -1] == sign]    # 抽出类别为sign的数据
        for i in range(n):                               # 遍历每一个i个属性
            xi = data[i]
            # 计算当前类别下,第i个属性上取值为xi的样本对总数据集的占比
            Dcxi = extrDataSet[extrDataSet[:, i] == xi]  # 第i个属性上取值为xi的样本数
            Ni = len(featureDic[features[i]])            # 第i个属性可能的取值数
            Pcxi = (len(Dcxi) + 1) / float(m + 2 * Ni)
            # 计算类别为c且在第i和第j个属性上分别为xi和xj的样本,对于类别为c属性为xi的样本的占比
            mulPCond = 1
            for j in range(n):
                xj = data[j]
                Dcxij = Dcxi[Dcxi[:, j] == xj]
                Nj = len(featureDic[features[j]])
                PCond = (len(Dcxij) + 1) / float(len(Dcxi) + Nj)
                mulPCond *= PCond
            P += Pcxi * mulPCond
        pDir[classLabel] = P

    if pDir["好瓜"] > pDir["坏瓜"]:
        preClass = "好瓜"
    else:
        preClass = "坏瓜"

    return pDir["好瓜"], pDir["坏瓜"], preClass


def test_accuracy(dataSet, features, featureDic):
    cnt = 0
    for data in dataSet:
        _, _, pre = AODE(dataSet, data, features, featureDic)
        if (pre == '好瓜' and data[-1] == '1') or (pre == '坏瓜' and data[-1] == '0'):
            cnt += 1
    return cnt / float(len(dataSet))


def main():
    dataSet, features ,featureDic = getDataSet()
    testdata = dataSet[random.randint(0, len(dataSet) - 1)]
    pG, pB, pre = AODE(dataSet, testdata, features, featureDic)
    print(testdata)
    print("pG = ", pG)
    print("pB = ", pB)
    print("pre = ", pre)
    print("real class = ", testdata[-1])
    print(test_accuracy(dataSet, features, featureDic))


if __name__ == '__main__':
    main()
['浅白' '硬挺' '清脆' '模糊' '平坦' '硬滑' '0.245' '0.057' '0']
pG =  0.0004809492073765314
pB =  0.016070238820219938
pre =  坏瓜
real class =  0
0.9411764705882353

六、 贝叶斯网

(1)贝叶斯网理论

  • 贝叶斯网是一种概率图模型,借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布

在这里插入图片描述
上图就是一个简单的贝叶斯结构,给定P(a,b,c)联合概率,把代数表达式转换为几何图形,第一个式子表示ab给定的条件下c的概率,即从a,b各引一条边到c,第二个式子表示a给定的条件下b的概率,即从a引一条边到b,a没有给定条件,就没有边引入。
贝叶斯网络的有向无环图的每个结点表示一个随机变量,它们可以是观察到的变量或隐变量,或未知参数,连接两个结点的箭头代表两个随机变量是具有“因果”关系,具有条件依赖关系,且两个结点会产生一个条件概率值
在这里插入图片描述
上图表示的是朴素贝叶斯的条件独立性假设,x1,x2,x3,x4只和y有关系,可以看作是有向边为0的有向无环图

  • 因为贝叶斯网结构有效表达了属性间的条件独立性,给定父结点集,贝叶斯网假设每个属性与它的非后裔属性独立,那么就有联合概率分布定义为:

在这里插入图片描述
在这里插入图片描述
如上图,由于x1,x2,x3没有父结点,x4有x1,x2,x3三个父结点,x5有x1,x3两个父结点,x6有x4一个父结点,x7有x4,x5两个父结点,所以其联合概率分布为
在这里插入图片描述

  • 贝叶斯网中三个变量之间的典型依赖关系
    在这里插入图片描述
    第一种结构为同父结构,表示在c给定的条件下,ab条件独立,或者称ab被c有向分离,下面的代数式为其证明过程,下同
    第二种结构为V型结构,表示在c未知的条件下,ab条件独立
    第三种结构为顺序结构,表示在c给定的条件下,ab条件独立
    在这里插入图片描述
    上图就是一个关于警报的贝叶斯网,Alarm受Burglary和Earthquake两个随机变量的影响,Johncalls和Marrycalls分别受Alarm的影响,有了贝叶斯网结构和条件概率表就可以计算任一个概率取值。如上图的求JohncallsMarrycalls,Alarm,非Burglary,非Earthquake同时发生的概率。

(2)贝叶斯网的结构学习和参数学习

  • 结构学习(基于评分搜索):

把所有的贝叶斯网络结构看为定义域,将衡量特定结构好坏的标准看为评分函数(基于信息论准则的评分函数:MDL评分函数,AIC评分函数,BIC评分函数),寻找最好的结构的过程。相当在定义域上求函数的最优值,即这是一个最优化问题。

  • 评分函数

在这里插入图片描述

  • 搜索策略
    爬山算法——爬山法使用的搜索算子由3种,分别为加边、减边、转边;其中在加边和转边的使用时有一个前提就是不能有环;主要思想:爬山法从一个初始网络结构出发,通过三个搜索算子对当前网络结构进行修改,得到一系列候选网络结构,然后计算每个候选网络结构的评分,并选出评分最大的作为最优候选结构,如果最优候选结构的评分大于当前网络结构的评分,则以最优候选结构作为当前网络结构,继续搜索; 否则,就停止搜索,并返回当前网络结构。
  • 参数学习

有了贝叶斯网结构,可在训练数据集D上通过经验估计求条件概率表

  • 贝叶斯网推断

通过已知变量观测值来推测查询变量(西瓜色泽青绿,敲声浊响,根蒂蜷缩,推断它是否成熟,甜度如何),可以通过吉布斯采样算法完成

1.已知贝叶斯网结构和条件概率表构建贝叶斯网

import warnings
from pgmpy.models import BayesianModel
from pgmpy.factors.discrete import TabularCPD
from pgmpy.inference import VariableElimination
import networkx as nx
from matplotlib import pyplot as plt
warnings.filterwarnings("ignore")


# 构建一个网络模型
model = BayesianModel([('D', 'G'),   # 一条有向边,D ---> G
                       ('I', 'G'),   # I ---> G
                       ('G', 'L'),   # G ---> L
                       ('I', 'S')])  # I ---> S

# 设置CPD参数
cpd_d = TabularCPD(variable='D', variable_card=2, values=[[0.6], [0.4]])

cpd_i = TabularCPD(variable='I', variable_card=2, values=[[0.7], [0.3]])

cpd_g = TabularCPD(variable='G', variable_card=3,
                   values=[[0.3, 0.05, 0.9,  0.5],
                           [0.4, 0.25, 0.08, 0.3],
                           [0.3, 0.7,  0.02, 0.2]],
                   evidence=['I', 'D'],
                   evidence_card=[2, 2])

cpd_l = TabularCPD(variable='L', variable_card=2,
                   values=[[0.1, 0.4, 0.99],
                           [0.9, 0.6, 0.01]],
                   evidence=['G'],
                   evidence_card=[3])

cpd_s = TabularCPD(variable='S', variable_card=2,
                   values=[[0.95, 0.2],
                           [0.05, 0.8]],
                   evidence=['I'],
                   evidence_card=[2])

model.add_cpds(cpd_d, cpd_i, cpd_g, cpd_l, cpd_s)  # 将概率分布表加入到贝叶斯网络中

print(model.check_model())    # 验证模型数据的正确性(检测节点是否定义,概率和是否为1)

print(model.get_cpds())   # 查看概率分布

infer = VariableElimination(model)
print('\n', 'P(G|D=0,I=1)')    # 计算条件分布 P(G∣D=0,I=1)
print(infer.query(['G'], evidence={'D': 0, 'I': 1}))


# 绘制网络结构图,并附上概率分布表
nx.draw(model,
        with_labels=True,
        node_size=1000,
        font_weight='bold',
        node_color='y',
        pos={"L": [4.2, 3], "G": [4.2, 5], "S": [8, 5], "D": [2, 7], "I": [6, 7]})
plt.text(2.5, 6.5, model.get_cpds("D"), fontsize=10, color='b')
plt.text(6.5, 6.5, model.get_cpds("I"), fontsize=10, color='b')
plt.text(1.4, 4, model.get_cpds("G"), fontsize=10, color='b')
plt.text(4.5, 2.6, model.get_cpds("L"), fontsize=10, color='b')
plt.text(7, 3.5, model.get_cpds("S"), fontsize=10, color='b')
plt.show()
True
[<TabularCPD representing P(D:2) at 0x17fe059ba88>, <TabularCPD representing P(I:2) at 0x17fe441db88>, <TabularCPD representing P(G:3 | I:2, D:2) at 0x17fe4ae2448>, <TabularCPD representing P(L:2 | G:3) at 0x17fe48be5c8>, <TabularCPD representing P(S:2 | I:2) at 0x17fe4db8ec8>]

 P(G|D=0,I=1)
+------+----------+
| G    |   phi(G) |
+======+==========+
| G(0) |   0.9000 |
+------+----------+
| G(1) |   0.0800 |
+------+----------+
| G(2) |   0.0200 |
+------+----------+

在这里插入图片描述

2.已知贝叶斯网结构进行参数学习

import pandas as pd
from pgmpy.models import BayesianModel
from pgmpy.estimators import ParameterEstimator, MaximumLikelihoodEstimator
from pgmpy.inference import VariableElimination
import networkx as nx
from matplotlib import pyplot as plt
import warnings
warnings.filterwarnings("ignore")

data = pd.DataFrame(data={'fruit': ["banana", "apple", "banana", "apple", "banana","apple", "banana",
                                    "apple", "apple", "apple", "banana", "banana", "apple", "banana",],
                          'tasty': ["yes", "no", "yes", "yes", "yes", "yes", "yes",
                                    "yes", "yes", "yes", "yes", "no", "no", "no"],
                          'size': ["large", "large", "large", "small", "large", "large", "large",
                                    "small", "large", "large", "large", "large", "small", "small"]})

print(data)

model = BayesianModel([('fruit', 'tasty'), ('size', 'tasty')])

pe = ParameterEstimator(model, data)
print("\n", pe.state_counts('fruit'))
print("\n", pe.state_counts('tasty'))  # 在fruit和size的条件下,tasty的频数

# 极大似然估计
mle = MaximumLikelihoodEstimator(model, data)

print('\n', '='*100, '\n')
print("\n", mle.estimate_cpd('fruit'))
print("\n", mle.estimate_cpd('tasty'))  # 在fruit和size的条件下,tasty的概率分布

model.fit(data, estimator=MaximumLikelihoodEstimator)

print('\n', '='*100, '\n')
# 概率分布
print(model.get_cpds('fruit'))
print(model.get_cpds('size'))
print(model.get_cpds('tasty'))

print('\n', '='*100, '\n')

nx.draw(model,
        with_labels=True,
        node_size=1000,
        font_weight='bold',
        node_color='y',
        pos={"fruit": [5, 6], "tasty": [3.4, 4.5], "size": [2.5, 6]})

plt.text(4.2, 5.7, model.get_cpds("fruit"), fontsize=10, color='b')
plt.text(2.7, 4.6, model.get_cpds("tasty"), fontsize=10, color='b')
plt.text(2.8, 5.7, model.get_cpds("size"), fontsize=10, color='b')

plt.show()

# 推断
infer = VariableElimination(model)

print('大,香蕉是美味的概率:\n', infer.query(['tasty'], evidence={'fruit': 1, 'size': 0}))  # 大,香蕉是否美味的概率
  fruit tasty   size
0   banana   yes  large
1    apple    no  large
2   banana   yes  large
3    apple   yes  small
4   banana   yes  large
5    apple   yes  large
6   banana   yes  large
7    apple   yes  small
8    apple   yes  large
9    apple   yes  large
10  banana   yes  large
11  banana    no  large
12   apple    no  small
13  banana    no  small

         fruit
apple       7
banana      7

 fruit apple       banana      
size  large small  large small
tasty                         
no      1.0   1.0    1.0   1.0
yes     3.0   2.0    5.0   0.0

 ==================================================================================================== 


 +---------------+-----+
| fruit(apple)  | 0.5 |
+---------------+-----+
| fruit(banana) | 0.5 |
+---------------+-----+

 +------------+--------------+--------------------+---------------------+---------------+
| fruit      | fruit(apple) | fruit(apple)       | fruit(banana)       | fruit(banana) |
+------------+--------------+--------------------+---------------------+---------------+
| size       | size(large)  | size(small)        | size(large)         | size(small)   |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(no)  | 0.25         | 0.3333333333333333 | 0.16666666666666666 | 1.0           |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(yes) | 0.75         | 0.6666666666666666 | 0.8333333333333334  | 0.0           |
+------------+--------------+--------------------+---------------------+---------------+

 ==================================================================================================== 

+---------------+-----+
| fruit(apple)  | 0.5 |
+---------------+-----+
| fruit(banana) | 0.5 |
+---------------+-----+
+-------------+----------+
| size(large) | 0.714286 |
+-------------+----------+
| size(small) | 0.285714 |
+-------------+----------+
+------------+--------------+--------------------+---------------------+---------------+
| fruit      | fruit(apple) | fruit(apple)       | fruit(banana)       | fruit(banana) |
+------------+--------------+--------------------+---------------------+---------------+
| size       | size(large)  | size(small)        | size(large)         | size(small)   |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(no)  | 0.25         | 0.3333333333333333 | 0.16666666666666666 | 1.0           |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(yes) | 0.75         | 0.6666666666666666 | 0.8333333333333334  | 0.0           |
+------------+--------------+--------------------+---------------------+---------------+

 ==================================================================================================== 

大,香蕉是美味的概率:
 +------------+--------------+
| tasty      |   phi(tasty) |
+============+==============+
| tasty(no)  |       0.1667 |
+------------+--------------+
| tasty(yes) |       0.8333 |
+------------+--------------+

在这里插入图片描述

3.通过数据集进行结构和参数学习

import pandas as pd
import numpy as np
from pgmpy.estimators import BicScore
from pgmpy.models import BayesianModel
from pgmpy.estimators import ExhaustiveSearch, HillClimbSearch
from pgmpy.estimators import BayesianEstimator
import warnings
import networkx as nx
from matplotlib import pyplot as plt
warnings.filterwarnings("ignore")

# 随机生成数据样本,包括三个变量,其中Z变量依赖于X,Y变量
data = pd.DataFrame(np.random.randint(0, 4, size=(5000, 2)), columns=list('XY'))
data['Z'] = data['X'] + data['Y']
print(data)

es = ExhaustiveSearch(data, scoring_method=BicScore(data))  # 对于几个节点,可用穷举法
best_model = es.estimate()
print("\nAll DAGs by score:")
for score, dag in reversed(es.all_scores()):
    print(score, dag.edges())

print(best_model.edges())

# 学习到了DAG结构,根据这个结构学习CPD参数
model = BayesianModel(best_model.edges())

model.fit(data, estimator=BayesianEstimator)

# 概率分布
print(model.get_cpds('X'))
print(model.get_cpds('Y'))
print(model.get_cpds('Z'))

nx.draw(model,
        with_labels=True,
        node_size=1000,
        font_weight='bold',
        node_color='y',
        pos={"X": [5, 4], "Y": [2, 4.5], "Z": [2.5, 6]})

plt.text(4.2, 4, model.get_cpds("X"), fontsize=7, color='b')
plt.text(2.1, 4, model.get_cpds("Y"), fontsize=7, color='b')
plt.text(2.5, 4.8, model.get_cpds("Z"), fontsize=6, color='b')

plt.show()
print(model.cpds)

print('\n', '='*500, '\n')

# 对于多个节点可用爬山法
data = pd.DataFrame(np.random.randint(0, 3, size=(2500, 8)), columns=list('ABCDEFGH'))
data['A'] += data['B'] + data['C']
data['H'] = data['G'] - data['A']
print(data)

hc = HillClimbSearch(data, scoring_method=BicScore(data))
best_model = hc.estimate()
edges = best_model.edges()
print(edges)

# 学习到了DAG结构,根据这个结构学习CPD参数
model = BayesianModel(edges)

model.fit(data, estimator=BayesianEstimator)

# 概率分布
print(model.get_cpds('A'))
print(model.get_cpds('G'))
print(model.get_cpds('B'))
print(model.get_cpds('C'))
print(model.get_cpds('H'))

nx.draw(model,
        with_labels=True,
        node_size=1000,
        font_weight='bold',
        node_color='y',
        pos={"A": [3, 6], "C": [2, 5], "H": [6, 5], "B": [2.5, 4], "G": [5.5, 4],})

plt.text(1.7, 5.2, model.get_cpds("A"), fontsize=5.5, color='b')
plt.text(2.5, 4, model.get_cpds("B"), fontsize=5.5, color='b')
plt.text(2, 4.5, model.get_cpds("C"), fontsize=5.5, color='b')
plt.text(5.5, 4, model.get_cpds("G"), fontsize=5.5, color='b')
plt.text(5.5, 4.5, model.get_cpds("H"), fontsize=5.5, color='b')

plt.show()
print(model.cpds)
     X  Y  Z
0     0  2  2
1     3  1  4
2     0  2  2
3     2  3  5
4     3  1  4
...  .. .. ..
4995  0  3  3
4996  3  3  6
4997  1  2  3
4998  2  1  3
4999  2  0  2

[5000 rows x 3 columns]

All DAGs by score:
-14295.447228090614 [('X', 'Z'), ('Y', 'Z')]
-14327.233960660378 [('Y', 'X'), ('Z', 'X'), ('Z', 'Y')]
-14327.233960660378 [('X', 'Y'), ('Z', 'X'), ('Z', 'Y')]
-14327.233960660378 [('X', 'Y'), ('X', 'Z'), ('Z', 'Y')]
-14327.233960660378 [('X', 'Y'), ('X', 'Z'), ('Y', 'Z')]
-14327.23396066038 [('Y', 'Z'), ('Y', 'X'), ('Z', 'X')]
-14327.23396066038 [('X', 'Z'), ('Y', 'Z'), ('Y', 'X')]
-16514.835832156296 [('Y', 'X'), ('Z', 'X')]
-16515.715374631058 [('X', 'Y'), ('Z', 'Y')]
-18724.781181338916 [('Z', 'X'), ('Z', 'Y')]
-18724.781181338916 [('X', 'Z'), ('Z', 'Y')]
-18724.78118133892 [('Y', 'Z'), ('Z', 'X')]
-20912.383052834834 [('Z', 'X')]
-20912.383052834834 [('X', 'Z')]
-20913.262595309596 [('Z', 'Y')]
-20913.262595309596 [('Y', 'Z')]
-20944.169785404596 [('X', 'Y'), ('Z', 'X')]
-20944.169785404596 [('X', 'Y'), ('X', 'Z')]
-20944.1697854046 [('X', 'Z'), ('Y', 'X')]
-20945.04932787936 [('X', 'Y'), ('Y', 'Z')]
-20945.049327879362 [('Y', 'X'), ('Z', 'Y')]
-20945.049327879362 [('Y', 'Z'), ('Y', 'X')]
-23100.864466805513 []
-23132.651199375276 [('X', 'Y')]
-23132.65119937528 [('Y', 'X')]
[('X', 'Z'), ('Y', 'Z')]
+------+----------+
| X(0) | 0.255594 |
+------+----------+
| X(1) | 0.247403 |
+------+----------+
| X(2) | 0.246603 |
+------+----------+
| X(3) | 0.2504   |
+------+----------+
+------+----------+
| Y(0) | 0.2504   |
+------+----------+
| Y(1) | 0.240809 |
+------+----------+
| Y(2) | 0.251798 |
+------+----------+
| Y(3) | 0.256993 |
+------+----------+
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| X    | X(0)                   | X(0)                  | X(0)                   | X(0)                   | X(1)                  | X(1)                   | X(1)                   | X(1)                   | X(2)                   | X(2)                   | X(2)                   | X(2)                   | X(3)                   | X(3)                   | X(3)                   | X(3)                   |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Y    | Y(0)                   | Y(1)                  | Y(2)                   | Y(3)                   | Y(0)                  | Y(1)                   | Y(2)                   | Y(3)                   | Y(0)                   | Y(1)                   | Y(2)                   | Y(3)                   | Y(0)                   | Y(1)                   | Y(2)                   | Y(3)                   |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(0) | 0.9991139726512897     | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(1) | 0.00014767122478513846 | 0.9991020921253484    | 0.00013003562976255498 | 0.00013313806417254698 | 0.9991340241895914    | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(2) | 0.00014767122478513846 | 0.0001496513124420102 | 0.9992197862214249     | 0.00013313806417254698 | 0.0001443293017348383 | 0.9991866171406883     | 0.00015926102882624627 | 0.00013980930011464366 | 0.9991283883901336     | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(3) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.999201171614965      | 0.0001443293017348383 | 0.00013556380988531306 | 0.9990444338270429     | 0.00013980930011464366 | 0.00014526860164444064 | 0.9990410126905991     | 0.00013765382815296095 | 0.00013807958907514293 | 0.9991987821488666     | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(4) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.9991611441993122     | 0.00014526860164444064 | 0.00015983121823354545 | 0.9991740770310823     | 0.00013807958907514293 | 0.00013353630852228727 | 0.9991020921253481     | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(5) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.9991715224655492     | 0.00013353630852228727 | 0.00014965131244201014 | 0.9991423425483863     | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(6) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.9991312154296139     |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
[<TabularCPD representing P(X:4) at 0x26944dfe988>, <TabularCPD representing P(Z:7 | X:4, Y:4) at 0x26945013888>, <TabularCPD representing P(Y:4) at 0x2694501c8c8>]

 ==================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================== 

      A  B  C  D  E  F  G  H
0     4  2  2  2  2  1  2 -2
1     0  0  0  2  0  1  1  1
2     2  0  1  2  0  2  2  0
3     4  1  1  0  0  0  1 -3
4     5  1  2  1  0  2  1 -4
...  .. .. .. .. .. .. .. ..
2495  1  0  1  1  0  1  1  0
2496  4  1  2  0  2  2  0 -4
2497  1  1  0  1  2  0  2  1
2498  1  0  0  0  0  0  1  0
2499  4  0  2  1  0  1  1 -3

[2500 rows x 8 columns]
[('A', 'B'), ('A', 'C'), ('B', 'C'), ('G', 'A'), ('G', 'H'), ('H', 'A')]
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| G    | G(0)                  | G(0)                  | G(0)                   | G(0)                   | G(0)                   | G(0)                  | G(0)                  | G(0)                | G(0)                | G(1)                | G(1)                 | G(1)                   | G(1)                  | G(1)                   | G(1)                   | G(1)                  | G(1)                  | G(1)                | G(2)                | G(2)                | G(2)                  | G(2)                  | G(2)                | G(2)                   | G(2)                   | G(2)                  | G(2)                  |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| H    | H(-6)                 | H(-5)                 | H(-4)                  | H(-3)                  | H(-2)                  | H(-1)                 | H(0)                  | H(1)                | H(2)                | H(-6)               | H(-5)                | H(-4)                  | H(-3)                 | H(-2)                  | H(-1)                  | H(0)                  | H(1)                  | H(2)                | H(-6)               | H(-5)               | H(-4)                 | H(-3)                 | H(-2)               | H(-1)                  | H(0)                   | H(1)                  | H(2)                  |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(0) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.9943683123709408    | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.9959492303537674    | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.9941611521992996    |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(1) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.9982000359992801    | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.9983833593792101    | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.9980686280821478    | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(2) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.9991239341198456     | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.9991190720892671     | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.9992589115881523     | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(3) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.9992887961689818     | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.9991867714827865     | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.999248384025655      | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(4) | 0.0009386146048432514 | 0.0002614515791675382 | 0.9990448597535737     | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.9992031025872602    | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.999002858472379   | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(5) | 0.0009386146048432514 | 0.9984312905249948    | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.9987009050361582     | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.9984764613275101    | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(6) | 0.9943683123709405    | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.9950682229163242   | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.9931538110451849    | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
+------+----------+
| G(0) | 0.326015 |
+------+----------+
| G(1) | 0.345975 |
+------+----------+
| G(2) | 0.328011 |
+------+----------+
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| A    | A(0)                  | A(1)                  | A(2)                | A(3)                | A(4)                | A(5)                  | A(6)                  |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| B(0) | 0.9949723479135243    | 0.6856282119440014    | 0.5093465674110835  | 0.30210223835450695 | 0.1605408839277611  | 0.0007265329845975006 | 0.0028441410693970416 |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| B(1) | 0.0025138260432378077 | 0.31348573453836615   | 0.3373862696443341  | 0.4259679370840895  | 0.35302659043470364 | 0.34859052600988083   | 0.0028441410693970416 |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| B(2) | 0.0025138260432378077 | 0.0008860535176324649 | 0.15326716294458229 | 0.27192982456140347 | 0.4864325256375351  | 0.6506829410055216    | 0.9943117178612059    |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| A    | A(0)                  | A(0)               | A(0)               | A(1)                  | A(1)                  | A(1)               | A(2)                | A(2)                   | A(2)                  | A(3)                   | A(3)                | A(3)                   | A(4)                  | A(4)                   | A(4)                | A(5)               | A(5)                  | A(5)                  | A(6)               | A(6)               | A(6)                  |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| B    | B(0)                  | B(1)               | B(2)               | B(0)                  | B(1)                  | B(2)               | B(0)                | B(1)                   | B(2)                  | B(0)                   | B(1)                | B(2)                   | B(0)                  | B(1)                   | B(2)                | B(0)               | B(1)                  | B(2)                  | B(0)               | B(1)               | B(2)                  |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| C(0) | 0.998315647633485     | 0.3333333333333333 | 0.3333333333333333 | 0.5214956491772206    | 0.9981156962502357    | 0.3333333333333333 | 0.35152105662011474 | 0.5770205115632916     | 0.9982011153085089    | 0.00041718815185648727 | 0.30599443754068284 | 0.5494067482387838     | 0.0009421518748822309 | 0.00042844901456726646 | 0.37251243781094523 | 0.3333333333333333 | 0.0006947339169098235 | 0.0003721899657585231 | 0.3333333333333333 | 0.3333333333333333 | 0.0009534706331045003 |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| C(1) | 0.0008421761832575375 | 0.3333333333333333 | 0.3333333333333333 | 0.4780735762901697    | 0.0009421518748822311 | 0.3333333333333333 | 0.3447006603875717  | 0.42257089155838845    | 0.0008994423457456378 | 0.4682519816437213     | 0.3395467187407539  | 0.45012977382276603    | 0.0009421518748822309 | 0.529477292202228      | 0.3333333333333333  | 0.3333333333333333 | 0.0006947339169098235 | 0.48808992109572724   | 0.3333333333333333 | 0.3333333333333333 | 0.0009534706331045003 |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| C(2) | 0.0008421761832575375 | 0.3333333333333333 | 0.3333333333333333 | 0.0004307745326096321 | 0.0009421518748822311 | 0.3333333333333333 | 0.3037782829923135  | 0.00040859687831984963 | 0.0008994423457456378 | 0.5313308302044222     | 0.35445884371856323 | 0.00046347793845012973 | 0.9981156962502354    | 0.47009425878320477    | 0.2941542288557214  | 0.3333333333333333 | 0.9986105321661803    | 0.5115378889385142    | 0.3333333333333333 | 0.3333333333333333 | 0.998093058733791     |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
+-------+-----------------------+------------------------+------------------------+
| G     | G(0)                  | G(1)                   | G(2)                   |
+-------+-----------------------+------------------------+------------------------+
| H(-6) | 0.034512471655328794  | 0.00021367521367521362 | 0.00022537750732476897 |
+-------+-----------------------+------------------------+------------------------+
| H(-5) | 0.12390022675736959   | 0.037136752136752126   | 0.00022537750732476897 |
+-------+-----------------------+------------------------+------------------------+
| H(-4) | 0.20349206349206345   | 0.14098290598290597    | 0.028217263917061076   |
+-------+-----------------------+------------------------+------------------------+
| H(-3) | 0.2732879818594104    | 0.2298290598290598     | 0.12679738562091503    |
+-------+-----------------------+------------------------+------------------------+
| H(-2) | 0.22185941043083895   | 0.22521367521367516    | 0.1937345052963714     |
+-------+-----------------------+------------------------+------------------------+
| H(-1) | 0.10798185941043081   | 0.20790598290598286    | 0.25702050935316656    |
+-------+-----------------------+------------------------+------------------------+
| H(0)  | 0.034512471655328794  | 0.11329059829059827    | 0.2606716249718278     |
+-------+-----------------------+------------------------+------------------------+
| H(1)  | 0.0002267573696145124 | 0.045213675213675204   | 0.10002253775073247    |
+-------+-----------------------+------------------------+------------------------+
| H(2)  | 0.0002267573696145124 | 0.00021367521367521362 | 0.03308541807527609    |
+-------+-----------------------+------------------------+------------------------+
[<TabularCPD representing P(A:7 | G:3, H:9) at 0x269465c8b08>, <TabularCPD representing P(B:3 | A:7) at 0x269465ef888>, <TabularCPD representing P(C:3 | A:7, B:3) at 0x269465ef908>, <TabularCPD representing P(G:3) at 0x269465f3288>, <TabularCPD representing P(H:9 | G:3) at 0x269465f33c8>]

在这里插入图片描述
在这里插入图片描述
参考资料
1.周志华,机器学习,清华大学出版社
2.李航,统计学习方法(第二版),清华大学出版社
3.垃圾邮件分类和新闻分类数据集:https://github.com/Jack-Cherish/Machine-Learning
4.视频参考1:https://www.bilibili.com/video/BV16t411Q7TM
5.视频参考2:https://www.bilibili.com/video/BV1Tb411H7uC
6.贝叶斯网参考:https://blog.csdn.net/GnahzNib/article/details/70244175
7.贝叶斯网参考:https://blog.csdn.net/weixin_41599977/article/details/90320390

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记 的相关文章

  • 未找到符号:__PyCodecInfo_GetIncrementalDecoder

    自从从 Homebrew Python 2 7 11 从 2 7 10 开始 更新后 我突然无法从 PyCharm IDE 控制台在 PyPi 上测试注册我的包 运行 作为 外部工具 python B setup py register r
  • PyCharm 导入方式与系统命令提示符 (Windows) 有何不同

    尽管我的脚本在 PyCharm 中工作 但我在 cmd 提示符下运行脚本时遇到问题 我有这样的文件夹结构 MyCode PyCharm project folder UsefulFunctions Messaging Texter py D
  • PyCharm CE 和 Android Studio 中的纯黑色背景

    虽然我仍然在 Emacs 上寻找 Python 调试器未实现的 https stackoverflow com questions 35162686 is there a python debugger that runs wholly u
  • Pycharm 中的 Jupyter - 当数据框太宽时,数据框不显示,不出现水平滚动选项

    当我在 Pycharm 中使用 jupyter 笔记本从单元格输出数据帧时 除非数据帧的宽度适合窗口 否则它不会显示 因此 在宽度比窗口宽度宽的情况下 只会产生一条白线 而我期望显示部分数据框以及水平滚动条 运行以下命令 import pa
  • 管理包:PyCharm vs conda vs pip

    我是 Python 新手 最近在 Windows 10 上安装了 PyCharm 2016 3 我还使用 Anaconda 3 我对包管理不太了解 想更好地了解它 通常我只是使用conda update all但我注意到 通过检查本地 Py
  • Pycharm 安装抱怨 OpenJDK

    我尝试在 Ubuntu 12 04 上安装 Pycharm 我有以下信息 user user Pobrane pycharm 2 5 2 bin sh pycharm sh OpenJDK Runtime Environment IcedT
  • 从同一文件夹导入时 PyCharm 无法解析引用

    当我刚刚创建一个新项目时 项目文件夹 我的项目 中有两个 py 文件 main py 和functions py 在main py我导入了函数 py效果很好 但后来我在 我的项目 文件夹中创建了一些文件夹并放入main py and 函数
  • Django 模型子类的类型提示

    我有 Django 视图的辅助函数 如下所示 代码如下 它返回 None 或与给定查询匹配的单个对象 例如pk 1 from typing import Type Optional from django db models import
  • Pycharm-无法安装opencv

    我是 PyCharm 的新手 并尝试了解如何安装 openCV 包以及后来的 cv2 包 我在这里看到一个旧的讨论 建议首先从 internet 下载 openCV 然后更新系统解释器 我下载了 openCV 并将其放置在我管理项目的同一目
  • 如何在Pycharm中暂停程序执行(暂停按钮不起作用)?

    在 Pycharm 5 0 4 中调试我的 Python 3 5 程序时 我试图按下暂停按钮来查找程序挂起的原因 位置 可以在 Visual Studio 中完成 但是 什么也没有发生 暂停按钮不会变成灰色 恢复按钮保持灰色 并且在调试器工
  • PyCharm:Scapy 未解决的参考

    我正在开发一个使用 scapy 用 python 编写的网络工具 我使用 Pycharm 作为 IDE 我的代码有效 因此 如果我运行它 一切都会按预期进行 我的问题是 PyCharm 给了我一些错误 它标志着每次使用IP TCP Ethe
  • PyCharm 和外部工具过滤器

    我正在尝试使用 PyCharm 进行 Django 开发 到目前为止我非常高兴 我的团队严格遵循 PEP8 格式 并使用 pep8 命令行程序进行检查以确保我们的代码符合要求 我已经配置了一个外部工具命令来运行 pep8 并且运行良好 我看
  • 如何在 Windows 上为 PyCharm 配置 Python Kivy?

    我在让 Kivy 在 Windows 7 上与 PyCharm 配合使用时遇到问题 我已成功通过 文件 gt 设置 gt Python 解释器 gt 路径 选项卡添加了大部分外部库 我使用的是 Kivy 版本的 Python 当我运行一个
  • 如何从命令行使用 PyCharm 作为 GIT diff 工具?

    On the PyCharm 帮助网站 https www jetbrains com pycharm help running pycharm as a diff or merge command line tool html我发现您可以
  • 是否有 pycharm_helpers 的存储库

    最近我开始使用皮查姆 2017用于Docker 中的远程调试我意识到 PyCharm 的每个版本都会有一个新的图像pycharm helpers被拉取 根据构建使用不同的标签 有什么办法可以下载全部吗pycharm helpers图片 或者
  • Python 脚本在 PyCharm 中运行,但不在 Git Bash 中运行

    假设我有一个任意大的模块化 Python 2 7 代码库 project docs etc package module1 submodule1 subsubmodule1 init py subsubmodule2 and so on i
  • (Django 教程)从“民意调查”应用程序导入“视图” - 语法错误 PyCharm

    使用是否不正确 from app name import views 当你进入那个应用程序时 我正在遵循 Django 文档网站上的教程 一切正常 但是 每次执行以下操作时 我都会收到语法错误 尽管它仍然有效 我正在使用 PyCharm 如
  • 手动重建PyCharm索引[重复]

    这个问题在这里已经有答案了 有时 PyCharm 变得非常慢 经过 20 30 分钟的缓慢运行后 它会重建索引 有没有办法手动触发重建 PyCharm 索引 File gt Invalidate Caches Restart
  • 如何使用PyCharm调试Scrapy项目

    我正在使用 Python 2 7 开发 Scrapy 0 20 我发现 PyCharm 有一个很好的 Python 调试器 我想用它来测试我的 Scrapy 蜘蛛 有人知道该怎么做吗 我尝试过的 Actually I tried to ru
  • 如何在 PyCharm 中指定 pip 选项以从requirements.txt进行安装

    要从公司代理后面安装 Python 包 有时需要添加选项pip 例如 proxy or cert 如何在 PyCharm 中指定代理的说明见这个问题 https stackoverflow com q 42363175 2311167以及如

随机推荐

  • 基于内容的图像检索技术:从特征到检索

    点击上方 机器学习与生成对抗网络 星标置顶 重磅干货 第一时间送达 来自 知乎 作者 赵丽丽 编辑 新机器视觉 在介绍视觉内容检索流程前 先来回顾下文本检索流程 一 相似文本检索 相似文本检索可以分成构建词库 构建索引和检索三部分 如下图所
  • 烽火星空- 笔试

    烽火星空笔试 Java结合数据结构进行出题 无任何网络知识 无任何操作系统知识 无任何框架知识 Collection除外 选择题 Java结合数据结构 没有Java基础知识 全部结合数据结构 数据结构占比60 Java 40 链表占比极高
  • SELECT CASE WHEN 的用法

    1 SELECT CASE WHEN 的用法 select 与 case结合使用最大的好处有两点 一是在显示查询结果时可以灵活的组织格式 二是有效避免了多次对同一个表或几个表的访问 下面举个简单的例子来说明 例如表 students id
  • Android和H5那些不可描述的事情...

    今日科技快讯 近日 代表了750家移动运营商利益的全球移动通信系统协会的行业分析报告显示 禁止从中国供应商购买通信设备 将使欧洲5G网络成本增加约550亿欧元 并将导致该技术的推出延迟18个月左右 在路透社报道中提到的中国供应商 除了华为
  • 深度之眼(五)——Python组合数据类型

  • springcloud----负载均衡--Ribbon与LoadBalance

    简介 Spring Cloud Ribbon 是 Netflix Ribbon 实现的一套客户端 负载均衡工具 简单的说 Ribbon 是 Netflix 发布的开源项目 主要功能是提供 客户端的复杂均衡算法和服务调用 Ribbon 客户端
  • Pico-I / O嵌入式模块提供48点数字I / O接口

    WinSystems的PCO UIO48 G是具有中断事件检测功能的48点数字I O接口 Pico I O嵌入式模块旨在为Pico ITXe单板计算机提供低成本的I O扩展 该产品的主要功能之一是 它可以监视24个上升和下降的数字边沿转换
  • spring容器使用接口注入

    spring为何要注入接口 而注入实现类就会报错 如果只是单纯注入是可以用实现类接收注入对象的 但是往往开发中会对实现类做增强 如事务 日志等 实现增强的AOP技术是通过动态代理实现的 而spring默认是JDK动态代理 对实现类对象做增强
  • Linux(V4L2驱动)下获得Opencv摄像头属性(图像输出格式和是否发生往RGB的转换)的方法

    Opencv可通过cvGetCaptureProperty函数 或者VideoCapture get int proID 来获取摄像头输出图像的属性 但返回的是个double的值 如何查看图像输出的编码格式呢 其实可以看到 编码格式是个宏定
  • 通信仿真软件SystemView安装全流程详细解释(下载,安装,闪退,读条无反应)

    systemview简介 systemview 通信仿真软件 5 0 是一款模拟软件 这款软件主要是进行信号仿真的操作 支持支持滤波器设计 信号仿真和通信系统统计分析 软件内的功能非常丰富 操作也很简单 是一款非常不错的软件 有需要的小伙伴
  • HDFS读数据流程

    准备工作 1 首先客户端进入分布式文件系统去寻找数据块的位置 利用得到的文集文件块位置来要求名称节点返还部分块这些返还的节点会按照HADOOP中关于集群拓扑来得出客户端的距离然后进行排序 开始读取数据 1客户端利用FSDataInputSt
  • 聚观早报

    聚观365 9月14日消息 iPhone 15系列正式发布 月饼专利申请超10000项 五个女博士 自建研究院 2023中国民营企业研发十强公布 华为和小米达成全球专利交叉许可协议 iPhone 15系列正式发布 2023年苹果秋季新品发布
  • hook库

    detourattach detourRestoreAfterWith detourTransactionBegin detourUpdatethread getcurrentthread
  • 使用ChatGPT生成代码

    无需翻墙 1 下载安装cursor 首先进入官网 https www cursor so 点击 Download for windows 下载并安装好cursor 2 使用方法 打开后界面如下 打开 py或者 json文件 然后点击按键盘
  • echarts初始化宽度小于容器宽度

    查找资料是因为echarts的容器还没有创建出来的时候echarts就已经加载出来了 因为获取不到容器的宽高就会默认宽高100 是100px 所以会缩小在一起 因为我的代码中 echarts的容器的最外层的div给的样式是display n
  • 分布式事务学习总结

    1 基础概念 1 1 什么是事务 事务可以看做是一次大的活动 它由不同的小活动组成 这些活动要么全部成功 要么全部失败 1 2 本地事务 在计算机系统中 更多的是通过关系型数据库来控制事务 这是利用数据库本身的事务特性来实现的 因此叫数据库
  • echarts报错:Error in mounted hook: “TypeError: Cannot read properties of undefined (reading ‘init‘)“

    echarts安装创建图表时报这种错误 Error in mounted hook TypeError Cannot read properties of undefined reading init 1 具体报错内容 2 解决办法 原先大
  • Java基本数据类型

    Java中有以下几种基本数据类型 这些类型都是值类型 类型 值范围 大小 范围 boolean true或false 1位 char Unicode字符 16位 u0000 uFFFF byte 有符号整数 8位 128 127 short
  • [Linux打怪升级之路]-环境变量

    前言 作者 小蜗牛向前冲 名言 我可以接受失败 但我不能接受放弃 如果觉的博主的文章还不错的话 还请点赞 收藏 关注 支持博主 如果发现有问题的地方欢迎 大家在评论区指正 目录 一 认识环境变量 二 获取环境变量的三种方法 1 通过gete
  • 贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记

    贝叶斯分类器 贝叶斯决策论 极大似然估计 朴素贝叶斯分类器 半朴素贝叶斯分类器 贝叶斯网 学习笔记 一 条件概率 全概率公式 贝叶斯公式 二 贝叶斯决策论 贝叶斯决策论是概率框架下实施决策的基本方法 对分类任务来说 在所有相关概率都已知的理