维基百科的定义 http://en.wikipedia.org/wiki/Confusion_matrix:
在人工智能领域,混淆矩阵是一个
可视化工具通常用于监督学习(在
无监督学习通常称为匹配矩阵)。每个
矩阵的列表示预测类中的实例,
而每一行代表实际类中的实例。
混淆矩阵应该很清楚,它基本上告诉了有多少实际结果与预测结果相匹配。例如,请参阅这个混淆矩阵
predicted class
c1 - c2
Actual class c1 15 - 3
___________________
c2 0 - 2
它告诉我们:
第 1 列、第 1 行表示分类器已预测 15 个项目属于该类c1
,实际上有 15 个项目属于该类c1
(这是正确的预测)
第二列第 1 行表明分类器已预测 3 个项目属于该类别c2
,但它们实际上属于类c1
(这是一个错误的预测)
第 1 列第 2 行表示没有任何项目实际属于该类c2
已被预测属于类别c1
(这是一个错误的预测)
第 2 列第 2 行表明 2 个项目属于该类c2
已被预测属于类别c2
(这是正确的预测)
现在看看你书上的准确率和错误率的公式(第4章,4.2),你应该能够清楚地理解什么是混淆矩阵。它用于使用具有已知结果的数据来测试分类器的准确性。 K-Fold 方法(书中也提到了)是计算分类器准确性的方法之一,您的书中也提到了这一点。
现在,对于列联表:维基百科的定义 http://en.wikipedia.org/wiki/Contingency_table:
在统计学中,列联表(也称为交叉表)
制表或交叉表)是一种矩阵格式的表格,
显示变量的(多变量)频率分布。
常用于记录和分析两个或两个事物之间的关系
更多分类变量。
在数据挖掘中,列联表用于显示哪些项目一起出现在阅读中,例如在交易中或销售分析的购物车中。例如(这是你提到的书中的示例):
Coffee !coffee
tea 150 50 200
!tea 650 150 800
800 200 1000
它表明,在 1000 个回复中(关于他们喜欢咖啡和茶还是两者或其中之一的回复,调查结果):
- 150 人既喜欢茶又喜欢咖啡
- 50 人喜欢茶但不喜欢咖啡
- 650人不喜欢茶但喜欢咖啡
- 150 人既不喜欢茶也不喜欢咖啡
列联表用于查找关联规则的支持度和置信度,基本上是为了评估关联规则(请参阅第 6 章 6.7.1)。
现在的区别在于,混淆矩阵用于评估分类器的性能,它告诉分类器对分类进行预测的准确性,而列联表用于评估关联规则。
现在,读完答案后,谷歌一下(在阅读书本时始终使用谷歌),阅读书中的内容,看一些示例,并且不要忘记解决书中给出的一些练习,您就会应该对它们有一个清晰的概念,以及在特定情况下使用什么以及为什么使用。
希望这可以帮助。