鲍鱼数据集数据分析和可视化，线性回归预测鲍鱼年龄(基于TensorFlow)

2023-10-26

一：数据集描述

Name       Data Type   Meas.   Description
   ----       ---------   -----   -----------
   Sex       nominal           M, F, and I (infant)
   Length       continuous   mm   Longest shell measurement
   Diameter   continuous   mm   perpendicular to length
   Height       continuous   mm   with meat in shell
   Whole weight   continuous   grams   whole abalone
   Shucked weight   continuous   grams   weight of meat
   Viscera weight   continuous   grams   gut weight (after bleeding)
   Shell weight   continuous   grams   after being dried
   Rings       integer           +1.5 gives the age in years

共9个属性，最后一个属性（Rings）代表鲍鱼的年轮，和树木一样，一年鲍鱼生长一出一个年轮

数据分析：

1.导入相关的第三方库：

我在ipython上进行的，所以添加魔法函数%matplotlib inline让绘图显示

%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

2.读入数据

利用pandas读取数据和分析数据

data = pd.read_csv('dataset.data')

使用.info()方法查看数据集的总体信息

data.info()

可以看到，共有4176条数据，9个特征，没有缺失值，除了年轮数据为int64，其他均为float64

因为原文件中，没有特征项的名称，我们加上特征名称，方便后续操作

data.columns = ['Sex', 'Length', 'Diameter', 'Height',
                'Whole weight', 'Shucked weight', 'Viscera weight',
                'Shell weight', 'Rings']

下面是添加了列索引后的前五行数据：

下面看看数据根据性别分类的数据分布：

可以看到，鲍鱼性别共有三个分类(M，F，I)，分别表示(雄性，雌性，未成年)

不同性别所占的数据为：M：1527，I：1342，F：1307

使用饼图直观的表示，不同性别的分布：

获取类别数：

n = len(data['Sex'].unique())

获得类别标签：

labels = [data['Sex'].unique()[i] for i in range(n)]

获得每个标签的数据个数：

fraces = [data['Sex'].value_counts()[i] for i in range(n)]

绘制饼图：

explode = [0.1, 0, 0]
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.title("鲍鱼性别占比")
wedges, texts, autotexts = plt.pie(x=fraces, labels=labels, autopct='%0f%%',
        explode=explode,shadow=True)
plt.legend(wedges, labels, fontsize=12, title="性别",
          loc="center left", bbox_to_anchor=(0.91, 0, 0.3, 1))

针对其他的离散数据，分别查看他们的概率分布密度图像：

分别使用核密度估计图和小提琴图：

sns.kdeplot(data_length)

sns.violinplot(data_length)

根据性别合并查询，查看不同性别的数据分布：

a = data.drop('Rings', axis=1).groupby('Sex').mean()

绘制分组条形图：

a.plot(kind='bar', grid=False)
plt.title('不同性别鲍鱼特征均值')
plt.legend(loc="center left", bbox_to_anchor = (1, 0.5))

构建回归模型：

导入需要的库：

import tensorflow as tf
import numpy as np
import pandas as pd
from sklearn.utils import shuffle

因为性别标签的数据是离散的，所以将离散数据转化为数值型数据：

size_mapping = {
    'F': 0.1,
    'M': 0.5,
    'I': 0.9
}
df['Sex'] = df['Sex'].map(size_mapping)

数据归一化：

data = np.array(df.values)
n = len(df.columns)
for i in range(n-1):
    data[:,i] = data[:,i]/(data[:,i].max() - data[:,i].min())

数据分为x(输入特征)，y(预测数据)

x_data = data[:,:n-1]
y_data = data[:,-1]

定义特征数据和标签数据的占位符

x = tf.placeholder(tf.float32, [None, n-1], name='x')
y = tf.placeholder(tf.float32, [None, 1], name='y')

定义模型结构：

with tf.name_scope("model"):
    w = tf.Variable(tf.random_normal([n-1, 1], stddev = 0.01), name = "w")
    b = tf.Variable(1.0, name = "b")
    def model(x, w, b):
        return tf.matmul(x, w) + b
    pred = model(x, w, b)

超参数：

train_epochs = 50
learning_rate = 0.01

定义均方损失函数：

with tf.name_scope("LossFunction"):
    loss_function = tf.reduce_mean(tf.pow(y-pred, 2))

创建梯度下降优化器：

optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)
sess = tf.Session()
init = tf.global_variables_initializer()

记录日志文件，方便后续tensorBoard可视化：

logdir = r'C:\Users\yuzhu\Desktop\鲍鱼数据集\log'

sum_loss_op = tf.summary.scalar("loss", loss_function)

merged = tf.summary.merge_all()

sess.run(init)

创建摘要文件写入器(FileWriter)：

writer = tf.summary.FileWriter(logdir, sess.graph)

训练模型：

loss_list = []
loss_list2 = []
for epoch in range(train_epochs):
    loss_sum = 0.0
    for xs,ys in zip(x_data, y_data):
        xs = xs.reshape(1, n-1)
        ys = ys.reshape(1, 1)
        
        _, summary_str, loss = sess.run([optimizer, sum_loss_op, loss_function], feed_dict = {x:xs, y:ys})
        
        writer.add_summary(summary_str, epoch)
        loss_sum = loss_sum + loss
        
        loss_list2.append(loss)
        
    xvalues, yvalues = shuffle(x_data, y_data)
    
    b0temp = b.eval(session=sess)
    w0temp = w.eval(session=sess)
    loss_average = loss_sum/len(y_data)
    
    loss_list.append(loss_average)
    
    print("epoch=", epoch+1, "loss=", loss_average, "b=", b0temp, "w=", w0temp)

绘制损失值的变化情况：

plt.plot(loss_list)

plt.plot(loss_list2)

tensorBoard可视化结果（损失值）：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

鲍鱼数据集数据分析和可视化，线性回归预测鲍鱼年龄(基于TensorFlow) 的相关文章

Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
使用 Python 绘制 USGS 水文数据甘特图？

我编译了一个数据帧其中包含几个不同流计的 USGS 流数据现在我想创建一个类似的甘特图this https stackoverflow com questions 31820578 how to plot stacked event d
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to

随机推荐

Win10笔记本屏幕最低亮度依旧很亮？最高亮度依旧很暗？

左下角搜索显卡打开英特尔R显卡控制中心点击显示器点击颜色里面有全部颜色在这里调节即可嫌太亮调低些反之则反
必刷算法题之排序篇（题目及代码）---C++

前言该篇博客记录了和排序有关的一些题目差不多是逐级递增的难度后续还会补充有具体思路和代码文章目录第一题排序第二题判断字符是否唯一第三题最小的k个数第四题单链表的排序第五题最大数第六题调整数组顺序使奇数位于偶
javaScript中Float精度计算

在项目中做了一个计算统计值的部分实现过程是通过 javaScript 进行累加的在测试时出现了一个很乖的问题在此记录一下 1 问题背景项目中有一个表格字段数据类型是float的在数据库中均以Decimal 10 2 的格式保存
springMVC（数据格式化+验证以及国际化+中文乱码处理+处理 json 和 HttpMessageConverter＜T＞+SpringMVC 文件上传+自定义拦截器+异常处理）

目录一数据格式化 1 基本介绍 2 基本数据类型和字符串自动转换 2 1总结 3 特殊数据类型和字符串间的转换二验证以及国际化 1 概述 1 1 概述 2 JSR 303 验证框架 1 1Hibernate Validator 扩展
layui.table.render如何改变表格的高度

1 将checkbox 和操作设置固定高度 type checkbox fixed left style height 111px field id title ID sort true width 120 fixed right ti
数据结构：排序(Sort)【详解】

目录排序知识框架排序概述一排序的相关定义二排序用到的结构与函数常见的排序算法一冒泡排序交换排序 1 算法 2 性能分析二简单选择排序 1 算法 2 性能分析三直接插入排序 1 算法 2 性能分析四折半插入排
【xenclient】使用小结 -- 片花

片花1 磁盘共享同一台电脑上装的系统多了各个系统间难免重复内容很多不免就有共享的需求最简单的想法单独做个vhd 只用来保存共享的数据然后加到每一个虚拟机上不就行了当然同一块vhd挂到多台虚拟机上同时运行的话肯定有数据一致
超详细的Shell学习教程第一篇

1 1 Shell介绍 Shell 是一个用 C 语言编写的程序它是用户使用 Linux 的桥梁 Shell 既是一种命令语言又是一种程序设计语言 Shell 是指一种应用程序这个应用程序提供了一个界面用户通过这个界面访问操作系统内
【100+ python基础入门-32】元组元素的增删改查操作方法总结

元组是不可变的数据类型所以我们没有办法对他的内部元素进行诸如修改删除和增加操作但是语言就是这么神奇不可以对元祖本身操作还可以把元组操作之后的结果重新存储成一个新的元组这样不就能丰富元组的操作了吗方法是完全可行的但是多少有点局
LinkedList和ArrayList

LinkedList和ArrayList 区别 LinkedList是基于双向链表头尾插入删除效率高随机访问慢要沿着链表一个一个遍历占用内存多 ArrayList是基于数组尾部插入删除性能还行其他部分插入删除都会一个一个移动
远程桌面很卡

很多人使用windows自带的远程桌面连接的时候会觉得很卡这很可能是你网速慢的原因你可以试试用提高网速的方法来解决这个问题下面我教大家调整一下远程桌面连接的显示可能是你把远程的画质设置得过高占用了宽带所以导致了在远程的时候变得
Zabbix监控之邮件发送失败-smtp-server: 错误代码550与535

原始问题背景前几天运维同事突然发现zabbix监控上面不再发送邮件了而zabbix的监控界面状态都是能够显示出来因为之前出现过类似的问题估计是163邮箱的问题于是登陆用于告警的邮箱直接通过网页发送邮件也同样报错估计是邮件防垃圾
股票实时行情数据API接口分享

JAVA版本API接口分享 import java io BufferedReader import java io IOException import java io InputStreamReader import java net
Python 比较两个时间序列在图形上是否相似

比较两个时间序列在图形上是否相似可以通过以下方法可视化比较将两个时间序列绘制在同一张图上并使用相同的比例和轴标签进行比较可以观察它们的趋势峰值和谷值等特征从而进行比较峰值和谷值比较通过比较两个时间序列中的峰值和谷值来进行比
认识smack4.1.4基本对象——StanzaFilter接口

一StanzaFilte接口介绍该接口通过定义方法过滤packet对象中的特殊属性该接口主要用于创建packet的监听器 listener 和收集器 collector 通过StanzaFilte对监听器和收集器需要处理的packet进
组合预测模型

组合预测模型 LSTM XGBoost长短期记忆神经网络结合极限梯度提升树时间序列预测 Matlab程序目录组合预测模型 LSTM XGBoost长短期记忆神经网络结合极限梯度提升树时间序列预测 Matlab程序预测结果评价指标基
[History]W. Richard Stevens

读过 Advanced Programming in the UNIX Enviroment 读过 TCP IP Illustrated 读过 UNIX Network Programming 直到今天才直到她们的作值是同一个人 W Ric
pycharm使用小技巧-插入代码/默认模板

每次用pycharm写代码的时候前面几行代码都要重复写作为一名新生代民工对于这种重复性工作当然是能省略就省略的了未设置前我们新建一python文件都是空白的如下图而设置好之后的样子如下新建之后便是我们想要的模板设置步骤如下
MyBatis中${} 和 #{} 有什么区别？

和都是 MyBatis 中用来替换参数的它们都可以将用户传递过来的参数替换到 MyBatis 最终生成的 SQL 中但它们区别却是很大的接下来我们一起来看 1 功能不同是将参数直接替换到 SQL 中比如以下代码最终生成的执行
鲍鱼数据集数据分析和可视化，线性回归预测鲍鱼年龄(基于TensorFlow)

一数据集描述 Name Data Type Meas Description Sex nominal M F and I infant Length continuous mm Longest shell measurement Diam

鲍鱼数据集数据分析和可视化，线性回归预测鲍鱼年龄(基于TensorFlow)

鲍鱼数据集数据分析和可视化，线性回归预测鲍鱼年龄(基于TensorFlow) 的相关文章

随机推荐

热门标签