将 CSV 文件转换为 TF 记录

2024-02-24

我已经运行我的脚本超过 5 个小时了。我有 258 个 CSV 文件想要转换为 TF Records。我编写了以下脚本，正如我所说，我已经运行它超过 5 个小时了：

import argparse
import os
import sys
import standardize_data
import tensorflow as tf

FLAGS = None
PATH = '/home/darth/GitHub Projects/gru_svm/dataset/train'

def _int64_feature(value):
    return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))

def _float_feature(value):
    return tf.train.Feature(float_list=tf.train.FloatList(value=[value]))

def convert_to(dataset, name):
    """Converts a dataset to tfrecords"""

    filename_queue = tf.train.string_input_producer(dataset)

    # TF reader
    reader = tf.TextLineReader()

    # default values, in case of empty columns
    record_defaults = [[0.0] for x in range(24)]

    key, value = reader.read(filename_queue)

    duration, service, src_bytes, dest_bytes, count, same_srv_rate, \
    serror_rate, srv_serror_rate, dst_host_count, dst_host_srv_count, \
    dst_host_same_src_port_rate, dst_host_serror_rate, dst_host_srv_serror_rate, \
    flag, ids_detection, malware_detection, ashula_detection, label, src_ip_add, \
    src_port_num, dst_ip_add, dst_port_num, start_time, protocol = \
    tf.decode_csv(value, record_defaults=record_defaults)

    features = tf.stack([duration, service, src_bytes, dest_bytes, count, same_srv_rate,
                        serror_rate, srv_serror_rate, dst_host_count, dst_host_srv_count,
                        dst_host_same_src_port_rate, dst_host_serror_rate, dst_host_srv_serror_rate,
                        flag, ids_detection, malware_detection, ashula_detection, src_ip_add,
                        src_port_num, dst_ip_add, dst_port_num, start_time, protocol])

    filename = os.path.join(FLAGS.directory, name + '.tfrecords')
    print('Writing {}'.format(filename))
    writer = tf.python_io.TFRecordWriter(filename)
    with tf.Session() as sess:
        coord = tf.train.Coordinator()
        threads = tf.train.start_queue_runners(coord=coord)
        try:
            while not coord.should_stop():
                example, l = sess.run([features, label])
                print('Writing {dataset} : {example}, {label}'.format(dataset=sess.run(key),
                        example=example, label=l))
                example_to_write = tf.train.Example(features=tf.train.Features(feature={
                    'duration' : _float_feature(example[0]),
                    'service' : _int64_feature(int(example[1])),
                    'src_bytes' : _float_feature(example[2]),
                    'dest_bytes' : _float_feature(example[3]),
                    'count' : _float_feature(example[4]),
                    'same_srv_rate' : _float_feature(example[5]),
                    'serror_rate' : _float_feature(example[6]),
                    'srv_serror_rate' : _float_feature(example[7]),
                    'dst_host_count' : _float_feature(example[8]),
                    'dst_host_srv_count' : _float_feature(example[9]),
                    'dst_host_same_src_port_rate' : _float_feature(example[10]),
                    'dst_host_serror_rate' : _float_feature(example[11]),
                    'dst_host_srv_serror_rate' : _float_feature(example[12]),
                    'flag' : _int64_feature(int(example[13])),
                    'ids_detection' : _int64_feature(int(example[14])),
                    'malware_detection' : _int64_feature(int(example[15])),
                    'ashula_detection' : _int64_feature(int(example[16])),
                    'label' : _int64_feature(int(l)),
                    'src_ip_add' : _float_feature(example[17]),
                    'src_port_num' : _float_feature(example[18]),
                    'dst_ip_add' : _float_feature(example[19]),
                    'dst_port_num' : _float_feature(example[20]),
                    'start_time' : _float_feature(example[21]),
                    'protocol' : _int64_feature(int(example[22])),
                    }))
                writer.write(example_to_write.SerializeToString())
            writer.close()
        except tf.errors.OutOfRangeError:
            print('Done converting -- EOF reached.')
        finally:
            coord.request_stop()

        coord.join(threads)

def main(unused_argv):
    files = standardize_data.list_files(path=PATH)

    convert_to(dataset=files, name='train')

这已经让我想到也许它陷入了无限循环？我想要做的是读取每个 CSV 文件（258 个 CSV 文件）中的所有行，并将这些行写入 TF 记录（当然，是一个功能和一个标签）。然后，当没有更多可用行或 CSV 文件已用完时，停止循环。

The standardize_data.list_files(path)是我在不同模块中编写的函数。我只是将它重新用于此脚本。它的作用是返回在中找到的所有文件的列表PATH。请注意我的文件PATH仅包含 CSV 文件。

Set num_epochs=1 in string_input_producer。另一个注意事项：转换这些csvtfrecords 可能不会提供您在 tfrecords 中看到的任何优势，这种数据的开销非常高（具有大量的单一特征/标签）。您可能想尝试一下这部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 CSV 文件转换为 TF 记录的相关文章

如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
对打开文件的脚本进行单元测试

我编写了一个脚本它打开一个文件读取内容并进行一些操作和计算并将它们存储在集合和字典中我该如何为这样的事情编写单元测试我的问题具体是我会测试文件是否打开文件很大这是unix字典文件我如何对计算进行单元测试我真的必须手动计算
如何在“python setup.py test”中运行 py.test 和 linter

我有一个项目setup py文件我用pytest作为测试框架我还在我的代码上运行各种 linter pep8 pylint pydocstyle pyflakes ETC 我用tox在多个 Python 版本中运行它们并使用以下命令构
返回不包括指定键的字典副本

我想创建一个函数返回字典的副本不包括列表中指定的键考虑这本词典 my dict keyA 1 keyB 2 keyC 3 致电without keys my dict keyB keyC 应该返回 keyA 1 我想用一行简洁的字典理
如何用xlrd读取公式

我正在尝试做一个解析器它读取几个 Excel 文件我通常需要位于行底部的值您可以在其中找到所有上部元素的总和因此单元格值实际上是 sum 或 A5 0 5 可以说对于使用 Excel 打开此文件的用户来说它看起来像一个数字这
multiprocessing.freeze_support()

为什么多处理模块需要调用特定的function http docs python org dev library multiprocessing html multiprocessing freeze support在被冻结以生成 Wi
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
这可能是因为 cuDNN 初始化失败，因此请尝试查看上面是否打印了警告日志消息。 [操作：Conv2D]

我在 anaconda 中安装了 TensorFlow GPU 2 0 当我安装它并导入包然后运行我的 CNN 模型时它工作正常但当我尝试运行训练模型时出现错误这是我的错误报告 Epoch 1 50 UnknownError Tr
如何解码 dtype=numpy.string_ 的 numpy 数组？

我需要使用 Python 3 解码按以下方式编码的字符串 gt gt gt s numpy asarray numpy string hello nworld gt gt gt s array b hello nworld dtype S1
别碰我的女人

我讨厌的一件事迪斯图尔斯 http docs python org distutils 我猜他是邪恶的人他这样做了 https github com python cpython blob 300dd552b15825abfe0e367a
将具有不同大小的行的数据加载到 Numpy 数组中

假设我有一个包含如下数据的文本文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 如何将它加载到 numpy 数组中使其看起来像这样 1 2 3 4 5 0 6 7 8 0 0 0 9 1
如何获取 Matplotlib 生成的散点图的像素坐标？

我使用 Matplotlib 生成散点图的 PNG 文件现在对于每个散点图除了 PNG 文件之外我还会also就像生成散点图中各个点的像素坐标列表一样我用来生成散点图 PNG 文件的代码基本上是这样的 from matplotli
Matplotlib 将颜色图 tab20 更改为三种颜色

Matplotlib 有一些新的且非常方便的颜色图选项卡颜色图 https matplotlib org examples color colormaps reference html 我错过的是生成像 tab20b 或 tab20c 这
如何将reportlab与Google应用程序引擎一起使用

我无法在谷歌应用程序引擎下正确导入reportlab 根据以下guide http blog notdot net 2010 04 Generating PDFs on App Engine Python and introducing M
与函数复合 UniqueConstraint

一个快速的 SQLAlchemy 问题我有一个文档类其属性为数字和日期我需要确保没有重复的号码同年是有没有办法对数字年份日期进行UniqueConstraint 我应该使用唯一索引吗我如何声明功能部分 SQLA
DRF：以编程方式从 TextChoices 字段获取默认选择

我们的网站是 Vue 前端 DRF 后端在一个serializer validate 方法我需要以编程方式确定哪个选项TextChoices类已被指定为模型字段的默认值 TextChoices 类缩写示例 class PaymentM
LSTM 批次与时间步

我按照 TensorFlow RNN 教程创建了 LSTM 模型然而在这个过程中我对批次和时间步长之间的差异如果有的话感到困惑并且我希望得到帮助来澄清这个问题教程代码见下文本质上是根据指定数量的步骤创建批次 wi
Python“self”关键字[重复]

这个问题在这里已经有答案了我是 Python 新手通常使用 C 最近几天开始使用它在类中是否需要在对该类的数据成员和方法的任何调用前添加前缀因此如果我在该类中调用方法或从该类获取值我需要使用self method or sel
Melt() 函数复制数据集

我有一个这样的表 id name doggo floofer puppo pupper 1 rowa NaN NaN NaN NaN 2 ray NaN NaN NaN NaN 3 emma NaN NaN NaN pupper 4 sop
获取运行云功能的运行时服务帐户

有没有办法以编程方式从云功能获取运行时服务帐户的电子邮件我知道我可以猜测默认的 App Engine 帐户因为它始终是 appspot gserviceaccount com 但这不是我想要的我本来期待有一些环境变量 https

随机推荐

为什么 UINavigationBar 会窃取触摸事件？

我有一个自定义 UIButton 其中 UILabel 添加为子视图仅当我触摸顶部边界下方约 15 个点时按钮才会执行给定的选择器当我点击该区域上方时什么也没有发生我发现这并不是由错误创建按钮和标签引起的因为在我将按钮向下移动约
EditText TextChangeListener问题

我有一个用于搜索目的的编辑文本我已经添加了 searchET addTextChangedListener new TextWatcher Override public void onTextChanged CharSequence s
如何使用 bash 命令创建 CPU 峰值

我想在 Linux 机器上创建接近 100 的负载它是四核系统我希望所有核心都全速运行理想情况下 CPU 负载将持续指定的时间然后停止我希望 bash 有一些技巧我在想某种无限循环 I use stress http linux
Java Swing 中的图形绘制仅绘制点

我目前正在开发一个程序其中随着时间的推移而演变的某些数值变量在每次迭代中显示它们的值这已经足够好了但现在我想绘制一个图表来显示它们随时间的演变因此我研究了在 Swing 中绘制图表的代码示例我的最终代码如下所示 public c
处理ControlCAsInput 问题。这是一个错误吗？

刚刚遇到了下面描述的问题如果 Console TreatControlCAsInput true 则必须在 ReadLine 上按 enter 两次我在下面写了一些演示代码我对这段代码演示了 NET 4 框架中的错误的猜测是正确的吗
打开 XML SDK 2.0 以按名称访问 Excel 2010 工作表

我有一个 Excel 2010 电子表格其中有 3 个工作表分别名为 Sheet1 Sheet2 和 Sheet3 我正在尝试按名称获取对工作表的引用我正在使用代码 using SpreadsheetDocument myWorkbo
将 JSON 编码的 PHP 数组解析为 JavaScript JSON.parse() 时的 PHP 或 JavaScript 问题

我目前正在为我的工作场所制作一个 Web 应用程序它一次性从 SQL 表中下载大约 40 000 行数据将数据放入嵌套的 PHP 数组中然后尝试回显 JSON 编码的数组其中 JavaScript 变量应该捕获内容如果我尝试将数据
在repz cmpsb之后，汇编指令'seta'和'setb'做什么？

我无法理解以下装配线的作用 0x401810 repz cmps BYTE PTR ds rsi BYTE PTR es rdi 0x401812 seta dl 0x401815 setb al 我明白调试后第一条指令比较寄存器中的字节
为什么 Visual Studio 找不到我的 DLL？ [复制]

这个问题在这里已经有答案了在 Visual Studio 2010 中在VC Directories gt Executable Directories 我已经指定了路径glew32d dll 但是当我运行可执行文件时它仍然抱怨另
NodeJS Redis 客户端返回错误值

我正在使用 NodeJS Redis 客户端 Redis节点 https github com mranney node redis并调用 SISMEMBER Redis 命令但是当我调用该命令时无论该值是否是该集合的成员它总是返回
Spring Boot REST API 的指标收集

我正在尝试收集我的 Spring Boot 2 1 0 RELEASE 应用程序的指标具体来说我想知道调用各个 REST 端点的次数每个端点处理请求所花费的时间我的请求被处理出错的平均速率执行器 actuator metrics
测量缠绕的绳子

我正在尝试创建一个控件它基本上允许我在彼此下面绘制不同的字符串但是字符串的宽度不能大于控件的宽度为了解决这个问题我正在考虑将 RectangleF 对象传递给 Graphics DrawString 方法这将包装比传递的矩形宽度
array_walk_recursive 与数组？

我有一个菜单数组它是一个多维数组我想对每个项目做一些事情所以我尝试了 array walk recursive 这是菜单 menu array array name gt a url gt b array name gt c url
X 没有实现 Y（...方法有一个指针接收器）

已经有几个关于此的问答 X 没有实现 Y 方法有一个指针接收器的事情但对我来说他们似乎在谈论不同的事情并不适用于我的具体情况因此我没有将问题变得非常具体而是将其变得广泛和抽象似乎有几种不同的情况可能会导致此错误发生有人可以
从 Chrome 打包应用程序读取和写入本地 sqlite 数据库

是否可以从 chrome 打包应用程序读取和写入本地 sqlite 文件我目前已经读取并写入了一个 json 文件其中包含本地存储在硬盘上的应用程序数据但我也希望能够使用 sqlite 数据库来执行此操作我需要它在本地而不是在驱动器
从概念上讲，重玩在游戏中是如何运作的？

我有点好奇如何在游戏中实现重播最初我认为游戏中只会有一个包含每个玩家人工智能操作的命令列表然后它会重新玩游戏并让引擎照常渲染然而我查看了 FPS RTS 游戏的重播经过仔细检查甚至像粒子和图形声音故障之类的东西都是一致
如何编辑嵌入不和谐中的图像？

是否可以更改嵌入内的图像我正在尝试重新创建一个我在 Reddit 上看到的蚀刻草图机器人并且想知道它是如何完成的到目前为止这是我尝试过的这是在制作图像的函数内部 code that draws the etch a sketc
Next.js 路由器对某些页面上的浏览器后退按钮没有反应

当浏览器的后退按钮打开时我遇到了难以调查的错误https gart gallery 如果你去https gart gallery artworks 然后是任何艺术品例如https gart gallery artworks my pla
使用 jquery 创建会话？

是否可以使用 jquery 或 javascript 创建会话变量或者我是否必须使用 ajax 来调用执行此操作的 php 您需要使用服务器请求 Javascript仅在客户端运行会话数据存储在服务器上 example of passi
将 CSV 文件转换为 TF 记录

我已经运行我的脚本超过 5 个小时了我有 258 个 CSV 文件想要转换为 TF Records 我编写了以下脚本正如我所说我已经运行它超过 5 个小时了 import argparse import os import sys i

将 CSV 文件转换为 TF 记录

将 CSV 文件转换为 TF 记录 的相关文章

随机推荐

热门标签

将 CSV 文件转换为 TF 记录的相关文章