Bert Estimator input_fn 函数调用逻辑

2023-11-16

Bert Estimator input_fn 函数调用逻辑

网上有很多讲 Bert 源码的，本身代码难度不大，主要两个重点，一个是数据集的处理，以满足 masked LM 和 next sentence predict 两个任务的需求，这一部分主要围绕 create_pretaining_data.py 看就行，另一部分就是预训练，主要围绕 run_pretraining.py 和 modeling.py 看就行，主要是 Transformer 模型 Encoder 部分的堆砌，至于 fine-tune 也类似这两个重点过程。

像 TensorFlow 这种库，“友好”到 Estimator 这种高级库可以大大简化我们的工作，找个 demo 做填空题基本就能搞定，“不友好”到封装的我们都不知道它是怎么运行的，例如，很多人一开始看代码都不清楚 input_fn 或者 model_fn 是怎么被调用执行的，params 参数下的 batch_size 又是在哪里被鼓捣进去的，我们下面以 input_fn 为例简单唠叨唠叨：

estimator.train(input_fn=train_input_fn, …) 这是第一步，就是调用，此时其实 input_fn 就是 input_fn_builder 函数的 return input_fn，此时实际并没有进入到这个子函数内部，所以重点就是看 train 函数了。实际上又扔给了 TPUEstimator 的父类，也就是 Estimator 的 train方法了。

  return super(TPUEstimator, self).train(
            input_fn=input_fn,
            hooks=hooks,
            steps=steps,
            max_steps=max_steps,
            saving_listeners=saving_listeners)

看一下这个 train，_train_model，进去

saving_listeners = _check_listeners_type(saving_listeners)
loss = self._train_model(input_fn, hooks, saving_listeners)
logging.info('Loss for final step: %s.', loss)
return self

def _train_model(self, input_fn, hooks, saving_listeners):
  if self._train_distribution:
    return self._train_model_distributed(input_fn, hooks, saving_listeners)
  else:
    return self._train_model_default(input_fn, hooks, saving_listeners)
# 这里走下面这个默认的就好了，都一样其实

features, labels, input_hooks = (
          self._get_features_and_labels_from_input_fn(
              input_fn, ModeKeys.TRAIN))

在这个地方开始获取数据特征与标签了，也就是要实际进入到 input_fn 内部了

进去看看

def _get_features_and_labels_from_input_fn(self, input_fn, mode):
  """Extracts the `features` and labels from return values of `input_fn`."""
  return estimator_util.parse_input_fn_result(
    self._call_input_fn(input_fn, mode))

# 开始 call 调用了，这里的 mode 是 train 或者 eval 等

# _call_input_fn 的第一句是这个
input_fn_args = function_utils.fn_args(input_fn)

def fn_args(fn):
  """Get argument names for function-like object.

  Args:
    fn: Function, or function-like object (e.g., result of `functools.partial`).

  Returns:
    `tuple` of string argument names.

  Raises:
    ValueError: if partial function has positionally bound arguments
  """
  if isinstance(fn, functools.partial):   # 不符合
    args = fn_args(fn.func)
    args = [a for a in args[len(fn.args):] if a not in (fn.keywords or [])]
  else:
    if _is_callable_object(fn):    # 不符合
      fn = fn.__call__
    args = tf_inspect.getfullargspec(fn).args   # ----> 吊炸天的一个函数
    if _is_bounded_method(fn):
      args.pop(0)  # remove `self` or `cls`
  return tuple(args)

fn_args 就是获取函数或者 function-like 对象的参数的，getfullargspec 方法好像很吊，可以直接获取函数在哪个文件的哪一行，有哪些参数，你的函数内部有哪些变量，很吊的样子，这个是 Python 内部提供的，不过 tf 自己也封装了一下，这个不必纠结，总之 args 就是 input_fn 的参数，即 params

回到 _call_fn_input 中，现在 params 参数是存在的，

继续该函数

    with self._ctx.with_mode(mode) as ctx:
      # Setting the batch size in params first. This helps user to have same
      # input_fn for use_tpu=True/False.
      batch_size_for_input_fn = ctx.batch_size_for_input_fn    # 进去
      if batch_size_for_input_fn is not None:
        _add_item_to_params(kwargs['params'], _BATCH_SIZE_KEY,
                            batch_size_for_input_fn)

看一下 ctx.batch_size_for_input_fn

  def batch_size_for_input_fn(self):
    """Returns the shard batch size for `input_fn`."""
    global_batch_size = self.global_batch_size    # 在这里
    if (self.is_running_on_cpu() or self.is_input_broadcast_with_iterators()
        and not self.is_input_slice_broadcast_to_all_cores()):
      return global_batch_size

global_batch_size 是什么鬼？进去看看

  @property
  def global_batch_size(self):
    mode = self._assert_mode()
    if mode == model_fn_lib.ModeKeys.TRAIN:
      return self._train_batch_size         # 这个实际就是我们传的train_batch_size
    elif mode == model_fn_lib.ModeKeys.EVAL:
      return self._eval_batch_size
    elif mode == model_fn_lib.ModeKeys.PREDICT:
      return self._predict_batch_size
    else:
      return None

回到上面倒数第三张图中

    with self._ctx.with_mode(mode) as ctx:
      # Setting the batch size in params first. This helps user to have same
      # input_fn for use_tpu=True/False.
      batch_size_for_input_fn = ctx.batch_size_for_input_fn    # 进去
      if batch_size_for_input_fn is not None:
        _add_item_to_params(kwargs['params'], _BATCH_SIZE_KEY,
                            batch_size_for_input_fn)
      # For export_saved_model, input_fn is never passed to Estimator. So,
      # `is_export_mode` must be False.
      if ctx.is_running_on_cpu(is_export_mode=False):
        with ops.device('/device:CPU:0'):
          return input_fn(**kwargs)         # ----> 真正带着 params = {"batch_size": 32}

_add_item_to_params 就是把 params 内加一个 batch_size 参数，_BATCH_SIZE_KEY 是定义的一个字符串_BATCH_SIZE_KEY = 'batch_size'

def _add_item_to_params(params, key, value):
  """Adds a new item into `params`."""
  if hasattr(params, 'set_hparam'):
    # For HParams, we need to use special API.
    if key in params:
      params.set_hparam(key, value)
    else:
      params.add_hparam(key, value)
  else:
    # Now params is Python dict.
    params[key] = value            #  ----> 就是这句话

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Bug 修复记录

Bert Estimator input_fn 函数调用逻辑的相关文章

《区块链技术与应用》学习笔记3——BTC共识协议

1 数字货币中经常出现的问题双花攻击 1 数字货币本身为带有签名的数据文件可以进行复制对于用户来说就可以花两次 2 解决对货币添加唯一编号每次支付向货币发行单位查询真伪 3 问题货币发行单位是一个第三方机构并且这是一个典型的第
el-table page翻页后保留所勾选项。

项目场景 el table 翻页后保留所勾选项问题描述例如刚开始还在使用原始的方式进行翻页回显因为翻页之后点选时selection会出现undefined 所以这里需要进行判断这里可以通过判断选择selection中有没有row
Ubuntu 16.04下编译Caffe-CPU版最可靠完整的版本！！！！（踩了所有的坑，试了几乎所有方法）

Ubuntu 16 04下编译Caffe CPU版最可靠完整的版本踩了所有的坑试了几乎所有方法 Introduction 我踩的坑各种软件包的版本 GCC版本的确定与调整一相关依赖包的安装二 caffe的下载三 protobu
文盘Rust -- FFI 浅尝

rust FFI 是rust与其他语言互调的桥梁通过FFI rust 可以有效继承 C 语言的历史资产本期通过几个例子来聊聊rust与C 语言交互的具体步骤场景一调用C代码创建工程 cargo new bin ffi sample
【DFS和BFS习题集+分类总结】（更新至2023.1.1）（17788字）

目录第一题八皇后 dfs 路径输出前驱版第一题的补充练习 N皇后 dfs 打表第二题自然数的拆分第三题图的遍历 BFS和DFS 第四题 fire net dfs 第五题 nightmare 可以走回头路的DFS 第六题滑雪
【漏洞修复】Diffie-Hellman Key Agreement Protocol 资源管理错误漏洞（CVE-2002-20001）

CANCANJUN Diffie Hellman Key Agreement Protocol 资源管理错误漏洞 CVE 2002 20001 概述漏洞名称 Diffie Hellman Key Agreement Protocol 资源
springMVC、freemarker页面半自动静态化

1 请求 do的URL时直接生成对应的 htm文件并将请求转发到该htm文件 2 自由控制某个页面是否需要静态化如果看图不懂的呢说白了这个中技术就是 java对象 ftl模型输出html视图 1 在sprinMVC中 MVC框架中的
【数据分析师自学系列-MySQL】创建新表create table、create table as、create table like的区别

数据分析师自学系列 MySQL 创建新表create table create table as create table like的区别 1 create table 基本创建新表方式格式如下 create table 新表名列名1
java反射机制创建对象实现：java 深度拷贝 -超完美

java反射机制创建对象实现 java 深度拷贝超完美自己做的下面 package aop public class Student private String name private int age public String
乘法逆元之欧几里得和扩展欧几里得

乘法逆元文章目录乘法逆元一模运算的性质二除法的模运算 1 除法模运算 2 解决除法模运算问题三乘法逆元 1 定义 2 逆元是干什么的呢四求解逆元 1 费马小定理 2 扩展欧几里得 exgcd 1 裴蜀定理 2 exgcd
C语言问题：0xC0000005: 写入位置 0xFFFFFFCC 时发生访问冲突。

最近系统地开始学习C语言在使用VS2019中用scanf s为一串字符串赋值时发生了错误错误如下 0x7837EF8C ucrtbased dll 处位于 Project2 exe 中引发的异常 0xC0000005 写入位置 0
typora+阿里云OSS+PicGO进行图床设置

typora 阿里云OSS PicGO进行图床设置文章目录 typora 阿里云OSS PicGO进行图床设置前言 crystal ball 一阿里云OSS设置 satellite 1 进入阿里云OSS官网 https www al
解决刷新tagsview首页消失问题和引入path报错问题

我的tagsview功能是用nuoyi源码如果你的代码有tagsview功能直接找这个文件如果没有这个功能可以参考nuoyi源码重点参考以下文件或者参考通俗易懂 vue实现tagsview标签导航栏切换菜单功能详细注释都能看的
原型聚类&&密度聚类&&层次聚类

1 原型聚类原型聚类算法假设聚类结构可以通过一组原型刻画通常算法先会对原型进行初始化然后对原型进行迭代更新求解不同的原型表示和不同的求解方式会产生不同的算法下面主要介绍三种典型的原型聚类算法 k 均值学习向量量化和高斯混合聚
mybatis和spring的集成方法

集成mybatis和spring 需要的步骤 1 新建maven项目 2 加入maven依赖在pom xml加依赖 1 加入spring依赖
vscode 无法远程调试 xdebug

launch json version 0 2 0 configurations name Listen for XDebug type php request launch port 9001 该端口不要和php fpm端口相同 path
Redis Streams做股票行情MQ？

redis作为内存数据库大多时候都是作为缓存来使用但是因为有pub sub的存在所以也可以做MQ来使用做为MQ 它有两个严重的问题 1 无法持久化 2 没有ack机制 redis pub sub是一个要即时消费的MQ 如果消费晚了
序列式容器

容器的概观与分类常用的数据结构不外乎array 数组 list 链表 tree 树 stack 堆栈 queue 队列 hash table 散列表 set 集合 map 映射等等根据数据再容器中的排列特性这些数据结构分为序列式

随机推荐

华为云云耀云服务器L实例评测

大家好我是雄雄欢迎关注微信公众号雄雄的小课堂目录前言效果图购买云耀云服务器L实例重置密码放开端口远程连接安装云监控面板进入监控面板前言有幸参与了华为云云耀云服务器L实例的评测名额借着评测顺便教给大家一项技能
多视图聚类(multi-view clustering)简介

多视图聚类目前大概有以下几种多视图k means聚类多视图谱聚类多视图图聚类多视图子空间聚类 multi view subspace clustering 深度学习多视图聚类 deep multi view clustering
Vector迭代器实现

实现数组的迭代器实现内容 1 使用C 语言实现一个长度可扩充的数组结构要求使用class实现不能直接使用vector等现成的数据结构 2 要求实现为可以用于不同数据类型的数组结构并不是说同一个对象需要存储多种类型的数据建议使用te
【满分】【华为OD机试真题2023 JAVA&JS】租车骑绿道

华为OD机试真题 2023年度机试题库全覆盖刷题指南点这里租车骑绿道时间限制 1s 空间限制 256MB 限定语言不限题目描述部门组织绿道骑行团建活动租用公共双人自行车骑行每辆自行车最多坐两人做大载重M 给出部门每个人的体
毕业设计单片机与OpenMV机器视觉目标跟踪系统

文章目录 0 前言课题简介设计框架 3 openMV实现舵机定位色块STM32 3 硬件设计 4 软件设计 4 1 硬件连接 4 2 软件代码 OpenMV端 4 3 软件代码 STM32端 4 4 利用PC端测试数据数据是否发送接收正
《银行法律法规》一、经济金融基础知识——3、金融市场

第三章金融市场第一节金融市场概述考点1 金融市场功能概念金融市场是指货币资金融通和金融工具交易的场所金融市场的融资行为既包括以银行等金融机构为信用媒介的间接融资行为也包括各类交易主体之间的直接融资行为主体是各类融资活动的
运维企业实战Shell脚本合集+万能工具箱

文章目录系统维护篇服务器日常巡检脚本下线登录用户企业级Linux日常自动抓取服务器巡检登录执行命令记录备份脚本终端对话广播消息批量查询IP归属地手机号归属地信息 Linux开机后自动执行命令或脚本一键自动格式化输出S
Anaconda中安装指定版本的tensorflow1.14.0/tensorflow-gpu1.14.0

在运行github中一个项目时由于其使用的tensorflow的版本是1 14 0 而我的版本是2 6 0的版本因为版本过高导致运行失败所以需要安装tensorflow1 14 0 首先在anaconda的命令行中输入如下命令 pip
【Qt】【CMake】【CMakeLists.txt】-PROJECT_NAME 和 CMAKE_PROJECT_NAME 的区别

Qt CMake CMakeLists txt PROJECT NAME 和 CMAKE PROJECT NAME 的区别原帖 https stackoverflow com questions 38938315 difference b
2000+Docker镜像，Kolla是如何管理的

根据 DockerHub 上的数据整个 Kolla 项目管理的镜像有 2000 多个这么多的镜像是怎么定义又是如何构建的呢简介我们一直在说的 Kolla 通常情况下泛指包括了 Kolla 和 Kolla Ansible 两个
二进制部署K8s

一环境需求节点IP 节点名称所需组件 192 168 248 11 k8s master docker etcd apiserver controller manager scheduler kube proxy flannel 19
cobra库:基于cobra-cli命令行生成项目结构

cobra库基于cobra cli命令行生成项目结构一新建go项目在F盘创建文件夹cobra started 1 使用mod对go项目进行管理 go mod init cobra started 二使用cobra cli代码生成
手写嵌入式操作系统（基于stm8单片机）

include
maven学习总结

众所周知 maven的两大作用是项目构建和依赖管理除此之外基于多模块项目 maven常用的功能还有模块化管理项目构建 Maven是一个构建工具可以根据项目中的配置文件 pom xml 来自动执行项目的构建过程它可以将源代码编译运
win10 win7局域网、AD域内共享文件夹方法

第一确保访问电脑和被访问电脑同在域中可右击此电脑属性域查看第二确保防火墙关闭如图均已关闭第三选择要共享的文件夹右击属性共享高级共享全新 Everyone或指定个人第四分享地址即本机IP地址 win r输
惠普 g5 服务器 centos安装系统,hp 380G5 安装centos 7

最近给服务器升级操作系统发现hp的老机器安装centos 7时不能识别硬盘原因 hp的服务器G5 使用的是CCISS driver 新的机器使用的是HPSA driver RHEL7 已经移除了 cciss 的支持处理安装时候修改
常数据成员、常成员函数

定义常数据成员类型 const 对象名或者 const 类型对象名例如 const clock c1 9 9 9 或者 clock const c2 10 10 10 常对象的几条特殊规则 1 常对象不能被赋值 2 常对象不能访
【Pytorch Lighting】第 7 章：半监督学习

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
2、halcon+利用光流场检测运动的物体

这个事例是应用optical flow mg这个算子来在一个图像序列中计算其光溜并且分割其运动物体 dev update off 把程序窗口变量窗口显示窗体变为off状态 dev close window 关闭显示窗口 read im
Bert Estimator input_fn 函数调用逻辑

目录 Bert Estimator input fn 函数调用逻辑 Bert Estimator input fn 函数调用逻辑网上有很多讲 Bert 源码的本身代码难度不大主要两个重点一个是数据集的处理以满足 masked LM

Bert Estimator input_fn 函数调用逻辑

目录

Bert Estimator input_fn 函数调用逻辑

Bert Estimator input_fn 函数调用逻辑 的相关文章

随机推荐

热门标签

Bert Estimator input_fn 函数调用逻辑的相关文章