注释语料库 (Syntaxnet)

2023-12-09

我下载并安装了 SyntaxNet 以下Github 上的语法官方文档。按照文档(注释语料库)我尝试阅读.conll文件名为wj.conll通过 SyntaxNet 并将结果写入wj-tagged.conll但我不能。我的问题是:

  1. SyntaxNet 总是读取.conll文件? (不是.txt文件?)。我有点困惑,因为我知道 SyntaxNet 会读取.conll文件用于培训和测试过程,但我有点怀疑是否有必要将.txt文件至.conll文件以便进行词性和依存分析。

  2. 我怎样才能让 SyntaxNet 从文件中读取(我厌倦了 GitHub 文档中关于 SyntaxNet 的所有可能的解释,但它对我不起作用)


将这些声明行添加到文件末尾的“context.pbtxt”中。这里的“inp”和“out”是syntexnet根目录中存在的文本文件。

   input {
   name: 'inp_file'
   record_format: 'english-text'
     Part {
     file_pattern: 'inp'
     }
   }
   input {
   name: 'out_file'
   record_format: 'english-text'
     Part {
     file_pattern: 'out'
     }
   }

将句子添加到要为其完成标记的“inp”文件,并在下次使用 --input 和 --output 标记运行 syntaxnet 时在 shell 中指定它们。

为了给您提供更多帮助,我粘贴了一个示例 shell 命令。

bazel-bin/syntaxnet/parser_eval \
--input inp_file \
--output stdout-conll \
--model syntaxnet/models/parsey_mcparseface/tagger-params \
--task_context syntaxnet/models/parsey_mcparseface/context.pbtxt \
--hidden_layer_sizes 64 \
--arg_prefix brain_tagger \
--graph_builder structured \
--slim_model \
--batch_size 1024 | bazel-bin/syntaxnet/parser_eval \
--input stdout-conll  \
--output out_file \
--hidden_layer_sizes 512,512 \
--arg_prefix brain_parser \
--graph_builder structured \
--task_context syntaxnet/models/parsey_mcparseface/context.pbtxt \
--model_path syntaxnet/models/parsey_mcparseface/parser-params \
--slim_model --batch_size 1024

在上面的脚本中,第一个 shell 命令的输出(POS 标记)用作第二个 shell 命令的输入,其中两个 shell 命令用“|”分隔。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

注释语料库 (Syntaxnet) 的相关文章

随机推荐