Perl 脚本中的大小写敏感性 - 如何使其不敏感?

2024-04-14

我如何更改以下马尔可夫脚本以将大写和小写单词视为相同?

整个想法是帮助提高马尔可夫文本生成器的输出质量。

就目前情况而言,如果您在其中插入 99 个小写句子和 1 个大写句子 - 您几乎总是会在输出中找到大写句子的非标记化版本。

# Copyright (C) 1999 Lucent Technologies
# Excerpted from 'The Practice of Programming'
# by Brian W. Kernighan and Rob Pike

# markov.pl: markov chain algorithm for 2-word prefixes

$MAXGEN = 10000;
$NONWORD = "\n";
$w1 = $w2 = $NONWORD;                    # initial state
while (<>)
{                                        # read each line of input
    foreach (split)
    {
      push(@{$statetab{$w1}{$w2}}, $_);
      ($w1, $w2) = ($w2, $_);        # multiple assignment
    }
}

push(@{$statetab{$w1}{$w2}}, $NONWORD);  # add tail
$w1 = $w2 = $NONWORD;

for ($i = 0; $i < $MAXGEN; $i++) 
{
    $suf = $statetab{$w1}{$w2};      # array reference
    $r = int(rand @$suf);            # @$suf is number of elems
    exit if (($t = $suf->[$r]) eq $NONWORD);
    print "$t\n";
    ($w1, $w2) = ($w2, $t);          # advance chain
}

Nathan Fellman 和 mobrule 都提出了一种常见的做法:正常化 http://en.wikipedia.org/wiki/Normalization.

在进行作为程序或子例程的主要目标的实际计算之前,处理数据通常更简单,使其符合内容和结构的预期规范。

马尔可夫链程序很有趣,所以我决定尝试一下。

这是一个允许您控制马尔可夫链中的层数的版本。通过改变$DEPTH您可以调整模拟的顺序。

我将代码分解为可重用的子例程。您可以通过更改规范化例程来修改规范化规则。您还可以根据一组定义的值生成一条链。

生成多层状态表的代码是最有趣的部分。我本来可以使用 Data::Diver,但我想自己解决。

单词标准化代码确实应该允许标准化器返回要处理的单词列表,而不仅仅是单个单词 - 但我不想修复它现在可以返回单词列表。 .其他事情,例如序列化处理后的语料库,以及使用 Getopt::Long 进行命令行开关等,都很好。我只做了有趣的部分。

在不使用对象的情况下编写此内容对我来说是一个挑战 - 这确实感觉像是制作马尔可夫生成器对象的好地方。我喜欢物体。但是,我决定保持代码的程序性,以便保留原始代码的精神。

玩得开心。

#!/usr/bin/perl
use strict;
use warnings;

use IO::Handle;

use constant NONWORD => "-";
my $MAXGEN = 10000;
my $DEPTH  = 2;

my %state_table;

process_corpus( \*ARGV, $DEPTH, \%state_table );
generate_markov_chain( \%state_table, $MAXGEN );


sub process_corpus {
    my $fh    = shift;
    my $depth = shift;
    my $state_table = shift || {};;

    my @history = (NONWORD) x $depth;


    while( my $raw_line = $fh->getline ) {

        my $line = normalize_line($raw_line);
        next unless defined $line;

        my @words = map normalize_word($_), split /\s+/, $line;
        for my $word ( @words ) {

            next unless defined $word; 

            add_word_to_table( $state_table, \@history, $word );
            push  @history, $word;
            shift @history;
        }

    }

    add_word_to_table( $state_table, \@history, NONWORD );

    return $state_table;
}

# This was the trickiest to write.
# $node has to be a reference to the slot so that 
# autovivified items will be retained in the $table.
sub add_word_to_table {
    my $table   = shift;
    my $history = shift;
    my $word    = shift;

    my $node = \$table;

    for( @$history ) {
        $node = \${$node}->{$_};
    }

    push @$$node, $word;

    return 1;
}

# Replace this with anything.
# Return undef to skip a word
sub normalize_word {
    my $word = shift;
    $word =~ s/[^A-Z]//g;
    return length $word ? $word : ();
}

# Replace this with anything.
# Return undef to skip a line
sub normalize_line {
    return uc shift;
}


sub generate_markov_chain {
    my $table   = shift;
    my $length  = shift;
    my $history = shift || [];

    my $node = $table;

    unless( @$history ) {

        while( 
            ref $node eq ref {}
                and
            exists $node->{NONWORD()} 
        ) {
            $node = $node->{NONWORD()};
            push @$history, NONWORD;
        }

    }

    for (my $i = 0; $i < $MAXGEN; $i++) {

        my $word = get_word( $table, $history );

        last if $word eq NONWORD;
        print "$word\n";

        push @$history, $word;
        shift @$history;
    }

    return $history;
}


sub get_word {
    my $table   = shift;
    my $history = shift;

    for my $step ( @$history ) {
        $table = $table->{$step};
    }

    my $word = $table->[ int rand @$table ];
    return $word;
}

Update:我修复了上面的代码来处理从normalize_word()常规。

要保持大小写完整并将标点符号视为单词,请替换normalize_line() and normalize_word():

sub normalize_line {
    return shift;
}

sub normalize_word {
    my $word = shift;

    # Sanitize words to only include letters and ?,.! marks 
    $word =~ s/[^A-Z?.,!]//gi;

    # Break the word into multiple words as needed.
    my @words = split /([.?,!])/, $word;

    # return all non-zero length words. 
    return grep length, @words;
}

另一个潜在的大问题是我用过-作为非字字符。如果要包含连字符作为标点符号,则需要更改第 8 行的 NONWORD 常量定义。只需选择永远不能是单词的内容即可。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Perl 脚本中的大小写敏感性 - 如何使其不敏感? 的相关文章

  • 将文本环绕在 div 两侧

    这是我试图实现的目标 与以下HTML div p some text p div Awesome content div div 有这个 text text text text text text text text text text t
  • 如何使用 JSON 和 Perl (HTML::Mason) 通过 AJAX 创建动态网页?

    我对处理 Javascript JSON 和 Peel 的方式感到有些困惑 而且大多数示例都是 PHP 语言 这对我没有帮助 我有一个页面 称为 main html 其中包含来自 MySQL 的数据 并且可以选择按 id 删除行 然后我让
  • 如何使用 Perl 从纯文本中提取 URL?

    我需要 Perl 正则表达式来解析纯文本输入并将所有链接转换为有效的 HTML HREF 链接 我已经尝试了在网上找到的 10 个不同版本 但没有一个可以正常工作 我还测试了 StackOverflow 上发布的其他解决方案 但似乎都不起作
  • jquery脉动文本

    我正在使用 jquery 来使文本脉动 一切都很好 但我无法理解某些事情 我只想脉动 x 次 然后停止 我正在使用以下代码来使类产生脉动 document ready function function pulsate pulsate an
  • 如何在 Perl 脚本中递归查找文件/文件夹?

    我有一个 perl 脚本 我编写了该脚本来递归地搜索 Windows 文件夹中的文件 我输入搜索文本作为 perl 脚本运行时参数 以查找名称中包含此文本的文件 perl脚本如下 use Cwd file1 ARGV 0 res1 glob
  • 如何在 Perl 中访问名称包含在变量中的常量?

    我有一组用 Perl 声明的常量 use constant C1 gt 111 use constant C2 gt 222 use constant C9 gt 999 my which constant C2 我如何构造一个 Perl
  • 我应该如何使用 Perl URI 类?

    我需要在 Perl 程序中处理一些 HTTP URL 但我怀疑应该如何处理URI https metacpan org module URI类帮助我 特别是 我想使用URI用于解析相对 URL 并获取其组件的类 然而 问题是 我需要一个可以
  • 不区分大小写的关键字匹配

    我正在编写一种用于解析计算机语言的语法 可以与解析 Eyapp http search cpan org casiano Parse Eyapp 1 182 lib Parse Eyapp pod 这是一个 Perl 包 可以简化常规语言解
  • Perl:通过一次 MySQL 调用更新多行

    似乎这不可能 但嘿我不妨问一下 我可能是错的 想知道 perl 是否可以使用一个 MySQL 调用来更新多行 我正在使用 DBI 任何帮助或反馈将不胜感激 这可以通过 ASP 和 ASP net 在 MSSQL 中实现 所以想知道是否也可以
  • 查找 PDF 文件中的文本位置

    我有一个 PDF 文件 我试图在 PDF 中查找特定文本并使用 Python 突出显示它 我发现pypdf https pypi org project pypdf 哪个行突出显示 PDF 的一部分 https gist github co
  • 如何在 Moose 中存储哈希值的哈希值?

    我想知道 在 Moose 中存储哈希值的最佳方式是什么 让我们以这样的哈希为例 my hash step1 gt extraction gt object1 analysis gt object2 step2 gt extraction g
  • VB6 - Lua 集成

    我想知道是否有人有任何集成 Lua 和 VB6 的技巧 我正在运行一个小型在线角色扮演游戏 添加一些脚本会很棒 嗯 这是可行的 我曾经为 Lua 5 0 2 做过 但找不到文件 在您拥有的选项中 您可以 将 Lua 封装在公开 Lua AP
  • 是否可以使用 Google BERT 来计算两个文本文档之间的相似度?

    是否可以使用 Google BERT 来计算两个文本文档之间的相似度 据我了解 BERT 的输入应该是有限大小的句子 一些作品使用 BERT 来计算句子的相似度 例如 https github com AndriyMulyar semant
  • 尝试 SSH 时设备的 ioctl 不合适

    我正在尝试通过 SSH 连接几台服务器并尝试获取sudo l每个服务器的输出 下面是我正在执行的脚本 bin bash serverlist tmp servers while IFS read r server netgroup user
  • 如何有效地计算 Perl 中覆盖给定范围的范围?

    我有一个大约 30k 范围的数据库 每个范围都作为一对起点和终点给出 12 80 34 60 34 9000 76 743 我想编写一个 Perl 子例程来表示一个范围 不是来自数据库 并返回数据库中完全 包含 给定范围的范围数 例如 如果
  • 如何在 Bash 中将字符串转换为小写

    有办法进去吗bash questions tagged bash将字符串转换为小写字符串 例如 如果我有 a Hi all 我想将其转换为 hi all 有多种方法 POSIX标准 https en m wikipedia org wiki
  • 如何突出显示最靠近鼠标的文本行?

    我有一篇很长的文本 我想为用户提供阅读帮助 当前行应该突出显示 为了更简单 我将只使用鼠标的 Y 坐标 这样 鼠标指针就不会妨碍 我有一个带有 id 的大 DIVcontent它用类填充整个宽度和一个小 DIVcontent对于文本 请参阅
  • Perl Mongo 查找对象 ID

    你会认为这是一件简单的事情 我有一个集合中的对象 ID 列表 我想根据对象 ID 获取单个记录 谷歌搜索过 但没有任何帮助 所以我有对象 ID 5106c7703abc120a04070b34 my client MongoDB Mongo
  • CSS - 将文本保留在图像下方

    我正在尝试创建一个简单的图片库 有人告诉我使用 float left 但是当我这样做时 页脚中的所有文本都会射到第一张图像 我已经搜索了大约一个小时试图找到解决方案 但我找不到任何东西 我尝试过使用边距 边框 不同的对齐方式和各种不同的小东
  • 如何使用 Perl 从 NCBI 获取 FASTA 核苷酸格式的基因特征?

    我可以手动下载 FASTA 文件 如下所示 gt lcl CR543861 1 gene 1 ATGCTTTGGACA gt lcl CR543861 1 gene 2 GTGCGACTAAAA 通过单击 发送到 并选择 基因特征 FAST

随机推荐

  • 以编程方式将文件上传到 Google 文档

    我的电子书文件夹中有很多大约 50GB 的 pdf 文件 现在我想将它们上传到 Google 文档中 例如 Linux 的 Rsync 是否可以使用 php 或 python 脚本将电子书文件夹和子文件夹中的所有 pdf 文件上传到 Goo
  • 更改<选择多个>中所选选项的颜色[重复]

    这个问题在这里已经有答案了 我遇到这个问题 我需要在单击 选择时更改一个 多个选项元素的颜色 单击时默认颜色为蓝色 我相信我们现在应该有一个解决方案 因为我尝试搜索解决方案但无济于事 希望在 CSS 或 vanilla JS 中做到这一点
  • 在 Office 加载项清单中指定 ~remoteAppUrl 的值

    我正在使用 Outlook 编写一个加载项新框架 http dev office com docs add ins overview office add ins 项目模板中的清单使用 remoteAppUrl来表示网页文件的位置 它在开发
  • 在ggplot2中手动指定刻度标签

    在 ggplot2 中 我有一个图表 其 y 轴位于 log10 x 1 上 我还没有找到直接指定 ggplot2 使用 log10 x 1 刻度的方法 所以我想直接修改 y 轴刻度标签 而不是 0 0 5 1 1 5 和 2 这些刻度将显
  • DRF:如何在保存到数据库之前更改模型字段的值

    如果我需要在保存到数据库之前更改一些字段值 因为我认为模型方法clear 适合 但尽管我竭尽全力 还是无法给他打电话 例如字段email我需要设置为小写和领域nda我需要设置为null 模型 py class Vendors models
  • jQuery colorbox:如何更改颜色框的位置

    默认情况下 颜色框在屏幕上垂直和水平居中显示 有没有办法改变它 例如从顶部垂直调整为 10 水平居中 这将覆盖顶部位置 您可以对 left 等执行相同的操作 colorbox top 100px important 从顶部开始 10 会更棘
  • Windows Azure 网站 python

    经过大量的艰苦工作 我最终得到了一个在 Windows Azure 上运行的 hello world Flask 应用程序 该应用程序是本地构建的并且运行良好 但将其部署到 Azure 是一场噩梦 所以我这里有两个问题 我似乎根本无法获得堆
  • SQL Server 中的行偏移

    SQL Server 有什么方法可以获取从给定偏移量开始的结果吗 例如 在另一种类型的 SQL 数据库中 可以执行以下操作 SELECT FROM MyTable OFFSET 50 LIMIT 25 得到结果51 75 SQL Serve
  • IVY 部分的循环依赖

    在一个项目中 我想将我的库切换到ivy部分编译模式 角度12 但现在遇到了一些令人讨厌的循环依赖错误 Error 从例子 Compiling with Angular sources in Ivy partial compilation m
  • 为什么字符串不等于存储的内容?

    这是一个简单而奇怪的问题 if tableViewNum One if drinkArray objectAtIndex 0 currentDate updatedArray addObject drinkArray NSLog MADE
  • 为什么我的 ViewController 重新打开后不显示另一个 SKScene?

    所以现在我正在编写一个游戏 但遇到了一个我没有真正找到解决方案的问题 我会尽力为你描述它 所以 为了能够更好地解释我的问题 我为你们创建了一个示意图 现在问题是 我有两个视图控制器 一个称为MenuVc 另一个称为GameVC In Gam
  • ant命令不生成apk文件

    我正在使用 Ant 构建我的应用程序 我的应用程序使用库项目 所以首先我在命令行中运行以下命令以在我的项目中生成 build xml 安卓更新 项目 target 5 p 我的项目路径 l 我的库项目路径 我的应用程序的构建目标是 4 0
  • 将常见的剃刀助手移至另一个文件

    我有一个 MVC4 Web 应用程序 目前有一些 helper是我在多个页面上使用的 在 cshtml 中定义 问题是 我必须在使用它们的每个页面上定义它们 是否有可能创建一个 cshtml包含我所有的文件 helper并将该页面包含到我的
  • 如何永久添加Python导入路径?

    我知道我可以像这样添加 Python 的导入路径 import sys sys path append path to directory 但是 当我重新启动 Python 时 这个问题就消失了 如果我必须一直这样做 我会觉得很烦人 我想一
  • 使用 Jenkins xUnit 插件显示 QTestlib 的结果

    我正在尝试将 Jenkins xUnit 插件用于我的 Qt 单元测试项目 但我无法使其工作 这是我到目前为止所做的 首先 我使用 qmakebuilder 插件构建我的单元测试项目 向 qmakebuilder 插件提供 pro 然后添加
  • 如何使用 Selenium 获取网站的图标

    我需要获取网站的图标 我怎样才能做到这一点 您将无法使用 Selenium 获取网站图标 您必须使用另一个程序来获取它 您获得它的唯一方法是您的网站将 favicon ico 呈现为链接 例如 然而 通常网站只是将 favicon ico
  • OpenDDS - 从单个 IDL 结构创建多个主题

    在我的练习中OpenDDS我想从单个 IDL 结构创建多个主题 这可能吗 否则请让我知道该怎么做 我是按照下面的方法做的 如果不对请指正 我使用的示例可在OpenDDS 3 12 examples DCPS IntroductionToOp
  • 这里 return true 或 false 有什么区别?

    form submit function alert this serialize return false return true 这个表单提交函数和return有什么区别false and true 如果你回来false从提交事件来看
  • 如何在 playbook 中使用 Ansible Tower 登录凭据?

    是否可以使用我用来直接在剧本中登录 Ansible Tower 的凭据 是的 您可以通过使用 保存您的凭据 来完成此操作安西布尔塔 Ansible Tower 上的凭证类型 从 Ansible Tower UI 中 转至 Credentia
  • Perl 脚本中的大小写敏感性 - 如何使其不敏感?

    我如何更改以下马尔可夫脚本以将大写和小写单词视为相同 整个想法是帮助提高马尔可夫文本生成器的输出质量 就目前情况而言 如果您在其中插入 99 个小写句子和 1 个大写句子 您几乎总是会在输出中找到大写句子的非标记化版本 Copyright