Perl 脚本中的大小写敏感性 - 如何使其不敏感？

2024-04-14

我如何更改以下马尔可夫脚本以将大写和小写单词视为相同？

整个想法是帮助提高马尔可夫文本生成器的输出质量。

就目前情况而言，如果您在其中插入 99 个小写句子和 1 个大写句子 - 您几乎总是会在输出中找到大写句子的非标记化版本。

# Copyright (C) 1999 Lucent Technologies
# Excerpted from 'The Practice of Programming'
# by Brian W. Kernighan and Rob Pike

# markov.pl: markov chain algorithm for 2-word prefixes

$MAXGEN = 10000;
$NONWORD = "\n";
$w1 = $w2 = $NONWORD;                    # initial state
while (<>)
{                                        # read each line of input
    foreach (split)
    {
      push(@{$statetab{$w1}{$w2}}, $_);
      ($w1, $w2) = ($w2, $_);        # multiple assignment
    }
}

push(@{$statetab{$w1}{$w2}}, $NONWORD);  # add tail
$w1 = $w2 = $NONWORD;

for ($i = 0; $i < $MAXGEN; $i++) 
{
    $suf = $statetab{$w1}{$w2};      # array reference
    $r = int(rand @$suf);            # @$suf is number of elems
    exit if (($t = $suf->[$r]) eq $NONWORD);
    print "$t\n";
    ($w1, $w2) = ($w2, $t);          # advance chain
}

Nathan Fellman 和 mobrule 都提出了一种常见的做法：正常化 http://en.wikipedia.org/wiki/Normalization.

在进行作为程序或子例程的主要目标的实际计算之前，处理数据通常更简单，使其符合内容和结构的预期规范。

马尔可夫链程序很有趣，所以我决定尝试一下。

这是一个允许您控制马尔可夫链中的层数的版本。通过改变$DEPTH您可以调整模拟的顺序。

我将代码分解为可重用的子例程。您可以通过更改规范化例程来修改规范化规则。您还可以根据一组定义的值生成一条链。

生成多层状态表的代码是最有趣的部分。我本来可以使用 Data::Diver，但我想自己解决。

单词标准化代码~~确实应该允许标准化器返回要处理的单词列表，而不仅仅是单个单词 - 但我不想修复它~~现在可以返回单词列表。 .其他事情，例如序列化处理后的语料库，以及使用 Getopt::Long 进行命令行开关等，都很好。我只做了有趣的部分。

在不使用对象的情况下编写此内容对我来说是一个挑战 - 这确实感觉像是制作马尔可夫生成器对象的好地方。我喜欢物体。但是，我决定保持代码的程序性，以便保留原始代码的精神。

玩得开心。

#!/usr/bin/perl
use strict;
use warnings;

use IO::Handle;

use constant NONWORD => "-";
my $MAXGEN = 10000;
my $DEPTH  = 2;

my %state_table;

process_corpus( \*ARGV, $DEPTH, \%state_table );
generate_markov_chain( \%state_table, $MAXGEN );


sub process_corpus {
    my $fh    = shift;
    my $depth = shift;
    my $state_table = shift || {};;

    my @history = (NONWORD) x $depth;


    while( my $raw_line = $fh->getline ) {

        my $line = normalize_line($raw_line);
        next unless defined $line;

        my @words = map normalize_word($_), split /\s+/, $line;
        for my $word ( @words ) {

            next unless defined $word; 

            add_word_to_table( $state_table, \@history, $word );
            push  @history, $word;
            shift @history;
        }

    }

    add_word_to_table( $state_table, \@history, NONWORD );

    return $state_table;
}

# This was the trickiest to write.
# $node has to be a reference to the slot so that 
# autovivified items will be retained in the $table.
sub add_word_to_table {
    my $table   = shift;
    my $history = shift;
    my $word    = shift;

    my $node = \$table;

    for( @$history ) {
        $node = \${$node}->{$_};
    }

    push @$$node, $word;

    return 1;
}

# Replace this with anything.
# Return undef to skip a word
sub normalize_word {
    my $word = shift;
    $word =~ s/[^A-Z]//g;
    return length $word ? $word : ();
}

# Replace this with anything.
# Return undef to skip a line
sub normalize_line {
    return uc shift;
}


sub generate_markov_chain {
    my $table   = shift;
    my $length  = shift;
    my $history = shift || [];

    my $node = $table;

    unless( @$history ) {

        while( 
            ref $node eq ref {}
                and
            exists $node->{NONWORD()} 
        ) {
            $node = $node->{NONWORD()};
            push @$history, NONWORD;
        }

    }

    for (my $i = 0; $i < $MAXGEN; $i++) {

        my $word = get_word( $table, $history );

        last if $word eq NONWORD;
        print "$word\n";

        push @$history, $word;
        shift @$history;
    }

    return $history;
}


sub get_word {
    my $table   = shift;
    my $history = shift;

    for my $step ( @$history ) {
        $table = $table->{$step};
    }

    my $word = $table->[ int rand @$table ];
    return $word;
}

Update:我修复了上面的代码来处理从normalize_word()常规。

要保持大小写完整并将标点符号视为单词，请替换normalize_line() and normalize_word():

sub normalize_line {
    return shift;
}

sub normalize_word {
    my $word = shift;

    # Sanitize words to only include letters and ?,.! marks 
    $word =~ s/[^A-Z?.,!]//gi;

    # Break the word into multiple words as needed.
    my @words = split /([.?,!])/, $word;

    # return all non-zero length words. 
    return grep length, @words;
}

另一个潜在的大问题是我用过-作为非字字符。如果要包含连字符作为标点符号，则需要更改第 8 行的 NONWORD 常量定义。只需选择永远不能是单词的内容即可。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

perl

Text

scripting

lowercase

capitalization

Perl 脚本中的大小写敏感性 - 如何使其不敏感？的相关文章

将文本环绕在 div 两侧

这是我试图实现的目标与以下HTML div p some text p div Awesome content div div 有这个 text text text text text text text text text text t
如何使用 JSON 和 Perl (HTML::Mason) 通过 AJAX 创建动态网页？

我对处理 Javascript JSON 和 Peel 的方式感到有些困惑而且大多数示例都是 PHP 语言这对我没有帮助我有一个页面称为 main html 其中包含来自 MySQL 的数据并且可以选择按 id 删除行然后我让
如何使用 Perl 从纯文本中提取 URL？

我需要 Perl 正则表达式来解析纯文本输入并将所有链接转换为有效的 HTML HREF 链接我已经尝试了在网上找到的 10 个不同版本但没有一个可以正常工作我还测试了 StackOverflow 上发布的其他解决方案但似乎都不起作
jquery脉动文本

我正在使用 jquery 来使文本脉动一切都很好但我无法理解某些事情我只想脉动 x 次然后停止我正在使用以下代码来使类产生脉动 document ready function function pulsate pulsate an
如何在 Perl 脚本中递归查找文件/文件夹？

我有一个 perl 脚本我编写了该脚本来递归地搜索 Windows 文件夹中的文件我输入搜索文本作为 perl 脚本运行时参数以查找名称中包含此文本的文件 perl脚本如下 use Cwd file1 ARGV 0 res1 glob
如何在 Perl 中访问名称包含在变量中的常量？

我有一组用 Perl 声明的常量 use constant C1 gt 111 use constant C2 gt 222 use constant C9 gt 999 my which constant C2 我如何构造一个 Perl
我应该如何使用 Perl URI 类？

我需要在 Perl 程序中处理一些 HTTP URL 但我怀疑应该如何处理URI https metacpan org module URI类帮助我特别是我想使用URI用于解析相对 URL 并获取其组件的类然而问题是我需要一个可以
不区分大小写的关键字匹配

我正在编写一种用于解析计算机语言的语法可以与解析 Eyapp http search cpan org casiano Parse Eyapp 1 182 lib Parse Eyapp pod 这是一个 Perl 包可以简化常规语言解
Perl：通过一次 MySQL 调用更新多行

似乎这不可能但嘿我不妨问一下我可能是错的想知道 perl 是否可以使用一个 MySQL 调用来更新多行我正在使用 DBI 任何帮助或反馈将不胜感激这可以通过 ASP 和 ASP net 在 MSSQL 中实现所以想知道是否也可以
查找 PDF 文件中的文本位置

我有一个 PDF 文件我试图在 PDF 中查找特定文本并使用 Python 突出显示它我发现pypdf https pypi org project pypdf 哪个行突出显示 PDF 的一部分 https gist github co
如何在 Moose 中存储哈希值的哈希值？

我想知道在 Moose 中存储哈希值的最佳方式是什么让我们以这样的哈希为例 my hash step1 gt extraction gt object1 analysis gt object2 step2 gt extraction g
VB6 - Lua 集成

我想知道是否有人有任何集成 Lua 和 VB6 的技巧我正在运行一个小型在线角色扮演游戏添加一些脚本会很棒嗯这是可行的我曾经为 Lua 5 0 2 做过但找不到文件在您拥有的选项中您可以将 Lua 封装在公开 Lua AP
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
尝试 SSH 时设备的 ioctl 不合适

我正在尝试通过 SSH 连接几台服务器并尝试获取sudo l每个服务器的输出下面是我正在执行的脚本 bin bash serverlist tmp servers while IFS read r server netgroup user
如何有效地计算 Perl 中覆盖给定范围的范围？

我有一个大约 30k 范围的数据库每个范围都作为一对起点和终点给出 12 80 34 60 34 9000 76 743 我想编写一个 Perl 子例程来表示一个范围不是来自数据库并返回数据库中完全包含给定范围的范围数例如如果
如何在 Bash 中将字符串转换为小写

有办法进去吗bash questions tagged bash将字符串转换为小写字符串例如如果我有 a Hi all 我想将其转换为 hi all 有多种方法 POSIX标准 https en m wikipedia org wiki
如何突出显示最靠近鼠标的文本行？

我有一篇很长的文本我想为用户提供阅读帮助当前行应该突出显示为了更简单我将只使用鼠标的 Y 坐标这样鼠标指针就不会妨碍我有一个带有 id 的大 DIVcontent它用类填充整个宽度和一个小 DIVcontent对于文本请参阅
Perl Mongo 查找对象 ID

你会认为这是一件简单的事情我有一个集合中的对象 ID 列表我想根据对象 ID 获取单个记录谷歌搜索过但没有任何帮助所以我有对象 ID 5106c7703abc120a04070b34 my client MongoDB Mongo
CSS - 将文本保留在图像下方

我正在尝试创建一个简单的图片库有人告诉我使用 float left 但是当我这样做时页脚中的所有文本都会射到第一张图像我已经搜索了大约一个小时试图找到解决方案但我找不到任何东西我尝试过使用边距边框不同的对齐方式和各种不同的小东
如何使用 Perl 从 NCBI 获取 FASTA 核苷酸格式的基因特征？

我可以手动下载 FASTA 文件如下所示 gt lcl CR543861 1 gene 1 ATGCTTTGGACA gt lcl CR543861 1 gene 2 GTGCGACTAAAA 通过单击发送到并选择基因特征 FAST

随机推荐

以编程方式将文件上传到 Google 文档

我的电子书文件夹中有很多大约 50GB 的 pdf 文件现在我想将它们上传到 Google 文档中例如 Linux 的 Rsync 是否可以使用 php 或 python 脚本将电子书文件夹和子文件夹中的所有 pdf 文件上传到 Goo
更改<选择多个>中所选选项的颜色[重复]

这个问题在这里已经有答案了我遇到这个问题我需要在单击选择时更改一个多个选项元素的颜色单击时默认颜色为蓝色我相信我们现在应该有一个解决方案因为我尝试搜索解决方案但无济于事希望在 CSS 或 vanilla JS 中做到这一点
在 Office 加载项清单中指定 ~remoteAppUrl 的值

我正在使用 Outlook 编写一个加载项新框架 http dev office com docs add ins overview office add ins 项目模板中的清单使用 remoteAppUrl来表示网页文件的位置它在开发
在ggplot2中手动指定刻度标签

在 ggplot2 中我有一个图表其 y 轴位于 log10 x 1 上我还没有找到直接指定 ggplot2 使用 log10 x 1 刻度的方法所以我想直接修改 y 轴刻度标签而不是 0 0 5 1 1 5 和 2 这些刻度将显
DRF：如何在保存到数据库之前更改模型字段的值

如果我需要在保存到数据库之前更改一些字段值因为我认为模型方法clear 适合但尽管我竭尽全力还是无法给他打电话例如字段email我需要设置为小写和领域nda我需要设置为null 模型 py class Vendors models
jQuery colorbox：如何更改颜色框的位置

默认情况下颜色框在屏幕上垂直和水平居中显示有没有办法改变它例如从顶部垂直调整为 10 水平居中这将覆盖顶部位置您可以对 left 等执行相同的操作 colorbox top 100px important 从顶部开始 10 会更棘
Windows Azure 网站 python

经过大量的艰苦工作我最终得到了一个在 Windows Azure 上运行的 hello world Flask 应用程序该应用程序是本地构建的并且运行良好但将其部署到 Azure 是一场噩梦所以我这里有两个问题我似乎根本无法获得堆
SQL Server 中的行偏移

SQL Server 有什么方法可以获取从给定偏移量开始的结果吗例如在另一种类型的 SQL 数据库中可以执行以下操作 SELECT FROM MyTable OFFSET 50 LIMIT 25 得到结果51 75 SQL Serve
IVY 部分的循环依赖

在一个项目中我想将我的库切换到ivy部分编译模式角度12 但现在遇到了一些令人讨厌的循环依赖错误 Error 从例子 Compiling with Angular sources in Ivy partial compilation m
为什么字符串不等于存储的内容？

这是一个简单而奇怪的问题 if tableViewNum One if drinkArray objectAtIndex 0 currentDate updatedArray addObject drinkArray NSLog MADE
为什么我的 ViewController 重新打开后不显示另一个 SKScene？

所以现在我正在编写一个游戏但遇到了一个我没有真正找到解决方案的问题我会尽力为你描述它所以为了能够更好地解释我的问题我为你们创建了一个示意图现在问题是我有两个视图控制器一个称为MenuVc 另一个称为GameVC In Gam
ant命令不生成apk文件

我正在使用 Ant 构建我的应用程序我的应用程序使用库项目所以首先我在命令行中运行以下命令以在我的项目中生成 build xml 安卓更新项目 target 5 p 我的项目路径 l 我的库项目路径我的应用程序的构建目标是 4 0
将常见的剃刀助手移至另一个文件

我有一个 MVC4 Web 应用程序目前有一些 helper是我在多个页面上使用的在 cshtml 中定义问题是我必须在使用它们的每个页面上定义它们是否有可能创建一个 cshtml包含我所有的文件 helper并将该页面包含到我的
如何永久添加Python导入路径？

我知道我可以像这样添加 Python 的导入路径 import sys sys path append path to directory 但是当我重新启动 Python 时这个问题就消失了如果我必须一直这样做我会觉得很烦人我想一
使用 Jenkins xUnit 插件显示 QTestlib 的结果

我正在尝试将 Jenkins xUnit 插件用于我的 Qt 单元测试项目但我无法使其工作这是我到目前为止所做的首先我使用 qmakebuilder 插件构建我的单元测试项目向 qmakebuilder 插件提供 pro 然后添加
如何使用 Selenium 获取网站的图标

我需要获取网站的图标我怎样才能做到这一点您将无法使用 Selenium 获取网站图标您必须使用另一个程序来获取它您获得它的唯一方法是您的网站将 favicon ico 呈现为链接例如然而通常网站只是将 favicon ico
OpenDDS - 从单个 IDL 结构创建多个主题

在我的练习中OpenDDS我想从单个 IDL 结构创建多个主题这可能吗否则请让我知道该怎么做我是按照下面的方法做的如果不对请指正我使用的示例可在OpenDDS 3 12 examples DCPS IntroductionToOp
这里 return true 或 false 有什么区别？

form submit function alert this serialize return false return true 这个表单提交函数和return有什么区别false and true 如果你回来false从提交事件来看
如何在 playbook 中使用 Ansible Tower 登录凭据？

是否可以使用我用来直接在剧本中登录 Ansible Tower 的凭据是的您可以通过使用保存您的凭据来完成此操作安西布尔塔 Ansible Tower 上的凭证类型从 Ansible Tower UI 中转至 Credentia
Perl 脚本中的大小写敏感性 - 如何使其不敏感？

我如何更改以下马尔可夫脚本以将大写和小写单词视为相同整个想法是帮助提高马尔可夫文本生成器的输出质量就目前情况而言如果您在其中插入 99 个小写句子和 1 个大写句子您几乎总是会在输出中找到大写句子的非标记化版本 Copyright

Perl 脚本中的大小写敏感性 - 如何使其不敏感？

Perl 脚本中的大小写敏感性 - 如何使其不敏感？ 的相关文章

随机推荐

热门标签

Perl 脚本中的大小写敏感性 - 如何使其不敏感？的相关文章