使用 boost Spirit 完全解码 http 标头值

2024-01-12

我再一次发现自己在追求振奋精神。我再一次发现自己被它打败了。

HTTP 标头value采用一般形式:

text/html; q=1.0, text/*; q=0.8, image/gif; q=0.6, image/jpeg; q=0.6, image/*; q=0.5, */*; q=0.1

i.e. value *OWS [; *OWS name *OWS [= *OWS possibly_quoted_value] *OWS [...]] *OWS [ , <another value> ...]

所以在我看来,这个标头解码为:

value[0]: 
  text/html
  params:
    name : q
    value : 1.0
value[1]:
  text/*
  params:
    name : q
    value : 0.8
...

等等。

我确信对于任何知道如何操作的人来说, boost::spirit::qi 语法都是微不足道的。

我恳请您的帮助。

例如,这里是解码的代码的概要Content-Typeheader,仅限于表单的一个值type/subtype,具有任意数量的形式参数<sp> ; <sp> token=token|quoted_string

template<class Iter>
void parse(ContentType& ct, Iter first, Iter last)
{
    ct.mutable_type()->append(to_lower(consume_token(first, last)));
    consume_lit(first, last, '/');
    ct.mutable_subtype()->append(to_lower(consume_token(first, last)));
    while (first != last) {
        skipwhite(first, last);
        if (consume_char_if(first, last, ';'))
        {
            auto p = ct.add_parameters();
            skipwhite(first, last);
            p->set_name(to_lower(consume_token(first, last)));
            skipwhite(first, last);
            if (consume_char_if(first, last, '='))
            {
                skipwhite(first, last);
                p->set_value(consume_token_or_quoted(first, last));
            }
            else {
                // no value on this parameter
            }
        }
        else if (consume_char_if(first, last, ','))
        {
            // normally we should get the next value-token here but in the case of Content-Type
            // we must barf
            throw std::runtime_error("invalid use of ; in Content-Type");
        }
    }
}

ContentType& populate(ContentType& ct, const std::string& header_value)
{
    parse(ct, header_value.begin(), header_value.end());
    return ct;
}

好吧,经过 24 小时的英勇奋斗(好吧,不是真的 - 更像是一遍又一遍地阅读手册......),我发现a有效的方式。

我绝对没有能力boost::spirit。如果有人可以改进这个答案,请发布它。

该精神状态机获取标头的值(带有一个,可选参数化值)并将其转换为content_type结构。

我对 HTTP 标准的业余阅读表明,某些标头具有以下形式(此处的空格表示任意数量的空白,值可以被引用或不被引用:

Header-Name: tokena/tokenb [; param1 = "value" [; param2 = value]...]

而其他的则具有更一般的形式:

Header-Name: token [; param1 = "value"[; param2 = value]...] [ , token ...]

此代码涵盖第一种情况 - 即 HTTPContent-Type标头值。我需要扩展它以满足Accept标头(可以使用参数通告多个值)-稍后会提供。

这是代码。请务必告诉我如何改进它!

#define BOOST_SPIRIT_DEBUG
#include <gtest/gtest.h>
#include <boost/spirit/include/qi.hpp>
#include <boost/config/warning_disable.hpp>
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/qi_char.hpp>
#include <boost/spirit/include/phoenix_core.hpp>
#include <boost/spirit/include/phoenix_operator.hpp>
#include <boost/spirit/include/phoenix_fusion.hpp>
#include <boost/spirit/include/phoenix_stl.hpp>
#include <boost/fusion/include/adapt_struct.hpp>
#include <boost/fusion/include/std_pair.hpp>
#include <utility>
#include <vector>
#include <string>
#include <boost/variant.hpp>

namespace qi = boost::spirit::qi;
namespace ascii = boost::spirit::ascii;

using unary_parameter = std::string;

struct binary_parameter
{
    std::string name;
    std::string value;
};
BOOST_FUSION_ADAPT_STRUCT(binary_parameter,
                          (std::string, name)
                          (std::string, value))

using parameter = boost::variant<unary_parameter, binary_parameter>;

struct type_subtype
{
    std::string type;
    std::string subtype;
};
BOOST_FUSION_ADAPT_STRUCT(type_subtype,
                          (std::string, type)
                          (std::string, subtype))

using content_type_pair = std::pair<std::string, std::string>;

struct content_type
{
    type_subtype type;
    std::vector<parameter> params;
};

BOOST_FUSION_ADAPT_STRUCT(content_type,
                          (type_subtype, type)
                          (std::vector<parameter>, params))

template<class Iterator>
struct token_grammar : qi::grammar<Iterator, content_type()>
{

    token_grammar() : token_grammar::base_type(content_type_rule)
    {
        using ascii::char_;
        using qi::omit;
        using qi::eoi;

        CR = char_('\r');
        LF = char_('\n');
        CRLF = CR >> LF;
        SP = char_(' ');
        HT = char_('\t');
        LWS = -CRLF >> +(SP | HT);

        UPALPHA = char_('A', 'Z');
        LOALPHA = char_('a', 'z');
        ALPHA = UPALPHA | LOALPHA;
        DIGIT = char_('0', '9');
        CTL = char_(0, 31) | char_(127);
        QUOT = char_('"');
        TEXT = (char_ - CTL) | HT;

        separator = char_('(') | ')' | '<' | '>' | '@'
        | ',' | ';' | ':' | '\\' | '"'
        | '/' | '[' | ']' | '?' | '='
        | '{' | '}' | SP | HT;

        end_sequence = separator | space;
        token = +(char_ - separator);

        qdtext = char_ - char_('"') - '\\';
        quoted_pair = omit[char_('\\')] >> char_;
        quoted_string = omit[char_('"')] >> *(qdtext | quoted_pair) >> omit[char_('"')];
        value = quoted_string | token ;

        type_subtype_rule = token >> '/' >> token;
        name_only = token;
        nvp = token >> omit[*SP] >> omit['='] >> omit[*SP] >> value;
        any_parameter = omit[*SP] >> omit[char_(';')] >> omit[*SP] >> (nvp | name_only);
        content_type_rule = type_subtype_rule >> *any_parameter;

        BOOST_SPIRIT_DEBUG_NODES((qdtext)(quoted_pair)(quoted_string)(value)(token)(separator));
    }

    qi::rule<Iterator, void()> CR, LF, CRLF, SP, HT, LWS, CTL, QUOT;
    qi::rule<Iterator, char()> UPALPHA, LOALPHA, ALPHA, DIGIT, TEXT, qdtext, quoted_pair;
    qi::rule<Iterator, void()> separator, space, end_sequence;
    qi::rule<Iterator, std::string()> quoted_string, token, value;
    qi::rule<Iterator, type_subtype()> type_subtype_rule;
    qi::rule<Iterator, unary_parameter()> name_only;
    qi::rule<Iterator, binary_parameter()> nvp;
    qi::rule<Iterator, parameter()> any_parameter;
    qi::rule<Iterator, content_type()> content_type_rule;

};

TEST(spirit_test, test1)
{
    token_grammar<std::string::const_iterator> grammar{};

    std::string test = R"__test(application/json )__test";
    content_type ct;
    bool r = qi::parse(test.cbegin(), test.cend(), grammar, ct);
    EXPECT_EQ("application", ct.type.type);
    EXPECT_EQ("json", ct.type.subtype);
    EXPECT_EQ(0, ct.params.size());

    ct = {};
    test = R"__test(text/html ; charset = "ISO-8859-5")__test";
    qi::parse(test.cbegin(), test.cend(), grammar, ct);
    EXPECT_EQ("text", ct.type.type);
    EXPECT_EQ("html", ct.type.subtype);
    ASSERT_EQ(1, ct.params.size());
    ASSERT_EQ(typeid(binary_parameter), ct.params[0].type());
    auto& x = boost::get<binary_parameter>(ct.params[0]);
    EXPECT_EQ("charset", x.name);
    EXPECT_EQ("ISO-8859-5", x.value);

}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 boost Spirit 完全解码 http 标头值 的相关文章

随机推荐

  • Java swing:选择/取消选择 JButton 以模仿脉冲

    FE我有一个电子邮件客户端 它接收新消息 带有传入消息的按钮开始执行某些操作 直到用户单击它以查看发生了什么 我试图通过选择 等待然后取消选择按钮来吸引注意力 但这没有任何作用 do button setSelected true Thre
  • 乳胶输出

    当我编译乳胶文件时 它还会生成 txt bbl aux 文件 它们没有用 因为我可以删除它们而不会造成任何损害 我的问题是这些文件的用途是什么以及如何在编译 tex 文件时选择不生成它们 这些文件很有用 代表多遍排版过程的输出 如果删除它们
  • Python numpy 数组元素不改变值

    所以我的 python 代码中遇到了一个问题 我将其归结为 假设我们有一个函数u def u y t h float 10 U0 float 1 return U0 h y 和一个数组 a np array 0 2 2 然后执行以下操作 a
  • 使用 Laravel Mix 时如何包含 webpack 插件?

    如果我使用 WebPack 和 Laravel Mix 我应该如何包含 webpack 插件 我很困惑将插件代码添加到哪个文件中 我的以下尝试似乎没有运行我的插件 该插件应该压缩 js css 文件 但事实并非如此 webpack conf
  • 使用 Sympy 集成到 Python 中

    我目前正在使用Sympy帮助我进行数学计算 现在 我正在尝试执行数值积分 但每次运行脚本时都会出现错误 这是脚本 from sympy import cst qe 1 60217646 10 19 m0 N 1 25663706 10 6
  • 无论如何,我可以在谷歌合作实验室下载该文件吗?

    我正在这个 Codelab 的 Google Colaboratory 中尝试张量流 我需要下载 http download tensorflow org example images flower photos tgz http down
  • PHP 复选框多重删除

    我的实现似乎不起作用 您能指出可能出现的问题或指出更好的解决方案吗 当我选中复选框并单击删除按钮时 它似乎没有执行任何操作 请帮助我 div class page img class page src images DISCLAIMER p
  • 获取当月数据记录条数

    我正在尝试查找数据库中当月结束的车辆记录总数 我不知道我应该在里面写什么InvoiceDate本例中的部分 public void MonthlyStatus NetContext context var monthlyStatus fro
  • Zend Framework,将 URL 的扩展名映射到格式参数?

    是否可以将 URL 的扩展名映射到 ZF 中的格式参数 我希望默认路由仍然有效 包括从 URI 映射参数 因此您可以说 http example com controller action param1 value1 param2 valu
  • 何时返回 IOrderedEnumerable?

    Should IOrderedEnumerable纯粹用作语义值的返回类型 例如 当在表示层中消费模型时 我们如何知道集合是否需要排序或已经排序 如果存储库用一个存储过程包装了一个存储过程 该怎么办 ORDER BY条款 存储库是否应该返回
  • 不存在类型变量 U 的实例,因此 void 符合 U

    我正在努力避免isPresent检查下面的代码 但编译器发出错误消息 没有类型变量的实例U存在使得void符合U 打电话给printAndThrowException 这是我的代码 values stream filter value gt
  • 您在 ASP.NET MVC 中使用什么视图引擎? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我知道您可以在 ASP NET MVC 中使用几种不同的视图引擎 ASPX 显然 NV速度 Brail NHaml et al 默认的 ASPX
  • 更改“查看购物车”按钮的文本

    我正在使用 woocommerce 插件 但我遇到了如何更改查看购物车按钮文本的问题 希望有人可以帮助解决我的问题 这是my site http unlieusurterre fix it buddy clients com the tru
  • 无服务器 python 请求具有长时间超时?

    我有几个遵循类似格式的 python 脚本 您传入一个日期 它要么 检查我的 S3 存储桶中文件名中包含该日期的文件 并解析它 或者 运行一个 python 脚本 对文件进行一些分析该日期的文件 运行时间超过 1 小时 我正在寻找一种无服务
  • PHP MySQL 数据库连接

    执行查询 和其他数据库操作 后是否有必要显式关闭数据库连接 不 php 自动执行此操作 不过 您可以将其称为 良好的编程实践 来清理 也称为关闭连接
  • Apache Spark + Parquet 不遵守使用“分区”暂存 S3A 提交器的配置

    我正在使用本地计算机上的 Apache Spark 3 0 将分区数据 Parquet 文件 写入 AWS S3 而无需在计算机中安装 Hadoop 当我有很多文件要写入大约 50 个分区 partitionBy date 时 我在写入 S
  • 如果并行处理,为什么在无限的数字流中按素数过滤会花费很长时间?

    我正在创建一个从 2 亿开始的无限整数流 使用朴素的素性测试实现来过滤该流以生成负载并将结果限制为 10 Predicate
  • 将 HTML 转换为 DOM 以在 Node 中进行操作

    如果我从页面中抓取一些原始 HTML 或者以其他方式制作 HTML 字符串 我可以将其转换为 DOM NodeList 对象吗 那么我可以操作该 NodeList 中的对象并将其再次保存为字符串吗 像这样的东西 request url fu
  • 如何查看kubernetes中pod和veth的关系

    有没有办法看看kubernetes v1 15 2 pod和veth的关系 现在我可以看到主机中的 veth 但不知道哪个 pod 拥有 vethe4297f4 flags 4163
  • 使用 boost Spirit 完全解码 http 标头值

    我再一次发现自己在追求振奋精神 我再一次发现自己被它打败了 HTTP 标头value采用一般形式 text html q 1 0 text q 0 8 image gif q 0 6 image jpeg q 0 6 image q 0 5