Servlet 过滤器在 AWS 上返回“代理错误”

2024-04-24

我已经设置了一个Filter为我的 GWT Web 应用程序添加爬网程序支持。这个想法是捕获所有包含“_escaped_fragment_=”并为爬虫提供快照。

我已经设置了Filter使用 Guice 如下：

filter("/*").through(CrawlerFilter.class);

以下是代码CrawlerFilter类（非常感谢Patrick https://stackoverflow.com/users/1143684/patrick):

@Singleton
public class CrawlerFilter implements Filter {
    private static final Logger logger = Logger.getLogger(CrawlerFilter.class.getName());

    /**
     * Special URL token that gets passed from the crawler to the servlet
     * filter. This token is used in case there are already existing query
     * parameters.
     */
    private static final String ESCAPED_FRAGMENT_FORMAT1 = "_escaped_fragment_=";
    private static final int ESCAPED_FRAGMENT_LENGTH1 = ESCAPED_FRAGMENT_FORMAT1.length();
    /**
     * Special URL token that gets passed from the crawler to the servlet
     * filter. This token is used in case there are not already existing query
     * parameters.
     */
    private static final String ESCAPED_FRAGMENT_FORMAT2 = "&" + ESCAPED_FRAGMENT_FORMAT1;
    private static final int ESCAPED_FRAGMENT_LENGTH2 = ESCAPED_FRAGMENT_FORMAT2.length();

    private class SyncAllAjaxController extends NicelyResynchronizingAjaxController {
        private static final long serialVersionUID = 1L;

        @Override
        public boolean processSynchron(HtmlPage page, WebRequest request, boolean async) {
            return true;
        }
    }

    private WebClient webClient = null;

    private static final long _pumpEventLoopTimeoutMillis = 30000;
    private static final long _jsTimeoutMillis = 1000;
    private static final long _pageWaitMillis = 200;
    final int _maxLoopChecks = 2;

    public void doFilter(ServletRequest request, ServletResponse response, FilterChain filterChain) throws IOException,
            ServletException {
        // Grab the request uri and query strings.
        final HttpServletRequest httpRequest = (HttpServletRequest) request;
        final String requestURI = httpRequest.getRequestURI();
        final String queryString = httpRequest.getQueryString();
        final HttpServletResponse httpResponse = (HttpServletResponse) response;

        if ((queryString != null) && (queryString.contains(ESCAPED_FRAGMENT_FORMAT1))) {
            // This is a Googlebot crawler request, let's return a static
            // indexable html page post javascript execution, as rendered in the browser.

            final String domain = httpRequest.getServerName();
            final int port = httpRequest.getServerPort();

            // Rewrite the URL back to the original #! version
            // -- basically remove _escaped_fragment_ from the query.
            // Unescape any %XX characters as need be.
            final String urlStringWithHashFragment = requestURI + rewriteQueryString(queryString);
            final String scheme = httpRequest.getScheme();
            final URL urlWithHashFragment = new URL(scheme, "127.0.0.1", port, urlStringWithHashFragment);  // get from localhost
            final WebRequest webRequest = new WebRequest(urlWithHashFragment);

            // Use the headless browser to obtain an HTML snapshot.
            webClient = new WebClient(BrowserVersion.FIREFOX_3_6);
            webClient.getCache().clear();
            webClient.setJavaScriptEnabled(true);
            webClient.setThrowExceptionOnScriptError(false);
            webClient.setRedirectEnabled(false);
            webClient.setAjaxController(new SyncAllAjaxController());
            webClient.setCssErrorHandler(new SilentCssErrorHandler());

            if (logger.getLevel() == Level.FINEST)
                logger.log(Level.FINEST, "HtmlUnit starting webClient.getPage(webRequest) where webRequest = "
                        + webRequest.toString());
            final HtmlPage page = webClient.getPage(webRequest);

            // Important! Give the headless browser enough time to execute
            // JavaScript
            // The exact time to wait may depend on your application.

            webClient.getJavaScriptEngine().pumpEventLoop(_pumpEventLoopTimeoutMillis);

            int waitForBackgroundJavaScript = webClient.waitForBackgroundJavaScript(_jsTimeoutMillis);
            int loopCount = 0;
            while (waitForBackgroundJavaScript > 0 && loopCount < _maxLoopChecks) {
                ++loopCount;
                waitForBackgroundJavaScript = webClient.waitForBackgroundJavaScript(_jsTimeoutMillis);
                if (waitForBackgroundJavaScript == 0) {
                    if (logger.getLevel() == Level.FINEST)
                        logger.log(Level.FINEST, "HtmlUnit exits background javascript at loop counter " + loopCount);
                    break;
                }
                synchronized (page) {
                    if (logger.getLevel() == Level.FINEST)
                        logger.log(Level.FINEST, "HtmlUnit waits for background javascript at loop counter "
                                + loopCount);
                    try {
                        page.wait(_pageWaitMillis);
                    }
                    catch (InterruptedException e) {
                        logger.log(Level.SEVERE, "HtmlUnit ERROR on page.wait at loop counter " + loopCount);
                        e.printStackTrace();
                    }
                }
            }
            webClient.getAjaxController().processSynchron(page, webRequest, false);
            if (webClient.getJavaScriptEngine().isScriptRunning()) {
                logger.log(Level.WARNING, "HtmlUnit webClient.getJavaScriptEngine().shutdownJavaScriptExecutor()");
                webClient.getJavaScriptEngine().shutdownJavaScriptExecutor();
            }

            // Return the static snapshot.
            final String staticSnapshotHtml = page.asXml();
            httpResponse.setContentType("text/html;charset=UTF-8");
            final PrintWriter out = httpResponse.getWriter();
            out.println("<hr />");
            out.println("<center><h3>This is a non-interactive snapshot for crawlers. Follow <a href=\"");
            out.println(urlWithHashFragment + "\">this link</a> for the interactive application.<br></h3></center>");
            out.println("<hr />");
            out.println(staticSnapshotHtml);
            // Close web client.
            webClient.closeAllWindows();
            out.println("");
            out.flush();
            out.close();
            if (logger.getLevel() == Level.FINEST)
                logger.log(Level.FINEST, "HtmlUnit completed webClient.getPage(webRequest) where webRequest = "
                        + webRequest.toString());
        }
        else {
            if (requestURI.contains(".nocache.")) {
                // Ensure the gwt nocache bootstrapping file is never cached.
                // References:
                // https://stackoverflow.com/questions/4274053/how-to-clear-cache-in-gwt
                // http://seewah.blogspot.com/2009/02/gwt-tips-2-nocachejs-getting-cached-in.html
                //
                final Date now = new Date();
                httpResponse.setDateHeader("Date", now.getTime());
                httpResponse.setDateHeader("Expires", now.getTime() - 86400000L); // One day old.
                httpResponse.setHeader("Pragma", "no-cache");
                httpResponse.setHeader("Cache-control", "no-cache, no-store, must-revalidate");
            }

            filterChain.doFilter(request, response);
        }
    }

    /**
     * Maps from the query string that contains _escaped_fragment_ to one that
     * doesn't, but is instead followed by a hash fragment. It also unescapes
     * any characters that were escaped by the crawler. If the query string does
     * not contain _escaped_fragment_, it is not modified.
     * 
     * @param queryString
     * @return A modified query string followed by a hash fragment if
     *         applicable. The non-modified query string otherwise.
     * @throws UnsupportedEncodingException
     */
    private static String rewriteQueryString(String queryString) throws UnsupportedEncodingException {
        // Seek the escaped fragment.
        int index = queryString.indexOf(ESCAPED_FRAGMENT_FORMAT2);
        int length = ESCAPED_FRAGMENT_LENGTH2;
        if (index == -1) {
            index = queryString.indexOf(ESCAPED_FRAGMENT_FORMAT1);
            length = ESCAPED_FRAGMENT_LENGTH1;
        }
        if (index != -1) {
            // Found the escaped fragment, so build back the original decoded
            // one.
            final StringBuilder queryStringSb = new StringBuilder();
            // Add url parameters if any.
            if (index > 0) {
                queryStringSb.append("?");
                queryStringSb.append(queryString.substring(0, index));
            }
            // Add the hash fragment as a replacement for the escaped fragment.
            queryStringSb.append("#!");
            // Add the decoded token.
            final String token2Decode = queryString.substring(index + length, queryString.length());
            final String tokenDecoded = URLDecoder.decode(token2Decode, "UTF-8");
            queryStringSb.append(tokenDecoded);
            return queryStringSb.toString();
        }
        return queryString;
    }

    @Override
    public void destroy() {
        if (webClient != null)
            webClient.closeAllWindows();
    }

    @Override
    public void init(FilterConfig config) throws ServletException {
    }

}

它使用 HtmlUnit 创建快照。

然而;当我尝试使用常规浏览器访问快照时发生错误。我输入的 URL 的形式为：

http://www.myapp.com/?_escaped_fragment_=myobject%3Bid%3D507ac730e4b0e2b7a73b1b81

但处理由Filter结果出现以下错误：

Proxy Error

The proxy server received an invalid response from an upstream server.
The proxy server could not handle the request GET /.

Reason: Error reading from remote server

Apache/2.2.22 (Amazon) Server at www.myapp.com Port 80

任何帮助，将不胜感激。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

GWT

amazonwebservices

servletfilters

HtmlUnit

Servlet 过滤器在 AWS 上返回“代理错误” 的相关文章

将 CSV 文件读入 Java 作为数据库表

我发现了很多关于使用 Java 读取 CSV 的帖子并且他们所指向的 API 在读取 CSV 文件时都采用了面向行的方法就像当你得到一行时获取每一列的值我希望有一个更高级别的 API 比如在 Perl 中 DBI 允许您在 CSV
使用比较器对对象进行排序给出空指针

我正在尝试对包含 3 张卡的 ArrayList 进行排序我正在用比较器来做这件事这是否太过分了 Card getRank 返回 2 到 14 之间的整数我完全不知道哪里出了问题我之前已经成功完成了这个并与我的其他代码进行了比较
Restlet 和 MULTIPART_FORM_DATA 或通过 Restlet 将文件放在 Google App Engine 上的其他方式

我尝试通过 Restlet 接收文件但只获得完整的 MULTIPART FORM DATA 如何提取我的特定文件我找到了一些代码块但它们的类型不可用 RESTlet 如何处理多部分表单数据请求 https stackoverflow
java.lang.NoClassDefFoundError：HttpSessionListener

我正在尝试部署一场我没有编写的战争但我在日志中收到此错误 java lang NoClassDefFoundError HttpSessionListener 我知道 HttpSessionListener 位于servlet api j
使用 Gson 序列化时如何公开类名

我的场景非常复杂但总结如下我试图了解编译器的源代码并了解每个 AST 节点代表什么我正在生成不同程序的 AST 的 JSON 序列化然后检查可视化的 JSON 输出它工作得很好除了一个问题是在 Gson 中生成的 JSON 数
GSON：自定义对象反序列化

好吧我编辑了这个问题因为它不够清楚 Edit 2 更新了 JSON 文件我在 Android 应用程序中使用 GSON 我需要解析来自服务器的 JSON 文件而且有点太复杂了我不想让我的对象结构太重所以我想简化内容所以我的对象
@NotNull.List 的目的

当我查看标准时限制条件 http docs oracle com javaee 6 api javax validation constraints package summary html在 Bean Validation API JSR
可以向 @ManyToMany Hibernate 额外表添加额外字段吗？

我有这两类表 Entity Table name course public class Course Id Column name courseid private String courseId Column name coursen
PrintStream是有缓冲的，但是flush不会降低性能，而BufferedOutputStream会加速性能

我预计由于 PrintStream 是缓冲的通过在每次 print 之后添加刷新操作速度性能应该会显着降低但事实并非如此如下面的代码片段所示此外将 PrintStream 包裹在 BufferedOutputStream 周围可
为什么 MetaSpace 大小是已用 MetaSpace 的两倍？

我写了一个程序来模拟MetaSpace OOM 但我发现MetaSpace Size几乎总是两倍大Used MetaSpace Why 我用标志运行我的程序 XX MaxMetaspaceSize 50m 程序抛出OOM时Used Meta
无法启动组件 [StandardEngine[Catalina].StandardHost[localhost].StandardContext[/LabWebServletHibernate]]

当使用 eclipse neon 1 在 tomcat 8 上运行应用程序时我收到此错误它使用 spring 4 3 3 hibernate 5 2 4 和 maven 嚴重 A child container failed durin
首选项活动中的广告“没有足够的空间来显示广告！需要：<480, 75>，拥有：<432, 1073741823>”

我试图在偏好活动中展示广告但它从未出现 Logcat 始终显示消息没有足够的空间来显示广告想要有这就是我制作广告的方式我对广告有自定义偏好 public class AdmobPreference extends Prefere
Java - 同步方法导致程序大幅减慢

我正在尝试了解线程和同步我做了这个测试程序 public class Test static List
从 org.w3c.dom.Node 获取 Xpath

我可以从 org w3c dom Node 获取完整的 xpath 吗假设当前节点指向 xml 文档中间的某个位置我想提取该元素的 xpath 我正在寻找的输出 xpath 是 parent child1 chiild2 child3
org.hibernate.MappingException：没有 JDBC 类型的方言映射：1111

我使用的是 postgres v8 3 它的列类型为 XML DDL 看起来像这样 CREATE TABLE contact ID INTEGER NOT NULL NAME VARCHAR NOT NULL Details XML 在映射
在 JSON 对象中强制执行非空字段

我们的 REST API 接收一些 JSON 对象输入其中某些字段要求不为空这些可以是字符串整数甚至可以是其他一些类实例作为参考我们正在尝试找到一种方法来强制这些字段不为空而不是在 API 中进行空检查的正确方法当前的 if
将传入字符串的 unicode 表示形式转换为 UTF-8？

我正在读取一些已经转换为 html 样式代码的数据我现在需要将其转换回 UTF 8 字符以供查看不幸的是我无法使用浏览器查看该字符串我读过有关 java 中的转换的内容似乎如果你有一个 uxxxx 字符串那么编译器会为你转换然
具有维度的 Amazon Web Service CloudWatch 自定义指标

我正在尝试将数据推送到 AWS CloudWatch 上的自定义指标但想了解有关维度的更多信息以及如何使用它们我已经阅读了 AWS 文档但它并没有真正解释它们的用途以及它如何影响 AWS 管理控制台中的图形 UI 维度是进一步细分指标
如何在Webview中保存用户名和密码

目前我还在学习Android开发的过程中所以如果我的这个问题对你来说不太容易理解请原谅我创建了一个 Android 应用程序它使用 RecyclerView 显示一组列表当用户单击列表中的每个名称时它会将它们重定向到一组不同的
在 Java 服务器中验证 Windows 用户

我正在开发一个用 Java 编写的服务器和一个在同一网络上的 Windows 计算机上运行的客户端用 Net 编写的桌面应用程序我希望进行一些基本身份验证以便服务器可以确定运行客户端的用户的用户名而不需要用户在客户端中重新输入其 W

随机推荐

如何使用 Spring Security 3.0.x 处理 HTTP 403

我在 Spring Security 3 0 x 特别是目前的 3 0 2 方面遇到了一个小问题我正在开发的整个应用程序运行完美除非没有权限的人尝试登录当发生这种情况时用户会被重定向到欢迎页面因为他的用户名密码有效并且他会
从给定起始索引的一维数组中提取子数组 - Python / NumPy

NumPy 数组可以与其他数组一起索引为了显示 gt gt gt import numpy as np gt gt gt arr np array 0 0 1 0 2 0 3 0 4 0 5 0et f4 gt gt gt ids np
在 jruby 中实现自定义 java 类

我正在尝试实现 java 类的集合斯坦福 NLP 解析器 http nlp stanford edu software lex parser shtml在 jRuby 中我能够在 jRuby 中实现常规 Java 但不能实现斯坦福解析器类
oppo和小米手机无法使用后台定位服务

在我的android应用程序中位置服务作为后台服务实现我已经用不同的手机如三星 micromax Moto lenovo nexus 测试了它它在所有手机上都能正常工作但是当我在Oppo colorOS 和MI MIUI OS 我
Pandas：合并数据框但对重叠列求和

我读了很多关于merge and join 的方法pandas DataFrames 并在我自己的问题上尝试这些但没有完全找到解决方案我有一个非常大的数据文件 csv 其中包含各种 ID 每小时的消耗量我想汇总每个 ID 每月的消耗量
从数值变量创建因子

我对 R 很陌生在创建因子方面遇到了一些麻烦我应该从数字变量创建一个因子该因素应具有三个级别不满意值 0 到 4 既不值 5 满意值 6 到 10 lsat factor lt factor soep lsat levels
将字体传递给 JPanel 上的组件

我有一个扩展 JPanel 的类上面有几个按钮我希望能够通过一次调用 setFont Font font 来设置所有按钮上的字体我在 JPanel 类中定义了 setFont 方法如下所示 public class MyPanel e
类型错误：corr() 缺少 1 个必需的位置参数：“其他”

我是Python新手遇到了困难我应该计算皮尔逊相关系数但我有错误我唯一能想到的是 python 需要不同的语法 import pandas import numpy as np data pandas read csv One im
java.lang.SecurityException：类“org.apache.log4j.Logger”与同一包中其他类的信任级别不匹配

对于 java web 应用程序我在使用 JRE 1 6 0 22 时收到此错误 java lang SecurityException 类 org apache log4j Logger 与同一包中其他类的信任级别不匹配但是使用 J
如果其中一列具有相同的数据，如何通过从每个数据帧中选取几列来连接两个数据帧

有两个数据框df one and df two我想通过每个数据帧中的选择性列创建一个新的数据帧 df one e b c d 1 2 3 4 5 6 7 8 6 2 4 8 9 2 5 6 and df two e f g h 1 8 7
MVC Ajax.BeginForm 替换奇怪的行为

在部分视图中我使用 MVC Ajax Beginform 如下所示 div using Ajax BeginForm Action Controller new AjaxOptions InsertionMode System Web M
为 google-cloud-speech 、Java 桌面应用程序定义 GOOGLE_APPLICATION_CREDENTIALS

我是全新使用的谷歌云java https github com GoogleCloudPlatform google cloud java 尝试做一些Speech Recognition使用谷歌云语音 https github com Go
Sendmail/postfix 邮件无法从本地 Mac OS X (Mountain Lion) 发送

我正在尝试让 sendmail postfix 在我的 iMac 10 9 2 上正常工作我有一个 php Web 应用程序我正在尝试在本地测试它需要发送邮件即使直接测试 date mail s test email protect
WebLogic 桥消息：“Web 服务器桥失败：没有可用于连接的后端服务器...”

我有一个在 Oracle WebLogic 上运行的应用程序来自供应商的打包软件有一些操作如果我尝试它们我总是会收到以下错误页面 WebLogic 桥消息 Web 服务器桥失败没有可用于连接的后端服务器 10 秒后超时或幂等设置为
使用 AppCompatDelegate 更改深色主题后无法检测深色主题是否处于活动状态

我正在尝试实现一个选项让用户指定是否希望应用程序根据系统设置深色或浅色即设备是否设置为使用深色模式加载主题但我也提供覆盖系统设置的可能性第一次启动应用程序时我可以使用类似此中指定的内容轻松找出此设置thread https s
敏捷术语中的用户故事和功能有什么区别？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我猜想一个功能可能是信用卡授权之类的东西而用户故事可能是为贝宝授权信用卡那么用户故事是功能的子集吗是的类似子集的东西这篇文章值得一读
如何替换所有带有“.”的哈希键？

我正在使用 Ruby on Rails 4 我想替换所有哈希键以便将哈希值从 h before aaa bbb gt 1 c gt 2 to h after bbb gt 1 c gt 2 也就是说我想以某种方式解调所有具有我怎样
如何使用 PhoneGap 开发者应用程序调试 Phonegap

Phonegap 刚刚推出了一种方法可以通过使用以下命令在本地服务器上立即查看对 Phonegap 应用程序的更改 phonegap serve 然后下载 PhoneGap 开发者应用程序说明在这里 http app phonegap
Docker 卷和主机权限

当我运行 docker 镜像时例如 docker run v home n1 workspace root workspace it rust latest bash 我在容器中创建一个目录例如 mkdir root workspace
Servlet 过滤器在 AWS 上返回“代理错误”

我已经设置了一个Filter为我的 GWT Web 应用程序添加爬网程序支持这个想法是捕获所有包含 escaped fragment 并为爬虫提供快照我已经设置了Filter使用 Guice 如下 filter through Craw

Servlet 过滤器在 AWS 上返回“代理错误”

Servlet 过滤器在 AWS 上返回“代理错误” 的相关文章

随机推荐

热门标签