极大团java_JAVA URL协议扩展支持HDFS

2023-05-16

问题:

最近在做自然语言处理的时候,使用了谢菲尔德大学的Gate,奈何Gate只能从本地文件读取配置和语义文件,特将此改造成从HDFS读取,并且和Spark集成起来,做到实时解析

改造完成后才发现可以使用自定义URL来实现,这样改动量就会少一点,后知后觉,特做此记录

扩展的两种方式:

重写URLStreamHandler

//构造方法

public URL(URL context, String spec, URLStreamHandler handler) throws MalformedURLException

//重写URLStreamHandler

new URLStreamHandler(){

@Override

protected URLConnection openConnection(URL u) throws IOException {

return null;

}

}

//重写URLConnection, getInputStream,getOutputStream和其他方法根据可根据实际情况决定是否重写

class TestURLConnection extends URLConnection {

public TestURLConnection(URL url) {

super(url);

}

@Override

public void connect() throws IOException {

}

@Override

public InputStream getInputStream() throws IOException {

return super.getInputStream();

}

@Override

public OutputStream getOutputStream() throws IOException {

return super.getOutputStream();

}

}

重写URLStreamHandlerFactory

new URLStreamHandlerFactory(){

@Override

public URLStreamHandler createURLStreamHandler(String protocol) {

return null;

}

}

public static void setURLStreamHandlerFactory(URLStreamHandlerFactory fac) {

synchronized (streamHandlerLock) {

if (factory != null) {

throw new Error("factory already defined");

}

SecurityManager security = System.getSecurityManager();

if (security != null) {

security.checkSetFactory();

}

handlers.clear();

factory = fac;

}

}

本质还是使用了URLStreamHandler,但是要注意,setURLStreamHandlerFactory只能够调用一次,当工程很大,依赖很多的时候,可能会有框架中的代码先于业务代码,调用过此方法,所以为了避免此种情况,最好使用方法一

PS:编写HDFS的大牛早就想到了,所以直接使用org.apache.hadoop.fs.FsUrlStreamHandler 即可

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

极大团java_JAVA URL协议扩展支持HDFS 的相关文章

随机推荐