问题:
最近在做自然语言处理的时候,使用了谢菲尔德大学的Gate,奈何Gate只能从本地文件读取配置和语义文件,特将此改造成从HDFS读取,并且和Spark集成起来,做到实时解析
改造完成后才发现可以使用自定义URL来实现,这样改动量就会少一点,后知后觉,特做此记录
扩展的两种方式:
重写URLStreamHandler
//构造方法
public URL(URL context, String spec, URLStreamHandler handler) throws MalformedURLException
//重写URLStreamHandler
new URLStreamHandler(){
@Override
protected URLConnection openConnection(URL u) throws IOException {
return null;
}
}
//重写URLConnection, getInputStream,getOutputStream和其他方法根据可根据实际情况决定是否重写
class TestURLConnection extends URLConnection {
public TestURLConnection(URL url) {
super(url);
}
@Override
public void connect() throws IOException {
}
@Override
public InputStream getInputStream() throws IOException {
return super.getInputStream();
}
@Override
public OutputStream getOutputStream() throws IOException {
return super.getOutputStream();
}
}
重写URLStreamHandlerFactory
new URLStreamHandlerFactory(){
@Override
public URLStreamHandler createURLStreamHandler(String protocol) {
return null;
}
}
public static void setURLStreamHandlerFactory(URLStreamHandlerFactory fac) {
synchronized (streamHandlerLock) {
if (factory != null) {
throw new Error("factory already defined");
}
SecurityManager security = System.getSecurityManager();
if (security != null) {
security.checkSetFactory();
}
handlers.clear();
factory = fac;
}
}
本质还是使用了URLStreamHandler,但是要注意,setURLStreamHandlerFactory只能够调用一次,当工程很大,依赖很多的时候,可能会有框架中的代码先于业务代码,调用过此方法,所以为了避免此种情况,最好使用方法一
PS:编写HDFS的大牛早就想到了,所以直接使用org.apache.hadoop.fs.FsUrlStreamHandler 即可