自定义hive url parse函数

简介:

在用hive做nginx日志url 分析的时候,经常需要parse url。
hive中自带的函数parse_url可以实现这个功能,不过它对格式的要求比较严格,不能直接用于nginx log的request字段。

1
2
hive -e  "select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST') from dual"
facebook.com


1
2
hive -e  "select parse_url('facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST') from dual"
NULL

也可以通过regexp_extract来实现,不过需要写正则,同时性能也有些问题。。

1
2
hive -e  "select regexp_extract('GET /vips-mobile/router.do?api_key=24415b921531551cb2ba756b885ce783&app_version=1.8.6&fields=sku_id HTTP/1.1','.+? +(.+?)app_version=(.+?)&(.+) .+?',2) from dual"
1.8.6

考虑自己写一个,借鉴parse_url的udf:
代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
package  com.hive.myudf;
import  java.net.URL;
import  java.util.regex.Matcher;
import  java.util.regex.Pattern;
import  org.apache.hadoop.hive.ql.exec.UDF;
public  class  UDFNginxParseUrl  extends  UDF {
   private  String schemal =  "http://" ;
   private  String host1 =  null ;
   private  Pattern p1 =  null ;
   private  URL url =  null ;
   private  Pattern p =  null ;
   private  String lastKey =  null ;
   public  UDFNginxParseUrl() {
   }
   public  String evaluate(String host1, String urlStr, String partToExtract) {
     if  (host1 ==  null  || urlStr ==  null  || partToExtract ==  null ) {
       return  null ;
     }
      p1 = Pattern.compile( "(.+?) +(.+?) (.+)" );
      Matcher m1 = p1.matcher(urlStr);
      if  (m1.matches()){
           String realUrl = schemal + host1 + m1.group( 2 );
           System.out.println( "URL is "  + realUrl);
           try {
                url =  new  URL(realUrl);
           } catch  (Exception e){
                return  null ;
           }
                                              
      }
      /*
     if (lastUrlStr == null || !urlStr.equals(lastUrlStr)) {
       try {
         url = new URL(urlStr);
       } catch (Exception e) {
         return null;
       }
     }
     lastUrlStr = urlStr;
      */
     if  (partToExtract.equals( "HOST" )) {
       return  url.getHost();
     }
     if  (partToExtract.equals( "PATH" )) {
       return  url.getPath();
     }
     if  (partToExtract.equals( "QUERY" )) {
       return  url.getQuery();
     }
     if  (partToExtract.equals( "REF" )) {
       return  url.getRef();
     }
     if  (partToExtract.equals( "PROTOCOL" )) {
       return  url.getProtocol();
     }
     if  (partToExtract.equals( "FILE" )) {
       return  url.getFile();
     }
     if  (partToExtract.equals( "AUTHORITY" )) {
       return  url.getAuthority();
     }
     if  (partToExtract.equals( "USERINFO" )) {
       return  url.getUserInfo();
     }
     return  null ;
   }
   public  String evaluate(String host, String urlStr, String partToExtract, String key) {
     if  (!partToExtract.equals( "QUERY" )) {
       return  null ;
     }
     String query =  this .evaluate(host, urlStr, partToExtract);
     if  (query ==  null ) {
       return  null ;
     }
     if  (!key.equals(lastKey)) {
       p = Pattern.compile( "(&|^)"  + key +  "=([^&]*)" );
     }
     lastKey = key;
     Matcher m = p.matcher(query);
     if  (m.find()) {
       return  m.group( 2 );
     }
     return  null ;
   }
}


add jar和create function之后测试:

1
2
hive -e  "select nginx_url_parse('test.test.com','GET /vips-mobile/router.do?api_key=24415&app_version=1.8.6&fields=sku_id HTTP/1.1','HOST') FROM dual;"
test.test.com


1
2
hive -e  "select nginx_url_parse('test.test.com','GET /vips-mobile/router.do?api_key=24415&app_version=1.8.6&fields=sku_id HTTP/1.1','QUERY','api_key') FROM dual;"
24415

这样就可以直接应用于nginx的日志了。



本文转自菜菜光 51CTO博客,原文链接:http://blog.51cto.com/caiguangguang/1350463,如需转载请自行联系原作者

相关文章
|
4月前
|
SQL HIVE
Hive LAG函数分析
Hive LAG函数分析
36 0
|
4月前
|
SQL JSON Java
Hive【Hive(四)函数-单行函数】
Hive【Hive(四)函数-单行函数】
|
7月前
|
Web App开发 前端开发 JavaScript
SAP UI5 应用开发教程之八十七 - 如何让 SAP UI5 Mock 服务器支持自定义 url 参数试读版
SAP UI5 应用开发教程之八十七 - 如何让 SAP UI5 Mock 服务器支持自定义 url 参数试读版
49 0
|
1天前
|
SQL Java 数据处理
【Hive】Hive的函数:UDF、UDAF、UDTF的区别?
【4月更文挑战第17天】【Hive】Hive的函数:UDF、UDAF、UDTF的区别?
|
4月前
|
SQL HIVE 索引
Hive【Hive(五)函数-高级聚合函数、炸裂函数】
Hive【Hive(五)函数-高级聚合函数、炸裂函数】
|
22天前
|
SQL Unix 数据挖掘
bigdata-21-Hive基本函数
bigdata-21-Hive基本函数
17 0
|
1月前
|
SQL HIVE
Hive中日期处理函数的使用(date_format、date_add、date_sub、next_day)
Hive中日期处理函数的使用(date_format、date_add、date_sub、next_day)
68 3
|
2月前
|
SQL 消息中间件 Apache
Flink报错问题之使用hive udf函数报错如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
4月前
|
SQL JSON Unix
❤️Hive的基本知识(三)Hive中的函数大全❤️
❤️Hive的基本知识(三)Hive中的函数大全❤️
40 0
|
4月前
钉钉接收事件订阅的url可以加自定义参数吗?
钉钉接收事件订阅的url可以加自定义参数吗?
34 0

热门文章

最新文章