搜狗日志Hive数据分析

目录
Hive数据分析... 4
一、数据处理.... 4
1.1处理不符合规范的数据。... 4
1.2访问时间分段。... 5
二、基本统计信息.... 6
三、数据属性基础分析.... 6
3.1用户ID分析... 6
3.1.1UID的查询次数。... 6
3.1.2UID频度排名分析。... 7
3.2搜索关键词分析... 8
3.2.1热词分析... 8
3.2.2使用几个单词还是一个句子作为关键词。... 9
3.2.3使用文字描述还是域名一部分作为关键词。... 10
3.3URL分析... 10
3.3.1热门搜索分析。... 10
3.3.2URL流量分析。... 11
3.4 Rank分析... 12
3.5 Order分析... 13
3.6访问时间分析... 14
四、数据深入特色分析.... 15
4.1.某一用户分析... 15
4.1.1该UID背后是否是爬虫程序?. 15
4.1.2该UID背后是浏览器代理程序吗?... 16
4.2.某一网站分析... 18
4.2.1关键字分析
4.2.2访问量与时间
http://www.baidu.com/、http://www.hao123.com/,且占据排名第一和第三的位置,这与前十个热门关键词中百度公司占据三个的结果相符合,百度公司搜索领域龙头的位置当仁不让;这十个网址中有四个网址:http://www.4399.com/、 http://www.7k7k.com/、http://cf.qq.com/、http://www.xixiwg.com/都是游戏网站,可以看出游戏在用户中比较热门;另外表中还有两个社交相关网站: http://qzone.qq.com/、 http://weibo.com/。将表3.6中数据用饼形图表示可以看出,除http://www.baidu.com/占有较大比重外,其他9个URL基本平分秋色。
表3.6 排名前十的URL及频数表
URL | 频数 |
http://www.baidu.com/ | 73737 |
http://www.4399.com/ | 19015 |
http://www.hao123.com/ | 14338 |
http://www.youku.com/ | 14086 |
http://qzone.qq.com/ | 12920 |
http://www.7k7k.com/ | 8326 |
http://weibo.com/ | 7547 |
http://cf.qq.com/ | 7544 |
http://www.xixiwg.com/ | 7043 |
图3.7 排名前十的URL及频数饼形图
网页数量等指标,这里我们使用URL频数的数值衡量域名流量。为了了解2466932个URL中的流量分布情况,我们使用语句(15)查询各个排名段的频数数据,见表3.7按频数排序在1w名以内的URL的总数据量为153463条,占整个数据集的30.7%。使用折线图表示表中数如图3.8所示,我们可以发现折线图中1~10000与10001~20000之间的斜率特别大,这说明排名在1~10000之间的URL的少部分URL占据了大多数的流量。
表3.7 URL排名区间与频数表
URL排名区间 | 频数 |
1~10000 | 1536463 |
10001~20000 | 231120 |
20001~30000 | 151432 |
30001~40000 | 117753 |
40001~50000 | 97615 |
50001~60000 | 85820 |
60001~70000 | 77972 |
图3.8 URL排名区间与频数图
http://weibo.com/进行分析,该网站属于新浪微博,使用语句(23)在hive中建表,在该表中共有7547条记录,访问该网站的独立UID有5286个,该网站通过126个关键词被找到。
http://weibo.com/网站在浏览器中显示越靠前,越有利于吸引流量,使用语句(25)可以计算该网页的平均Rank值为http://weibo.com/网站频数最高的关键词的Rank数很低,我们来验证一下,使用语句(25)可以得到http://weibo.com/网站频率排名前五的关键词的Rank平均值,数据统计见表4.1所示。表中排名前五的关键词的平均Rank值均为1。
表4.1 频率排名前五的关键词的Rank值
关键词 | Rank平均 |
新浪微博 | 1 |
微博 | 1 |
| 1 |
sina微博 | 1 |
xinlangweibo | 1 |
立即使用


皮皮高: 确实很棒!没想到17年就有这种做法了,我还是看了androd12的splashScreen兼容库后才知道这种做法,博主好评
康贝勒: 图片打不开啊兄弟
Lucifer三思而后行: 前排支持一下,可以的话来我博客看看吧
十与二十: 谢谢
ithewei: 一行解决 #define synchronized(lock) for (std::lock_guard<std::mutex> _lock_(lock), *p = &_lock_; p != NULL; p = NULL)