自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨鑫newlife的专栏

算法就是我的灵魂

原创 大数据之路、阿里巴巴大数据实践读书笔记目录

该系列持续更新中: 第一章: 大数据之路、阿里巴巴大数据实践读书笔记 --- 第一章、总述 第二章: 大数据之路、阿里巴巴大数据实践读书笔记 --- 第二章、日志采集 第三章: 大数据之路、阿里巴巴大数据实践读书笔记 --- 第三章、数据同步 ...

2020-01-12 02:09:19 798 0

原创 送给订阅我专栏同学们一封信

非常感谢大家来订阅我的专栏,最早开始写博客是由于为了记笔记, 大学时期打ACM,玩C/C++, 毕业之后从事大数据 + 机器学习。 后来逐渐变成了把自己做过的每一次项目实战的问题, 技术调研、开发技能等都记录下来,到现在形成了简单的部分规模专栏。 因此大家在看的时候有些文章可能不太具体,...

2020-01-05 19:55:40 982 1

原创 大数据之路、阿里巴巴大数据实践读书笔记 --- 第三章、数据同步

一、数据采集 日志采集 数据库同步 二、数据同步技术更通用的含义是不同系统之间的数据流转; 三、数据同步基础三种方式: 直连同步 数据文件同步 数据库日志解析同步 直连同步 直连同步是指通过定义好的规范接口API和基于...

2020-01-25 02:04:15 307 0

原创 深入浅出Spark实时处理(三)--- Structured Streaming集成Kafka

Kafka 0.10的 Structured Streaming 集成,可从Kafka读取数据或向Kafka写入数据。 从Kafka读取数据 def run(): Unit ={ val df = spark.readStream .format("kafka"...

2020-01-21 16:44:42 431 0

原创 Python实现企业微信接收消息之API验证部分

一、首先点开配置界面如下: 第一行填入我们的代码接口 第二行、三行可以自动生成或者手动指定均可。 然后勾选下面的事件,然后先不保存。 二、准备代码 实现Get请求的接口: @app.route('/xxxx/receive_task', me...

2020-01-20 17:36:39 1705 3

原创 大数据架构:Lambda和Kappa架构对比

Lambda架构 如下图是Lambda的架构 Nathan Marz基于在Backtype和Twitter从事分布式数据处理系统工作的经验,提出了 Lambda体系结构(LA)一词,意味着通用,可扩展且容错的数据处理体系。 LA旨在满足对硬件故障和人为错误具体容错能力的健壮性的...

2020-01-14 20:45:32 1043 0

原创 解决flask报错 ValueError: View function did not return a response

今天使用python实现Flask的restful接口,然后调用的时候报错: ValueError: View function did not return a response 代码如下: @app.route('/xxxx/yyyy_zzzzz', methods...

2020-01-14 18:35:17 2091 0

原创 Secondary NameNode和JournalNode在功能上有什么区别

NameNode之间共享数据(NFS 、Quorum Journal Node(用得多)) 两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。s...

2020-01-14 14:36:31 975 0

原创 Secondary NameNode和HA(高可用)区别与联系

Secondary NameNode作用 Hadoop2中引入了HA功能(高可用),但是我们可以不配置高可用,继续使用Secondary NameNode(虽然HA比Secondary Node好用); 看SecondaryNameNode之前,我们先看看NameNode NameNode...

2020-01-14 14:35:42 515 0

原创 代码在2019-12-31出现的一个bug,YYYY-MM-dd和yyyy-MM-dd

我们在2月1日看报表的时候发现数据不对,当时并没有在意,后来在三天后发现2019年12月1日的数据确实不对,手动执行 select date_format('2019-12-30', 'YYYY-MM-01') 返回的结果是2020-12-01,如下图...

2020-01-13 15:09:41 473 0

原创 大数据之路、阿里巴巴大数据实践读书笔记 --- 第二章、日志采集

一、日志采集两大体系: Aplus.JS PC-WEB端 UserTrack App-端 二、主要统计: 页面浏览(展示)日志采集 PV - Page View 页面浏览量 UV - Unique Vistor 唯一的访问用户(去重后) ...

2020-01-12 15:05:17 443 0

原创 大数据之路、阿里巴巴大数据实践读书笔记 --- 第一章、总述

一、大数据系统体系架构图大纲 1层 - 数据应用层 对内 内平台 对商家 对公众 2层 - 数据服务层 服务&基础数据源 数据服务&基础工具层 3层 - 数据计算层 离线计算 实时计算 数据公共...

2020-01-11 16:58:08 512 0

原创 Mysql中从零点到当前时刻的SQL判断

select * from db_name.tb_name where xx_time > CONCAT(CURRENT_DATE(), ' 00:00:00') and xx_time < current_timestamp() and xxx

2020-01-09 22:57:00 178 0

原创 浅析Apache Avro是什么?

一、概述 Apache Avro^TM 是一个数据序列化系统; Avro提供的技术支持包括以下五个方面: 优秀的数据结构; 一个紧凑的,快速的,二进制数据格式; 一个容器文件,用来存储持久化数据; RPC远程过程调用; 集成最简单的动态语言。读取或...

2020-01-08 21:02:31 208 0

原创 Python实现企业微信推送文件

# -*-coding:utf-8 -*- __author__ = 'yangxin_ryan' import requests, json import urllib3 urllib3.disable_warnings() """ Python...

2020-01-06 15:16:25 1969 5

原创 Sqoop导入/导出Hive到Mysql中包含自增ID字段/自动写入时间字段

场景: 从Hive导出数据表到Mysql并且Mysql表已创建,其中存在的Mysql表中还有一个Hive中没有的自增ID字段(自动写入时间字段类似这里不再重复叙述)。 这种情况怎么使用Sqoop呢? 我们可以使用 --columns参数来指定要导入/导出的字段,其余字段(自增ID/写入时...

2020-01-06 03:17:59 1870 2

原创 实时/离线日志同步问题排查总结

一、经过多次的实际排查实时/历史日志数据缺失问题,感觉很有必要总结一下排查的步骤,以便快速的入手。 二、常见问题 数据缺失; 数据总量匹配但是部分内容不匹配; 三、解决办法 外部因素 内部因素 【注意】:我这里的建议办法是先由内部到外部的排查; 四、内部排查 0.先确认出现问题的日志格...

2020-01-02 22:12:56 518 0

原创 深入浅出Spark实时处理(二) --- Structured Streaming

对比Spark Streaming可以参看文章深入浅出Spark实时处理(一) --- Spark Streaming Structured Streaming 是一个基于Spark-SQL的可伸缩且容错的流处理引擎。使用者可以像对待静态数据一样来处理流式计算。当流数据到达时,Spark-S...

2020-01-02 20:52:18 215 1

提示
确定要删除当前文章?
取消 删除