自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨鑫newlife的专栏

算法就是我的灵魂

  • 博客(18)
  • 资源 (187)
  • 论坛 (1)
  • 收藏
  • 关注

原创 大数据之路、阿里巴巴大数据实践读书笔记目录

该系列持续更新中:第一章:大数据之路、阿里巴巴大数据实践读书笔记 --- 第一章、总述第二章:大数据之路、阿里巴巴大数据实践读书笔记 --- 第二章、日志采集第三章:大数据之路、阿里巴巴大数据实践读书笔记 --- 第三章、数据同步...

2020-01-12 02:09:19 1090

原创 送给订阅我专栏同学们一封信

非常感谢大家来订阅我的专栏,最早开始写博客是由于为了记笔记,大学时期打ACM,玩C/C++,毕业之后从事大数据 + 机器学习。后来逐渐变成了把自己做过的每一次项目实战的问题,技术调研、开发技能等都记录下来,到现在形成了简单的部分规模专栏。因此大家在看的时候有些文章可能不太具体,但是我会为订阅同学提供好服务。订阅的同学如果对我的文章或者某些技术问题感兴趣或者不懂得,可以私信问...

2020-01-05 19:55:40 1280 2

原创 大数据之路、阿里巴巴大数据实践读书笔记 --- 第三章、数据同步

一、数据采集 日志采集 数据库同步 二、数据同步技术更通用的含义是不同系统之间的数据流转;三、数据同步基础三种方式: 直连同步 数据文件同步 数据库日志解析同步 直连同步 直连同步是指通过定义好的规范接口API和基于动态链接库的方式直接连接业务库,例如JDBC/ODBC,如下图: 优势:...

2020-01-25 02:04:15 394

原创 深入浅出Spark实时处理(三)--- Structured Streaming集成Kafka

Kafka 0.10的 Structured Streaming 集成,可从Kafka读取数据或向Kafka写入数据。 从Kafka读取数据 def run(): Unit ={val df = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "...

2020-01-21 16:44:42 560

原创 Python实现企业微信接收消息之API验证部分

一、首先点开配置界面如下:第一行填入我们的代码接口第二行、三行可以自动生成或者手动指定均可。然后勾选下面的事件,然后先不保存。二、准备代码实现Get请求的接口:@app.route('/xxxx/receive_task', methods=['POST','GET'])def receive(): try: msg...

2020-01-20 17:36:39 2700 15

原创 大数据架构:Lambda和Kappa架构对比

Lambda架构 如下图是Lambda的架构Nathan Marz基于在Backtype和Twitter从事分布式数据处理系统工作的经验,提出了 Lambda体系结构(LA)一词,意味着通用,可扩展且容错的数据处理体系。LA旨在满足对硬件故障和人为错误具体容错能力的健壮性的需求,该系统能够处理各种工作负载和用例,并且需要低延迟的读取和更新。生成的系统应该是线性可伸缩...

2020-01-14 20:45:32 1492

原创 解决flask报错 ValueError: View function did not return a response

今天使用python实现Flask的restful接口,然后调用的时候报错:ValueError: View function did not return a response代码如下:@app.route('/xxxx/yyyy_zzzzz', methods=['POST', 'GET'])def receive(): param = request.json...

2020-01-14 18:35:17 3453

原创 Secondary NameNode和JournalNode在功能上有什么区别

NameNode之间共享数据(NFS 、Quorum Journal Node(用得多)) 两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化...

2020-01-14 14:36:31 1451

原创 Secondary NameNode和HA(高可用)区别与联系

Secondary NameNode作用 Hadoop2中引入了HA功能(高可用),但是我们可以不配置高可用,继续使用Secondary NameNode(虽然HA比Secondary Node好用);看SecondaryNameNode之前,我们先看看NameNodeNameNode主要用来保存HDFS的元数据信息,比如命名空间信息,块信息等。当它运行的时候,这些信息在内存,也可...

2020-01-14 14:35:42 786

原创 代码在2019-12-31出现的一个bug,YYYY-MM-dd和yyyy-MM-dd

我们在2月1日看报表的时候发现数据不对,当时并没有在意,后来在三天后发现2019年12月1日的数据确实不对,手动执行select date_format('2019-12-30', 'YYYY-MM-01')返回的结果是2020-12-01,如下图:这个是什么问题?当我把把YYYY改成yyyy就没问题的了select date_format('2019-12-30', ...

2020-01-13 15:09:41 545

原创 大数据之路、阿里巴巴大数据实践读书笔记 --- 第二章、日志采集

一、日志采集两大体系: Aplus.JS PC-WEB端 UserTrack App-端 二、主要统计: 页面浏览(展示)日志采集 PV - Page View 页面浏览量 UV - Unique Vistor 唯一的访问用户(去重后) 页面交互日志采集 Banner等 三、采...

2020-01-12 15:05:17 600

原创 大数据之路、阿里巴巴大数据实践读书笔记 --- 第一章、总述

一、大数据系统体系架构图大纲1层 - 数据应用层 对内 内平台 对商家 对公众 2层 - 数据服务层 服务&基础数据源 数据服务&基础工具层 3层 - 数据计算层 离线计算 实时计算 数据公共层 4层 - 数据采集层 数据库同步 日志采集 二、架构层级分析:A.数据...

2020-01-11 16:58:08 644

原创 Mysql中从零点到当前时刻的SQL判断

select * from db_name.tb_name where xx_time > CONCAT(CURRENT_DATE(), ' 00:00:00') and xx_time < current_timestamp() and xxx

2020-01-09 22:57:00 214

原创 浅析Apache Avro是什么?

一、概述Apache Avro^TM 是一个数据序列化系统;Avro提供的技术支持包括以下五个方面: 优秀的数据结构; 一个紧凑的,快速的,二进制数据格式; 一个容器文件,用来存储持久化数据; RPC远程过程调用; 集成最简单的动态语言。读取或者写入数据文件,使用或实现RPC协议均不需要代码实现。对于静态语言编写的话需要实现; 二、Sche...

2020-01-08 21:02:31 280

原创 Python实现企业微信推送文件

# -*-coding:utf-8 -*-__author__ = 'yangxin_ryan'import requests, jsonimport urllib3urllib3.disable_warnings()"""Python实现企业微信推送文件备注:支持中文名字等"""class WechatFile(object): def get_token(se...

2020-01-06 15:16:25 2572 5

原创 Sqoop导入/导出Hive到Mysql中包含自增ID字段/自动写入时间字段

场景:从Hive导出数据表到Mysql并且Mysql表已创建,其中存在的Mysql表中还有一个Hive中没有的自增ID字段(自动写入时间字段类似这里不再重复叙述)。这种情况怎么使用Sqoop呢?我们可以使用 --columns参数来指定要导入/导出的字段,其余字段(自增ID/写入时间字段等)Mysql中会自动更新;sqoop export -D mapred.job.nam...

2020-01-06 03:17:59 2661 2

原创 实时/离线日志同步问题排查总结

一、经过多次的实际排查实时/历史日志数据缺失问题,感觉很有必要总结一下排查的步骤,以便快速的入手。二、常见问题数据缺失; 数据总量匹配但是部分内容不匹配;三、解决办法外部因素 内部因素【注意】:我这里的建议办法是先由内部到外部的排查;四、内部排查0.先确认出现问题的日志格式是否与我们日常的匹配解析规则(可能是正则表达式)是否一致,不一致的话直接询问数据源方正确的解析格式或...

2020-01-02 22:12:56 661

原创 深入浅出Spark实时处理(二) --- Structured Streaming

对比Spark Streaming可以参看文章深入浅出Spark实时处理(一) --- Spark StreamingStructured Streaming 是一个基于Spark-SQL的可伸缩且容错的流处理引擎。使用者可以像对待静态数据一样来处理流式计算。当流数据到达时,Spark-SQL 引擎将负责逐步递增的运行并更新结果。可以在Scala、Java、Python或者R语言中使用...

2020-01-02 20:52:18 263 2

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

2019-03-06

demjson-2.2.4

demjson-2.2.4很好用,适合于python操作json使用。

2016-08-02

软件开发文档模板[全套]

软件开发文档模板[全套]

2017-04-07

ElasticSearch中文文档(新版)

ElasticSearch中文文档(新版)

2017-06-23

_bz2.cpython-36m-x86_64-linux-gnu.so

_bz2.cpython-36m-x86_64-linux-gnu.so,

2019-11-07

AzkabanAPI接口文档汇总

AzkabanAPI接口文档汇总

2018-09-26

ACM学习路线导图

ACM学习路线导图

2018-11-14

数据仓库规范设计.pdf

数据仓库规范设计.pdf

2019-11-04

Confluence-5.6.6-language-pack-zh_CN.jar

Confluence-5.6.6-language-pack-zh_CN.jar,防止confluence乱码的jar包

2018-09-30

KNN实现水果分类的数据集

KNN实现水果分类的数据集KNN实现水果分类的数据集,KNN实现水果分类的数据集,KNN实现水果分类的数据集

2019-10-17

cyrus-sasl-plain-2.1.26-20

cyrus-sasl-plain-2.1.26-20,用于安装sasl。

2016-10-08

哈希算法C语言实现

哈希算法C语言实现

2016-02-17

机器学习算法-神经网络LSTM

机器学习算法-神经网络.pptx

2019-09-21

easygui-0.96.tar.gz

easygui-0.96.tar.gz 在linux下的使用,很好用,有需要的自己去下载吧。

2016-06-09

pandas-0.19.2.tar.gz

pandas-0.19.2.tar.gz 用于开发操作数据分析等

2017-02-21

openpyxl-openpyx

openpyxl 挺好用的一个lib包,需要自己进行编译。

2016-09-09

jsp实现购物车

这个使用jsp实现的购物车代码,和我上次上传的servlet实现的购物车正好行对应,适合新手学习。

2015-03-25

C语言实现prim算法

C语言实现prim算法

2015-08-12

Griffin数据质量管理技术调研.pdf

Griffin数据质量管理技术调研.pdf

2019-12-09

Azkaban元数据库分析

Azkaban元数据库分析,

2018-09-19

Presto资源管理Rest API 文档

Presto资源管理Rest API 文档

2018-12-01

easygui-docs-0.96.zip

easygui-docs-0.96.zip,在windows下的文档说明,很好用!

2016-06-09

java连接DB2所有jar包

java, python等通过jdbc连接DB2数据库的连接jar文件集合。

2017-02-14

C语言实现银行模拟-数据结构应用

C语言实现银行模拟-数据结构应用,很好用,有需要的来下载。

2016-03-28

基础算法 - 动态规划-2019-08-01.pptx

基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx

2019-10-17

C语言实现链式队列

链式队列

2015-09-08

C语言实现循环队列

C语言实现循环队列

2015-09-08

中文停用词表

中文停用词表,很好用,找了很久才找到,有需要的去下载就好了。

2016-03-28

完整的VISIO教程.ppt

完整的VISIO教程.ppt

2017-03-23

实时指标计算引擎-Spark-Part_1_杨鑫_2019-12-19.pptx

实时指标计算引擎-Spark-Part_1_杨鑫

2019-12-19

开源SuperSet、MetaBD、Redash简单对比

开源SuperSet、MetaBD、Redash简单对比

2020-07-22

servlet-api.jar && jsp-api.jar

servlet-api.jar && jsp-api.jar

2015-03-13

Python对Excel操作详解

Python对Excel操作详解,很好用,里面有xlrd, xlwt怎么使用。

2016-09-13

C语言实现串存储

C语言实现串存储

2015-09-08

Apache Kylin竞品分析.pdf

Apache Kylin竞品分析.pdf

2019-11-18

宽依赖与窄依赖

宽依赖与窄依赖,很好用的PPT,对于spreak的宽依赖与窄依赖很清楚,分享给有用的朋友。

2016-05-06

英文停用词表Stop

英文停用词表Stop,很好用,有需要的去下载

2016-03-29

Hive编程指南

Hive编程指南 pdf,内容很不错适合入门hive编程的朋友。

2017-09-13

mongodb-linux-x86_64-3.4.6

mongodb-linux-x86_64-3.4.6,很好用的客户端,请下载使用。

2017-10-17

串的块链存储表示

串的块链存储表示

2015-09-08

杨鑫newlfe的留言板

发表于 2020-01-02 最后回复 2020-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除