自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

曹世宏的博客

记录一些学习资料

  • 博客(24)
  • 论坛 (1)
  • 收藏
  • 关注

原创 Linux下正则表达式的应用

正则表达式:在计算机科学中,正则表达式是这样解释的:它是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。对于系统管理员来讲,正则表达式贯穿在日常运维工作中,无论是查找某个文档,抑或查询某个日志文件分析其内容,都会用到正则表达式。在...

2018-06-29 23:52:11 525

原创 学习shell脚本之前的基础知识

什么是shell:shell就是系统跟计算机硬件交互时使用的中间介质,它只是系统的一个工具。实际上,在shell和计算机硬件之间还有一层东西那就是系统内核了。用户直接面对的不是计算机硬件而是shell,用户把指令告诉shell,然后shell再传输给系统内核,接着内核再去支配计算机硬件去执行各种操作。linux发布版本(Redhat/CentOS)系统默认安装的shell叫做bash,即B...

2018-06-24 18:24:19 886

原创 安装RPM包或者安装源码包

RPM工具使用方法:RPM是 “Redhat Package Manager” 的缩写,根据名字也能猜到这是Redhat公司开发出来的。RPM 是以一种数据库记录的方式来将所需要的套件安装到Linux 主机的一套管理程序。也就是说,linux系统中存在着一个关于RPM的数据库,它记录了安装的包以及包与包之间依赖相关性。RPM包是预先在linux机器上编译好并打包好的文件,安装起来非常快捷。但是...

2018-06-24 18:23:05 14094 1

原创 文档的压缩与打包

Linux下的压缩文件:在linux下最常见的压缩文件通常都是以.tar.gz 为结尾的,除此之外还有.tar, .gz, .bz2, .zip等等。linux系统中的后缀名其实要不要无所谓,但是对于压缩文件来讲必须要带上。这是为了判断压缩文件是由哪种压缩工具所压缩,而后才能去正确的解压缩这个文件。以下介绍常见的后缀名所对应的压缩工具。.gz :gzip 压缩工具压缩的文件.bz2: ...

2018-06-22 11:17:41 171

原创 Linux的文本编辑工具vim

Linux vi/vim:所有的 Unix Linux系统都会内建 vi 文本编辑器,其他的文书编辑器则不一定会存在。但是目前我们使用比较多的是 vim 编辑器。vim 具有程序编辑的能力,可以主动的以字体颜色辨别语法的正确性,方便程序设计。vi 和vim最大的区别就是编辑一个文本时,vi不会显示颜色,而vim会显示颜色。显示颜色更易于用户进行编辑。vim的模式:vim...

2018-06-22 11:16:21 233

原创 Hive常用Shell操作和基础开发

Hive常用的HiveQL操作Hive的基本数据类型:Hive支持基本数据类型和复杂类型, 基本数据类型主要有数值类型(INT、FLOAT、DOUBLE ) 、布尔型和字符串, 复杂类型有三种:ARRAY、MAP 和 STRUCT。a.基本数据类型TINYINT: 1个字节SMALLINT: 2个字节INT: 4个字节BIGINT: 8个字节BOOLEAN: TRUE...

2018-06-21 00:10:10 817

原创 Linux磁盘管理

查看磁盘或目录的容量:命令df:“df” 查看已挂载磁盘的总容量、使用容量、剩余容量等,可以不加任何参数,默认是按k为单位显示的。图:df查看磁盘状态示例df常用的选项有:-i :显示inode 信息而非块使用量。-h : 使用合适的单位显示,例如:M,K,G等。-k:以K为单位显示。-m:以M为单位显示。图:df常用参数使用示例命令du:du...

2018-06-21 00:08:00 5250

原创 2018年蓝桥杯省赛Java-B组

1.购物单:题目:小明刚刚找到工作,老板人很好,只是老板夫人很爱购物。老板忙的时候经常让小明帮忙到商场代为购物。小明很厌烦,但又不好推辞。 这不,XX大促销又来了!老板夫人开出了长长的购物单,都是有打折优惠的。​ 小明也有个怪癖,不到万不得已,从不刷卡,直接现金搞定。​ 现在小明很心烦,请你帮他计算一下,需要从取款机上取多少现金,才能搞定这次购物。​ 取款机...

2018-06-18 23:01:42 933

原创 蓝桥杯程序练习

数列排序 问题描述   给定一个长度为n的数列,将这个数列按从小到大的顺序排列。1<=n<=200 输入格式   第一行为一个整数n。   第二行包含n个整数,为待排序的数,每个整数的绝对值小于10000。 输出格式   输出一行,按从小到大的顺序输出排序后的数列。 样例输入 5 8 3 6 4 ...

2018-06-18 23:01:01 224

原创 Linux系统用户及用户组管理

认识/etc/passwd和/etc/shadwo:这两个文件可以说是linux系统中最重要的文件之一。如果没有这两个文件或者这两个文件出问题,则是无法正常登录linux系统的。/etc/passwd:图:passwd前10行内容示例‘/etc/passwd’ 由 ‘:’ 分割成7个字段,每个字段的具体含义是:用户名(如第一行中的root就是用户名),代表用户账号的字符串...

2018-06-18 22:59:45 202

原创 Linux文件与目录管理

绝对路径和相对路径:绝对路径:路径的写法一定由根目录 ‘/’写起,例如 /usr/local/mysql 这就是绝对路径。相对路径:路径的写法不是由根目录 ‘/’写起,例如,首先用户进入到/, 然后再进入到home ,命令为 cd /home 然后 cd test 此时用户所在的路径为 /home/test 第一个cd命令后跟 ‘/home’ 第二个cd命令后跟 ‘test’, 并没有斜...

2018-06-17 09:12:51 412

原创 初步认识Linux

Linux系统启动的过程Linux系统的启动过程大体上可分为五部分:内核的引导、运行init、系统初始化、建立终端、用户登录系统。1.内核引导:当计算机打开电源后,首先是BIOS开机自检,按照BIOS中设置的启动设备(通常是硬盘)来启动。紧接着由启动设备上的grub程序开始引导Linux,当引导程序成功完成引导任务后,Linux从它们手中接管了CPU的控制权,然后CPU就开始执行L...

2018-06-17 09:11:26 402

原创 MapReduce编程实践

编程环境准备:要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 hadoop-eclipse-plugin,可下载 Github 上的 hadoop2x-eclipse-plugin。下载后,将 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar 复制到 Eclipse 安装目录的 plugins 文件夹中,运行 ecl...

2018-06-17 09:10:04 4086

原创 HBase常用Shell命令和基础开发

HBase常用Shell命令HBase中用create命令创建表:create 'Student','Num','Name','Sex','Age'运行结果如下:hbase(main):008:0> create 'Student','Num','Name','Sex','Age'0 row(s) in 2.4910 seconds=> Hbase::T...

2018-06-12 12:01:25 577

原创 HDFS常用Shell命令和基础编程开发

HDFS常用Shell命令Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。HDFS有三种shell命令方式:hadoop fs :适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统。Hadoop dfs:只能适用与HDFS文件系统。hdfs dfs:跟hadoop dfs命令作用...

2018-06-09 17:38:01 1816

原创 ZooKeeper技术原理

ZooKeeper简介ZooKeeper概述:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper分布式服务框架主要是用来解决分布式应用中经常遇到的一些数据管理问题...

2018-06-04 11:35:31 1290

原创 Kafka技术原理

Kafka简介Kafka概述:Kafka由 linked-in 开源 。kafka-高产出的分布式消息系统(A high-throughput distributed messaging system)。Kafka是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可以在廉价的PC Server上搭建起大规模消息系统。Kafka的特性:高吞吐量、低延迟...

2018-06-04 11:33:31 1675

原创 Loader技术原理

Loader简介什么是Loader:Loader是实现FusionInsight HD与关系型数据库、文件系统之间交互数据和文件的数据加载工具。基于开源Sqoop研发,做了大量优化和扩展。提供可视化向导式的作业配置管理界面;提供定时调度任务,周期性执行Loader作业;在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。Loader的特点:图形化...

2018-06-02 14:36:51 4793 9

原创 Flink技术原理

Flink简介Flink概述:Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并发化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink与Storm类似,属于事件驱动型实时流系统。Flink特点:Streaming-first、流处理引擎。Fault-tolerant,容错,可靠性,checkpoint...

2018-06-02 14:35:51 14340 3

原创 Pregel(图计算)技术原理

图计算简介图结构数据:许多大数据都是以大规模图或网络的形式呈现。许多非图结构的大数据,也常常会被转换为图模型后进行分析。图数据结构很好地表达了数据之间的关联性。关联性计算是大数据计算的核心——通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息。传统图计算解决方案的不足之处:很多传统的图计算算法都存在以下几个典型问题:常常表现出比较差的内存访问局部...

2018-06-02 14:32:51 28700 2

原创 Spark技术原理

Spark概述Spark简介:Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)。Spark...

2018-06-02 14:30:42 8754

原创 Storm(流计算)技术原理

流计算概述什么是流数据:数据有静态数据和流数据。静态数据:很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。图:静态数据的一般处理流程流数据:近年来,在Web应用、网络监控、传感监测等领域,兴...

2018-06-02 14:26:21 21693 1

原创 Impala技术原理

Impala简介Impala是由Cloudera公司开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级大数据,在性能上比Hive高出3~30倍。Impala的运行需要依赖于Hive的元数据。 Impala是参照 Dremel系统进行设计的。Impala采用了与商用并行关系数据库类似的分布式查询引擎,可以直接与HDFS和HBase进行交互查询...

2018-06-02 14:22:27 1763 1

原创 Hive技术原理

Hive概述数据仓库的概念:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。传统数据仓库面临的挑战:无法满足快速增长的海量数据存储需求。无法有效处理不同类型的数据。计算和处理能力不足...

2018-06-02 14:21:20 5333

空空如也

曹世宏的博客的留言板

发表于 2020-01-02 最后回复 2020-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除