新手入门必知的7个计算机编程入门基础知识 2022-09-06
计算机行业作为永久不衰的行业,始终是年轻人追求的目标。但是很多人在进入计算机编程行业之前,没有目标和方向。首先,想要进入计算机行业,...详情>
什么是网络爬虫 2022-09-05
网络爬虫,英文名为Spider,又称为网页蜘蛛,网络机器人,在数据分析应用中,更多的将爬虫称为数据采集程序,是一种按照一定的规则,自动地抓取...详情>
读数据流程 2022-09-02
1. 客户端向namenode发起RPC调用,请求读取文件数据。2. namenode检查文件是否存在,如果存在则获取文件的元信息(blockid以及对应的datanode...详情>
写数据流程 2022-09-02
1. 客户端发出请求hdfs dfs -put /etc/profile /qf/data。2. namenode查看维护的目录结构,检查/qf/data是否存在,如不存在直接报错”no such ...详情>
Spark Streaming的窗口大小,每个窗口处理的数据量大小。 2022-09-02
该问题一定要根据业务需求来确定,比如要实现的需求为:统计每分钟的前一个小时的在线人数。上面需求的窗口大小(窗口长度)为1小时,然后再统...详情>
SparkStreaming的批次间隔,处理完的的数据存在哪里 2022-09-02
批次间隔为SparkStreaming处理实时需求的时间间隔,需要根据业务需求来确定批次间隔。实时需求的处理结果一般是保存在能快速读取的数据库中来...详情>
MapReduce的原理(重点) 2022-09-02
MapperTask 使用逻辑切片的方式划分block,调用InputFormat中的算法进行划分,TextInputFormat默认按照128M进行划分(默认一个block至少有一片...详情>
多线程的用处 2022-09-01
这样可以为不同的任务步骤建立线程。网络程序设计为提高网络的利用效率,我们可能使用多线程,对每个连接用一个线程去处理。数据共享 同一个进...详情>
什么是线程 2022-09-01
为了减少系统开销,从进程中演化出了线程。线程存在于进程中,共享进程的资源。线程是进程中的独立控制流,由环境(包括寄存器组和程序计数器)...详情>
线程和进程区别 2022-09-01
在进程切换时候,涉及到整个当前进程 CPU 环境的保存以及新被调度运行的进程的 CPU 环境的设置;并发性: 不仅进程间可以并发执行,而且在一个...详情>
京公网安备 11010802030320号