2019年10月1日 阴

106 views

70年国庆,大阅兵,值得期待。
值班并不轻松,处理生产问题还是很提神的。

初始化数据的操作开始后,除了偶尔监控下进度,挑点感兴趣的课程出来听听,放松一下。
初始化过程中遇到点小问题,远程登录执行机的终端由于长时间没有操作而出现了一次会话超时的现象,这导致beeline客户端被意外杀掉,检查Yarn,发现相关的任务在相同时间点被杀掉了。因而需要重新初始化16年的数据,额外多花了一点时间。后续做初始化操作时,需要关注这个现象。

第一门课程,大数据技术体系,针对数据科学家的科普介绍。
除了基础知识介绍,专家的个人判断有:
1、数学科学家的利器是Python,他的个人建议是尽快向Python阵营迁移。
2、Spark的问题比较多,对于数据科学家来说,使用并不方便。比如运行环境比较厚重,近年创新不足,自身代码质量不稳定,Bug多等。
3、Python在数据方面的工具非常多,发展快速,由于基于C开发,可以复用各项新的技术,运行速度有保障。
一家之言,不过似乎很有道理。
后续在刷题时,可以考虑换Python试试。
从本次校园招聘看,针对我给出的编程题使用Python给出解答,一般比较简短,考虑到Python的语法和API表达能力强,学习成本相对会低一些。

第二门课程,机器学习的入门课程。
这门课基本上听的不是特别明白,术语太多,太杂,相同的事务,不同的人可能会使用不同的词汇表达,不单纯。
假如没有专门去读一些材料的话,可能不具备沟通的基础,听不懂,说不出。
以具体的编码而言,现有的工具包的API倒并不复杂,可以说还是比较简单易上手的,主要的障碍在于无法理解各种算法,针对问题使用恰当的算法,以及恰当的使用算法。

对今天值班的总结:
1、早晨遇到调度平台故障,影响下游多个重要业务。
1)向值班主管和项目主管通报问题,求助平台及时处理。
2)梳理受影响的重点业务,并通报进展。
2、中午检查调度时发现实时业务的任务出现阻塞现象。本现象自动恢复,经简单分析后确认无影响。
1)求助运维主管检查调度平台。
2)检查大数据集群上任务的运行情况。
3)求助运维代表,后续在调度平台上配置任务启动延迟、运行超时的监控。
3、DWI层任务出现报错。
1)通知集成组负责人定位。
2)依据定位结论和操作建议,执行必要的操作。

对今天初始化数据操作的总结:
1、初始化操作过程中,需要保持远程终端的会话有效,避免beeline客户端被杀掉。
2、按照原方案,18年前的数据按月分区,但从实际情况看,个别天仍然存在分区,但占用的空间只有几K,具体原因需要后续分析。
3、检查数据有效性,当前准备的SQL不充分,国庆节后,需要开发人员一起投入。



若非注明,均为原创,欢迎转载,转载请注明来源:2019年10月1日 阴

关于 JackieAtHome

基层程序员,八年之后重新启航

此条目发表在 日志 分类目录。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Protected with IP Blacklist CloudIP Blacklist Cloud