来源于微信公众号:计算机大学生
说起IT运维,不同的人有不同的理解,有些人认为IT运维就是修电脑、看机房的;有些人认为IT运维是负责公司服务器管理、网络维护的;更专业点的人可能会认为IT运维是负责应用系统维护、保证应用系统安全可靠运行的。这些说法都有其正确的一面,也都不全面。简单来说,IT运维就是负责IT系统的运行维护工作,保障系统安全稳定运行,给用户提供有效的IT服务。
IT系统范围很广,包括每个企业都用到的OA系统,还有企业内部的客户关系管理、供应链管理、物流管理、计费管理系统等等。有些系统(OA、邮件系统、考勤系统等)是辅助企业日常工作的,有些系统(CRM、ERP、SCM等)就是企业的生产管理系统,这些系统一旦停止服务,企业可能只得停工停产,甚至关门下班了。这种场景下,保障IT系统稳定安全运行的运维人员就显得尤为重要。
IT运维与企业的IT建设情况密不可分。企业IT运维一般分为三种情况:一种是自有IT团队,自给自足,自己运维;另一种是自有IT团队与多个IT服务商共同合作维护企业IT系统,即部分外包式;还有一种是完全外包式,也就是完全委托给外包公司提供运维服务,由外包服务公司安排IT运维工程师在企业驻场服务。随着企业IT系统越来越大、越来越复杂,第二种、第三种运维方式也越来越普遍。
IT运维是一个定义相对广泛的统称,不同场景下IT运维工程师的工作内容、工作职责范围会有不同。按照具体工作内容的不同,IT运维又可分为服务器运维、桌面运维、网络运维、数据库运维、云平台运维、安全运维,业务系统运维,等等。他们运维的设备和系统,小到可能是办公室少数几台个人电脑和Office等办公软件,大到可能是大型云数据中心的数以万计的服务器、网络、安全等设备以及各式各样的系统软件、数据库、中间件和业务系统。根据IT系统规模的不同,运维团队可能小至一人,大至数百上千人。
在一些大型的企业,IT运维工作一般分得比较细,服务器运维工程师负责服务器的运维;网络运维工程师负责网络的运维;数据库运维工程师负责数据库的运维,还有云平台运维工程师、安全运维工程师,等等。但是,占绝大多数的中小型企业(或组织单位),IT运维工程师却是融合网络、系统、数据库、云平台、安全等工作于一身的“复合型人才”,他们的核心任务是保障IT系统的稳定安全运行,在此之上,也要不断优化系统架构、提升部署效率、优化资源利用率、提高整体的投资回报率ROI。
点击添加图片描述(最多60个字) 编辑
岗位职责
运维有运行和维护两层意思。对于一个IT系统,有时出错是无法预知的、无法避免的,系统越复杂,运维难度越大。因此,为了减少损失,我们要尽可能地去预防各种故障或异常,对于突发事件,则要尽可能快地修复解决。
IT运维工程师最基本的职责都是保障IT系统和业务服务的稳定性,确保业务系统可以7x24小时不间断地为用户提供服务,可以快速定位并解决系统运行期间出现的各种问题。在此之上,高级别的IT运维工作还包括:优化系统架构和部署的合理性,性能调优,提升系统服务的稳定性;保障并不断提升服务的可用性,确保用户数据安全,提升用户体验;用自动化的工具/平台提升IT系统的运维效率;通过资源优化组合降低成本、提升投资回报率,等等。
下面是招聘网站上的初级IT运维工程师的岗位职责描述。
岗位职责:
1、负责服务器、数据库日常运行管理,保障高可用性;
2、负责网络、邮件、防火墙、系统安全、病毒防护方案的部署与管理;
3、负责产品的版本发布、系统部署、日常故障处理,参与系统的监控方案、容灾方案、自动化运维方案的制定和实施;
4、熟练Linux、Windows操作系统,熟练部署并维护及其各类服务;
5、熟悉Nginx/LVS/HAproxy等主流的负载均衡方式并实现
6、熟练Apache、Tomcat、MySQL、Nginx等主流服务的部署及运维;
7、能熟练使用Shell、Perl、Python(一种或几种)语言
从字面上也可以理解,IT运维工程师的主要工作就是“运行”和“维护”。“运行”就是运行监控——日常IT系统运行状况的监控;“维护”就是系统维护——各种IT系统的故障修复和维护。在“运行”和“维护”工作之前,IT运维工程师一般还有个前置工作,也就是在企业数据中心部署实施各种IT硬件或软件系统。
所以,IT运维工程师的工作对象就是企业使用的各种IT软件、硬件系统,其核心工作内容包括三部分:部署实施、运行监控、系统维护。
部署实施
除了外部的IaaS/PaaS/SaaS云服务之外,企业所使用的IT软件或硬件系统一般都要在企业的数据中心里部署实施,一般也包括两种情况:
一是厂商售后工程师来部署实施IT系统,并交付给企业内部的IT运维人员来运维。随着IT软件或硬件系统日益复杂,一般都是厂商售后工程师来到企业现场安装、部署和调试好后,并给企业的IT运维工程师提供相关的运维培训,然后交付给企业的IT运维人员接管该系统的日常运维工作。当然,如果系统出了故障,但IT运维人员解决不了,还是会联系厂商的售后工程师远程指导解决,或者“飞”到企业现场来解决故障问题的。
二是企业的IT运维工程师部署实施IT系统,并负责日常的运维。一些常规的IT软件或硬件系统,一般都是IT运维人员自己来部署实施。熟悉这些常用的IT系统应该是IT运维工程师的基本功,比如说安装Linux服务器、MySQL数据库、Tomcat中间件,等等。如果哪个IT运维工程师不熟悉这些常规的软硬件系统,那就不算是一个合格的运维人员了。
一般来说,云平台、业务应用及其支撑系统、大型存储设备等复杂IT系统的部署实施都是属于上述第一种情况。不管是厂商部署实施IT系统,还是企业内部的运维工程师自己来部署实施系统,IT系统的部署实施自然是IT运维工作的前置条件。
而且,部署设计和实施的好坏也直接影响着IT运维工程师后面的两个工作职责——运行监控和系统维护。如果IT系统的前期部署没有充分规划和设计,实施过程也没有仔细斟酌和考虑,草草上线,必然会给IT运维工程师埋下一个个“雷”,留下一个个“坑”。因此,对于大型IT系统来说,部署实施的规划设计和最佳实践是非常重要的。
点击添加图片描述(最多60个字) 编辑
运行监控
运维行业有句话:“无监控、不运维”,这句话一点也不夸张。监控俗称“第三只眼”,没了监控,基础设施运维和业务系统运维都成了“瞎子”。
所以,运行监控是运维人员做好运维工作的根本手段,也是他们的日常工作。监控是整个运维乃至整个产品生命周期中最重要的一环,尤其是在现在DevOps这么火的时候,用监控数据来支持工作显得越发必要——事前及时预警潜在故障,事后提供详实的数据用于定位和解决故障。
每个企业或个人所处的行业、公司、业务、岗位不同,对监控的理解也不尽相同。但是我们需要注意的是,监控需要站在公司的业务角度来考虑的。对公司IT系统不间断的实时监控,其目的就是要;实时显示IT系统当前运行状态(正常、异常还是故障):保证IT系统和业务服务安全可靠地运行;保证业务的持续稳定运行(如果监控做得足够完善,即使出现故障,运维人员也能第一时间接收到故障报警,并在第一时间处理解决,从而保证业务持续的稳定运行)。
公司的IT系统出了问题,IT运维工程师往往就成了“背锅侠”,成了业务部门埋怨(或指责)的对象。有了监控,有了充足的数据,一切以数据说话,运维人员还需要无理由的“背锅”吗?
所以,于公于私来说,构建或者熟练使用运维监控系统确实是IT运维人员的重要工作。
对IT运维团队来说,选择一款开源的监控系统,是一个省时省力、效率最高的方案。目前业界有很多不错的开源运维监控产品可供选择,常见的运维监控工具有Nagios、Zabbix、Ganglia、Centreon,等等。
对于中小企业来说,Zabbix常常是他们运维监控平台的首选。Zabbix是一款综合了数据收集、数据展示、数据提取、监控报警配置、用户展示等方面的运维监控平台。它的功能强大而且易于用户学习,能够满足中小企业的监控报警需求,是一个能够快速上线使用的监控软件。由于这些优势和特点,Zabbix深受中小企业运维团队的喜爱,也成为他们运维监控的首选平台。
当IT系统规模太大时,Zabbix会产生监控数据不准确、报警超时等问题,这是因为Zabbix对监控服务器性能要求较高,其解决办法就是分布式监控部署,并且提升监控服务器的性能。另外,Zabbix客户端的Agent引擎如果发生故障,收集到的数据会丢失;Zabbix监控服务器也存在单点故障问题,可能需要做高可用HA方案部署。
对于互联网等大企业来说,运维监控平台一般是基于开源监控系统组合以及二次开发的策略来构建的,如Ganglia和Centreon的组合。大型企业拥有海量服务器、存储、安全等设备,还有多且杂的业务系统,没有哪个单一软件能够满足大型企业的所有监控需求,所以,多种开源监控系统组合应用并且基于这些系统完成二次开发才是大型企业监控平台的最佳方向。
Ganglia客户端软件对服务资源占用非常低,并且扩展插件非常多,易于扩展开发。Ganglia结合专业的Web监控平台Centreon,可以实现数据收集、数据展示、数据提取、监控报警配置、用户展示等方面的完美配合。所以,这一组合应用经常成为有大量IT系统的大型企业的运维监控平台。
IT运维工程师就是借助这些监控工具或者人工方法来了解IT系统的实时运行情况。当系统发生故障或出现异常时,IT运维工程师会及时收到由这些监控工具发出的预警报警信息,也能通过这些监控信息来发现问题,然后进入他们的另一项职责——系统维护来定位和解决问题。
系统维护
在日常运维工作中,IT运维工程师会收到运维监控平台提示的故障(异常)报警信息,也可能收到从用户反馈来的问题。只要可能是IT系统(不管是硬件,还是软件)带来的问题,运维人员都得承担系统维护的工作——定位问题和解决问题。
企业的IT系统维护工作一般包括两方面:一是主动式的定期巡检;另外就是被动式的“出现问题,解决问题”。
常规的定期巡检一般是IT运维部门每年都安排好的固定工作内容。按要求主动检查IT系统的运行情况,频率可能是一个季度一次或半年一次,也可能是一年一次巡检。有的公司也叫“IT运维演习”,按照制定好的巡检内容和时间表,逐项检查企业的IT硬件系统、基础软件系统、业务服务系统等核心IT系统的运行情况。这种定期巡检也可能需要关掉再重启IT硬件设备和软件系统,但是,一般来说,现在的IT系统,特别是有些核心的业务系统,可能必须提供7*24小时的在线服务,企业员工或用户需要随时随地访问这些系统,这样的IT系统肯定就不能关掉或停掉服务了。
被动式的“出现问题,解决问题”应该是IT运维工程师最经常的系统维护工作。公司的运维监控平台或人工上报的IT系统故障信息,一般通过邮件、即时通讯工具等方式报告给IT运维工程师。故障信息一般都会写明具体发生故障(异常)的设备或系统,具体的故障(异常)的内容描述。基于这些故障(异常)信息,运维人员首先需要分析故障(异常)信息内容,并定位问题,比如一台服务器连不上,就需要考虑是网络问题、还是负载太高导致长时间无法连接,又或者什么原因触发了防火墙禁止的相关策略等。精准分析和定位故障原因是非常考验IT运维工程师的技术能力和运维经验的,也是最终解决故障(异常)等系统问题的关键。分析定位到故障的原因后,IT运维工程师的下一步工作就是要按照故障的优先级来解决故障了。
对IT运维工程师来说,总结和归纳问题原因和解决方案是积累运维经验和提升业务能力的重要环节。当运维人员解决完重大故障后,需要对故障原因和解决方案以及未来的防范措施进行总结归纳,避免类似的故障在生产环境中重复出现。“出现问题,解决问题”是一个合格运维工程师的基本职责;对IT系统故障问题的预判和提前做好防范措施及预案却是一个优秀的运维工程师的职责范围。
点击添加图片描述(最多60个字) 编辑
总之,IT运维工程师的核心工作职责就是“运行监控”和“系统维护”,也就是通过日常的运行监控来发现问题,通过系统维护来定位分析问题并解决问题。但是,不出现故障或异常的IT系统是不存在的,及时快速地发现问题、定位问题、解决问题是IT运维工程师的主要日常工作。再进一步,如果能够实现IT系统的优化,提前预判IT系统的潜在问题,并提前做好防范措施以及可能的解决预案,这些将是晋升高级IT运维工程师(或运维架构师)后的核心工作内容。
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【it运维 培训(史爱武)】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态
