一文细说证券基金行业运维的那些事儿

2,707 阅读18分钟
原文链接: mp.weixin.qq.com

自2016年金融科技元年以来,证券基金行业智能客服、智能交易、智能投研等等各类智能场景、智能概念层出不穷,似乎一时间,整个行业已进入高大上的智能时代。

作者看来,这其中确实有真正解决行业痛点的应用,但也有不少好高骛远、盲目追逐热点的行为。

在此,作者概括梳理、尝试分析行业常见智能XX,抛砖引玉,希望能给证券基金行业及信息技术服务机构在金融科技应用风口带来些许启示。

初步打算分以下几个专题论述:

  • 智能运维—一个容易忽视的场景;

  • 智能客服—一个容易越界的场景;

  • 智能投教—一个容易低估的场景;

  • 智能交易—一个追求极致的场景;

  • 智能投研—一个充满挑战的场景;

  • 智能投顾—一个在路上的场景;

  • 智能理财—一个充满美好的愿景。

今天来聊聊智能运维—一个被忽视的场景,尽量用通俗的人话去表述。

一、行业典型运维场景举例

开始之前先声明,系统开发、系统测试、项目管理等等工作也各有各的辛苦(未来会捎带介绍),只是本文在讲智能运维,所以本章只介绍运维人员的辛酸泪。

系统运维方面,证券行业比基金行业系统种类多、实时性要求高,总体复杂的多。

运维的道理相通,作者在此主要以证券行业典型运维场景为例展开描述。

【开市前】紧张状态。早上八点前到岗,负责基础设施的童鞋需要对主机房、灾备机房(两地三中心协同作战)进行硬件及环境的巡检。

负责系统维护的童鞋需要重启交易所、登记公司、深证通等等连接各市场核心机构的各类网关(Ezstep、Eztrans、FDEP、D-Com、Prop……)、各类业务系统、中间件、小站,清库,下载并装载各类行情信息,接收核心机构各类参数、行情等数据,完成系统初始化等等一系列操作。

其中很多操作都有明确的先后顺序、衔接要求及时间限制,一般来讲,9:15前各类主要业务系统需要基本就绪。

【开市期间】高度紧张状态。监控机房、系统运行状况、巡检各个业务系统(除极端情况,此时机房一般不让随便入内)、协助客户经理及时解决客户常见问题,协助业务部门解决各类业务系统问题,做好各类系统应急准备。

有的还需要协助业务部门监控各类异常交易行为。然后内心祈祷,悬着心静悄悄等待顺利闭市。

【闭市后】高度紧张的状态终于过去了。此时需要关注交易管理部、证金部、自营部等部门使用的系统,保证按时生成日间交易各类报表;然后接收、处理交易所、结算公司等市场核心机构发来的各类清算文件,辅助结算部完成各类清算交收工作或提供技术支持。

之后向各监管主体报送各类数据(有的机构是其他部门报送),进行当日数据备份操作等等。等所有业务部门的系统操作都结束了,运维人员还要进行一系列将系统初始化到 T+1日状态以及夜间跑批的操作,然后静悄悄等下班。

偶尔遇到某家核心机构晚发数据,或某条业务数据异常,搞个通宵也不足为奇。

【最尴尬的假期】一方面,国内市场核心机构较多,免不了哪家升级或改造系统,但行业特性及系统部署文化决定了该类升级改造大概率放在周末或假期开展,这也需要所有经营机构配合一起联测。

另一方面,经营机构自身几十个甚至几百个系统总免不了有升级改造及其他关键系统变更需求,该类工作基本也会放在假期,于是乎运维人员每年的假期也基本泡汤了,大的证券公司有调休机制还可灵活应对,小的券商人力不足,辛苦之处可想而知。

此外,假期可能会比平时更辛苦,因为测试往往基于生产系统,这就多了一个测试后要恢复系统和验证系统的工作(忆往昔,多少家经营机构因为假期测试后系统恢复不到位,而影响了下一个交易日的交易)。

【委屈的平时】外界看运维、开发、项目建设等工作,类似运动会看马拉松、100米赛跑、赛艇等,运维对很多人来讲是单调乏味的。

每到写工作总结,总会有些尴尬,别的部门长篇大论,而运维很多工作都是做了1次,但重复了N次,有种“活了1天,但重复了364次”的感慨。另外,万一遇到不懂行或不理解的领导,工作更是难以开展,下面的一段对话也映射了运维的无奈:

某证券公司负责人A,T日感慨:“系统这大半年也没啥动静,运维的几十号人都在干吗啊?” ,T+N日,系统发生故障,A再次感慨:“系统都搞不定,养这帮运维人何用?”。

总之,该类领导完全没有意识到运维人员的价值。当然运维人员也应该加强主动与领导、同事的交流。

其实,真若 A 所认为那样,医院、120、999、体检中心就真的没有必要存在了,只要产房就可以了。

此外,需要指出的是,经营机构最懂业务流程细节和盲点的往往是资深的业务系统运维或支持人员(组织架构不同,有证券公司也会将这帮人放在业务部门,类似 SA 角色)。

二、运维的重要性

大家都知道运维很重要,你或你的团队有没有好好想想重要性到底在哪?作者认为,运维的重要性主要通过故障后的影响去体现,具体影响至少有以下几点:

一是客户影响。系统中断,业务连续性受到影响,影响客户交易,甚至失去客户。

二是声誉影响。较大的系统故障,会影响公司的声誉,声誉是有价值的。

三是综合经营影响。这应该是最重要的影响因子,也是证券基金行业系统运维的重要特性。

根据《证券期货业信息安全事件报告与调查处理办法》(证监会公告[2012]46号,简称《46号公告》),将信息安全事件分为特别重大事件、重大事件、较大事件、一般事件四类

根据证监会网站发布的《证券公司分类监管规定(2017修订)》,证券公司风险管理能力评价指标与标准。主要包括资本充足、公司治理与合规管理、全面风险管理、信息系统安全、客户权益保护、信息披露等6类。

其中信息系统安全主要包括 IT 治理完善,信息系统管理机制独立有效;信息系统功能齐备,有效满足客户委托、交易、清算、开户、查询等需求,客户电子资料等信息安全;信息系统安全稳定运行,能够避免频繁信息安全事故或重大事故;信息系统应急预案有效,能够及时应对信息安全事故等四类。

一次较大信息安全事件就有可能影响公司的分类级别,进而影响投资者保护基金的缴纳金额,还可能影响新业务资质的申请,银行贷款授信、券商债券业务、投保基金上交额、新业务申请、股票质押等现有业务展业、并且面临更严格的合规检查。

从下图可见,分类级别的确对券商投资者保护基金的缴纳有较大影响。根据2013年证监会相关通知,保护基金规模在200亿以上时,AAA、AA、A、BBB、BB、B、CCC、CC、C、D等10级证券公司,分别按照其营业收入的0.5%、0.75%、1%、1.5%、1.75%、2%、2.5%、2.75%、3%、3.5%的比例缴纳保护基金,两头是7倍关系。

综上,行业所有业务均是通过系统开展的,运维是经营机构所有IT工作的重中之重,是那个所谓的1,忽视运维的其他IT活动就是刀口舔血,运维之所以容易被忽视,因为平时大家感觉不到他的存在,一旦感觉到,也就出问题了,这也类似于人体的健康,健康的人都是感觉不到五脏六腑的存在,某天你感觉到他存在,大概率就有问题了。

三、 运维的复杂性

行业系统运维的复杂度由内外因共同决定。内因方面,由于行业主要业务都是在获取牌照或获批后才展业,任何一类业务推出留给经营机构系统准备的时间较短,经营机构为快速展业、信息技术服务机构为快速卖系统,从而导致证券基金经营机构的信息系统建设,基本是投产后再规划,缺少统一规划、全局考虑。也使得整个行业系统凸显两个特点,

一是种类繁多,比如一个PB类业务,不少经营机构都有3套系统;一个CRM类系统,不少经营机构基本都有N套……;

二是每个系统都不大,除了存放历史数据的历史库,与互联网等行业系统比,整体架构不并复杂,数据量上也较小。

外因方面,经营机构要开展业务,需要对接的市场核心机构系统很多,比如沪深交易所、中国结算、中国结算北上广深分部、中证金融、股转、深证通、上证通……。

内外因结合,就使得运维非常繁杂。举例来讲,如果明细到每步点击鼠标的具体操作,每天早上操作几百步、几千步都很正常。加上行业对系统错误零容忍的文化,行业系统运维工作可以说是极其考验一个人的耐心、细心、专心,且需要一个极能对抗枯燥的心。

四、行业运维经历

作者看来,运维主要经历了以下几个阶段,但行业运维目前整体还处在第三个阶段。

第一阶段,即纯手工。行业发展初期,或机构展业初期,系统较少,全靠人力;

第二阶段,即借力脚本。随着系统增多,聪明的运维人员开始自己写脚本代替部分人力;

第三阶段,即自动化运维。再往后,系统越来越多,脚本越来越多,不小心点错脚本的操作也时有发生,于是乎有人将这些脚本系统化,再丰富些功能,也即自动化运维。

自动化运维加上实时监控系统组合大大节省了人力、大幅度降低了人工操作风险,体现了金融科技是行业第一生产力的效能。

自动化运维市场,目前代表的厂商和产品有:神州信息ServiceJetiAuto平台、金证股份KC-AOM自动化运维系统等等。

对于较大体量的经营机构,常常基于国际行业最佳实践ITIL来规范、构建IT服务流程。

越来越自动化、规范化的运维,给黑暗的运维世界带来了一盏明灯,目前绝大多数经营机构(券商)采用了自动化运维。

第四阶段,即 DevOps 阶段。在此之前,开发与运维完全隔离,也导致彼此的对立和矛盾,开发希望快速上线,运维希望上线前多发现些雷,矛盾的KPI考核内容是的开发运维扯皮的事真的不少。

为了团结开发运维以及其他相关主体,共同建设运维系统,于是引入了DevOps概念。需要说明的是,目前行业开发和运维一般是分离的,除非特殊情况,开发人员一般不允许在交易期间进入运维区域。

第五阶段,即智能运维(算法运维,AIOps,Algorithmic IT Operations)阶段。在2016年9月Gartner首次定义了AIOps,即“通过机器学习等人工智能算法,自动从海量的运维数据中学习并总结规律,甚至做出决策的运维方式”。

五、智能运维的可行性分析

公开资料显示,目前证券行业中,银河证券、中投证券在智能运维有一定尝试。作者认为行业智能运维大有可为,主要原因如下:

一是行业缺少故障分析工具。行业发生信息安全事件,故障处置的时间几乎决定了该事件最终的定性,是一般事件、较大事件还是重大事件。

故障处置时间窗口很小,时间及其珍贵,智能化运维能够帮助我们快速定位问题、发现问题根源、并给出决策性建议。

经验丰富的运维人员都知道,经常会出现一些不知什么原因的故障(或可疑故障),有时候重启应用或服务器就好了,但当问及根本原因时,很少说的清,主要是探究根源的成本太高或问题难以重现。

作者看来,行业故障处置,几乎90%以上的时间花在了问题定位和决策上,通过智能运维可以大幅削减这些时间,降低信息安全事件的成本。

二是行业缺少提前预测故障的工具。作者看来,很多信息安全事件是由于工作不够细致或硬件、软硬结合的盲区导致,如果能基于所有系统、中间件、数据库、磁盘、机房温湿度等等历史日志和故障案例的海量数据,借助机器学习算法、知识图谱,提前去预测故障,将会变得非常有价值;

三是行业运维工作需要更加精细化。当前行业还在不断发展,新应用系统层出不穷,且系统之间的耦合度逐渐增加,系统小且分散的普遍现象将长期存在,自动化运维代替了人工操作,监控系统可以适时反映系统正常与否的状态;一年下来,没有信息安全事件就是运维人员最大的功绩,但有个问题你是否考虑过:你每年200多天的运维,系统状态值都一样麽?

如果不发生信息安全事件定义为60分,公司系统整体状态在每一天是都是90分、100分麽?状态曲线如何?有哪些潜在的风险点正在悄然来临?这是自动化与监控无法回答,而智能运维可以。

四是智能运维是金融科技应用落地的极佳场景。智能基于数据,数据都是由系统产生,系统都有程序产生,程序规则固定,格式固定,也即主数据、元数据固定,利于借助自然语言处理技术(NLP)对各类日志数据进行处理。

智能运维依赖的数据基础至少包括:机房各类环境日志比如温度、湿度等,系统日志及运行日志(包括操作系统、数据库、中间件等)、各类操作日志等,累计的数据量很大,还有更重要的是案例库,不管是行业的案例库还是公司历年来的,可以利用机器学习、人工智能各类算法建模分析。

事前提前发现系统潜在风险;事中精准定位问题根源;事后自动生成报告,给出改进意见,形成运维的闭环。

五是相关岗位自我价值的率先体现。当前很多经营机构都有大数据、人工智能等高达上的技术岗位,如果连技术部吃饭的,且非常适合AI落地的智能化工作都不去思考、不愿意搞或搞不好,又凭什么让公司高层认为你有能力做好、完成其他业务领域智能化的工作呢?

当然,智能运维推进也确实面临挑战。一是公司投入问题,智能运维表面上是存粹的成本项目,需要更大努力去说服公司领导,获得支持。二是需要其他开发商配合问题,各类软件日志的获取和分析需要其他开发商开放权限或提供支持,也较有挑战。

六、智能运维的推进

(一)推进智能运维的原则

智能运维推进要遵循的原则首先是安全为先,证券基金行业的特殊性,决定了基于生产系统的各类操作要非常审慎,智能运维所有与操作相关的功能都要经过反复的测试和雕琢。

其次是循序渐进,智能运维是运维的理想国,不可能一步就位,不要在一开始就试图自动化决策,在关键操作点,初期的智能运维最好仅限于提供决策建议、问题定位和预测。

最后是切记盲从,智能运维是经营机构运维复杂度相适应后才进行的动作,多数经营机构系统数量、复杂度还可控,传统的自动化运维就可以搞定,无需牛刀杀鸡。

(二)推进智能运维的思路

一方面,智能运维目前往往适合IT基础相对扎实的经营机构,当然经营机构也可以借助IT服务商力量;另一方面,市场中立的核心机构也可以通过收集各类系统日志,案例库,针对全市场经营机构提供更全面的智能运维服务(预测、故障快速定位、决策建议、异常报警聚合等等服务)。

智能运维当前主要解决的问至少题包括:故障风险预测、报警日志聚合、故障处置决策支持等,处理的日志多是文本类型。会用到聚类树、决策树、随机森林、支持向量机回归等算法,以及NLP等人工智能技术分析文本数据、构建知识库等。

七、作者的建议(精华)

根据作者的经验,当前行业运维尤其需要注意以下三点:

一是记住故障期间的报告。运维除了日常操作、应急外,还有一个及其容易被忽视的地方,即发生信息安全时间后的报告机制和流程,哪些要报、哪些不要报,报给谁、如何报等等要搞清楚,最好做进系统,避免因漏报、瞒报带来的行政监管措施处罚;

二是不要过度依赖自动化运维。自动化运维阶段不是不需要任何手工操作。当运维适应、习惯了自动化运维时,系统一旦出现故障,长期不手工操作,往往会出现手脚错乱的情况,有甚者,造成二次故障的情况也时有发生。

对此,作者建议,在假期测试或特定时期,有选择性的进行手工操作,也是很有必要的;

三是重视基础。当前行业整体信息技术基础参差不齐,多数较弱。当然,做好运维就是基础中的基础。

与其每天夸夸谈智能XX,不如多想想如何夯实信息技术基础、做好信息化基础工作、厘清金融科技时代的业务合规边界。

千疮百孔的技术基础上构建的智能XX短期交个差问题不大,但在未来经营机构必将会为此付出连本带息(高利贷)甚至更高的代价。

有些债我们可以晚还,但不能不还,技术债就是其中之一。

注:本文经公众号金融科技之道授权转载,公众号 ID:by_csfcaolei