以下为演讲实录,用来管理二个极限窗口中运作

2019-07-18 作者:小鱼儿玄机30码姐妹   |   浏览(195)

从科研角度谈“如何实现基于机器学习的智能运维”,科研

      清华大学计算机系副教授 裴丹于运维自动化专场发表了题为《基于机器学习的智能运维》的演讲,现场分享了基于机器学习的智能运维目前面临的挑战和解决思路。以下为演讲实录,今天大概内容包括智能运维背景介绍、如何从基于规则上升到基于学习

      首先会做一个背景的介绍;为什么清华大学的老师做的科研跟运维有那么多关系?智能运维现在已经有一个很清晰的趋势,从基于规则的智能运维自动化逐渐转为基于机器学习了。再介绍几个跟百度的运维部门搜索部门进行合作的案例;最后,还要讲一下挑战与思路。

一、智能运维背景介绍

      谈一下参加这次大会的感受,昨天各位讲师们的报告,特别是今天早上几位讲师的报告特别精彩,讲到了在生产一线过程中遇到的各种挑战以及大家的实践和经验,我们又加了运维的群,对于像我这样在科研领域做运维相关科研的工作者来说,感觉找到了组织。

      介绍一下我的经验,特别是跟海峰老师开场的时候,讲的一个概念是相关的。海峰老师提到说我们做运维很苦,正好我大概在去年这个时候,我在百度的运维部门,讲了一下做运维如何做得更高大上一些,我的题目叫做《我的运维之路》。我们先简单看一下,我个人学术上的官方简历。

      我读了博士,然后在AT&T研究院实习,AT&T研究院前身是贝尔实验室的一部分,这里面大概有200个博士,有C发明者、防火墙之父,当然我其实没有怎么见到过他们,但是办公室是在一起的。之后在里面做了大概6年时间,发了不少论文,得了一些奖,发表了23项运维相关的专利。然后回清华做了不少科研,这是我的官方简历。

      实际上我在做什么事情?我就是一个运维人员。在一个30万人的大公司里面做运维,当然主要是通过大数据分析的方法。我读博期间跟美国各种运维人员打交道了五年;在实习过程中,喜欢上了分析实际的运维数据;真正在那边工作的时候,基本上就是一个第五级的运维,做的事情是基于大数据技术管理网络和应用的性能,各种网络协议、IPTV、Video等等。

      回到清华做科研的时候,开设的也是网络性能管理/应用性能管理相关的课程,所有的科研都是跟运维相关的,在国内有一些合作者,包括百度的运维部门、搜索部门以及中石油数据中心等等。我可以认为自己是一个运维人员,很高兴在这里跟大家分享我们之前的一些经验。

      为什么说运维是可以做得很高大上的事情?这是一个会议叫SIGCOMM,网络里面最顶级的会议,如果计算机网络的事情是像电影一样,这就是奥斯卡,每年大概录用三四十篇论文,录用一篇,就跟中彩票一样。我们看它的Submission,就是这么多,跟我们运维相关的占了40%。

      再看评委会,我只列出了AT&T研究院里面的前实习人员和前员工的一些同事们,基本上现在都到大学里当教授了。所以说运维苦不苦,是不是可以做得更高大上一些,取决于怎么做。

      数据分析机器学习,这是很好的路线。再看评委会,我只列出了AT&T研究院里面的前实习人员和前员工的一些同事们,基本上现在都到大学里当教授了。所以说运维苦不苦,是不是可以做得更高大上一些,取决于怎么做。数据分析、机器学习,这是很好的路线。

      不光是最顶级的会议,我们还有一个专门做运维相关的会议。这个会议,就是这拨人里面,觉得SIGCOMM这个会一年30多篇,实在是收得太少了,我们再开一个会议,全部都是运维相关的,这是一个顶级的会议,是我科研领域一个主要的战场之一。

      铺垫一下,就是说运维是有很多可以钻研的地方,有很多科研问题。

      简单介绍一下我在清华大学的实验室,叫NetMan。我的网络管理实验室做的科研,基本上都是跟NPMAPM运维相关的。我们跟互联网公司做一些合作,主要做运维相关的自动化工作,跟SmoothAPP相关的运维工作,跟清华校园网WiFi做一些网络性能优化的工作。我们做了一个核心的基于云的运维算法平台,具体这些运维的应用,下面都有一个核心的算法,再下面还有一个大数据分析的平台,就是常用的各种开源工具。

      前面所讲的是背景部分。我想要表达的一点,工业界、学术界应该在运维领域里面能够密切合作,各取所需。工业界有很多实际问题,有很多的经验,也有实际的数据,学术界老师们有时间有算法有学生,大家一起结合,这样就会产生很好的效果。

      值得各位运维界同仁们关注的就是学术界的顶级会议,我比较推荐的是上面图中的这些会议,这些会基本上一年三五十篇论文的样子,简单浏览一下,跟大家做得工作是不是相关,浏览一下最新的会议论文集,看看有没有相关的,还是很有帮助的。美国的工业界,像谷歌Facebook都已经在这些会议上发表过一些论文,包括他们在工程上的一些实践。

二、从基于规则到基于学习

      简单介绍一下智能运维大概的历程,基于规则到基于机器学习

      我简单回顾一下,我们这个趋势,不光是说我们这个领域的趋势,整个人工智能领域发展的趋势。人工智能也是经历了起起伏伏,最近又非常火。基本历程,就是从基于专家库规则到逐渐变成机器学习,再到深度学习。

      我讲一下几年前基于专家库规则到机器学习的经历。

      我们在做降维分析的时候,需要一个规则集,什么事件导致另外一个事件,再导致额外顶级的事件,最后倒推回来,什么导致了这个事情。我们当时针对骨干网做的各种事件的关联分析,基本上是基于规则的。当时CDN的性能事件,这个事件导致这个事件,单独对它进行分析,如果这个事件发生,可以通过监测到的各种事件一直推到这儿。当时做出来的时候,起到了很好的效果,发表了论文,审稿评价也很高,也有专利,现在还在非常常规地使用,并且用得很好,效果很好。

      但是这里面有个问题,规则是由运维人员给出来的,为什么能够运行的很好?因为在网络骨干网上面情况不是那么复杂,网络协议一层接一层,事件比较少,所以比较容易把规则弄出来。

      我们跟百度进行合作的时候,发现不是那么好做。因为在互联网公司里面,大家都在讲微服务,模块特别多,规模很大,百度这边一百多个产品线,上万个微服务模块,上万台机器,每天上万个软件更新,想通过人把这些规则表达出来,运行到你的系统里,根本就不行,我们试了一下,很快就碰壁了。

      最后怎么办?我们采用了基于机器学习,把这些规则挖出来。我们在做的过程中不断总结,不断遇到新的问题,实现了基于规则的智能运维过渡到基于机器学习。

      机器学习本身已经有很多年了,有很多成熟的算法。要想把机器学习的应用做成功,要有数据,有标注数据,还要有工具(算法和系统),还要有应用。对于我们运维领域来说,这几点到底是怎么做的?

      第一点,是数据。互联网的应用天然就有海量日志作为特征数据,想各种办法做优化存储。在运行过程中遇到数据不够用还能按需自主生成,这是很好的。

      第二点,是过程反馈。在运维日常工作中还会产生各种标注数据,比如说工单系统,发生一次运维事件之后,具体负责诊断的人员会记录下过程,这个过程会被反馈到系统里面,我们可以从里面学到东西,反过来提升运维水平。

      第三点,就是应用。做出来的系统,我们运维人员就是用户,我们可以设计、部署、使用、并受益于智能运维系统,形成有效闭环。建模、测量、分析、决策、控制,很容易形成一个闭环。我们能够形成闭环,因为我们有这样的优势。

      总结一下,基于机器学习的智能运维具有得天独厚的基础,互联网应用天然有海量日志作为特征数据,运维日常工作本身就是产生标注数据的来源,拥有大量成熟的机器学习算法和开源系统,可以直接用于改善我们的应用,所以我个人有一个预测,智能运维在今后若干年会有飞速的发展(待续)。

      蓦然回首,自开号以来,本号已经创作430 篇文章,自媒体的红海时代已经全然来临(死伤无数),随着百家号、今日头条等知名媒体把推广重点放在娱乐八卦、人体艺术和小视频上之后,技术号生存空间变得更小。本号之所以一直坚持创作,其源动力基本来自几万粉丝精神的支持,如果觉得文章对大家有用,请大家不吝动动手指分享给更多读者(源动力)。也不知道什么时候会停笔,但不到万不得已相信会坚持写下去。

      利用周末时间(一般都是周末),对“Ceph技术架构、生态和特性详细对比分析”进行了第二版刷新,刷新内容包含Ceph架构,故障机制、后端对象存储演进、Ceph跟Glustre FS和华为分布式OceanStor 9000产品对比分析。感兴趣的读者可通过原文链接查看详情。

>>>推荐阅读

  • 从高性能计算(HPC)技术演变解析方案、生态和行业发展趋势

  • 存储性能瓶颈的背后,这篇文章带来的参考价值

  • 分布式、多活数据中心如何实现DNS域名解析和负载均衡

  • 传统企业存储厮杀过后,昨天的战场留下什么值得回忆

温馨提示:
请搜索“ICT_Architect”或“扫一扫”下面二维码关注公众号,获取更多精彩内容。

听说点赞和分享的朋友都已走上人生巅峰了

2010年3月,就在至强7500发布之后,IBM x86服务器紧跟英特尔步伐,旋即推出了eX5系列服务器。IBM 推出 3款具有超级扩展能力的 eX5 系统,包括一款四核处理器服务器——IBM System x3850 X5、一款刀片服务器——BladeCenter HX5,以及一款双处理器服务器——IBM System x3690 X5。

hp电脑开机显示正在准备自动修复,进不了系统,hp不了

HP的机器解决办法:

关机状态下,按电源键开机,立刻连续多次点击F11按键,进入WinRE界面,选择疑难解答→高级选项→启动设置→重启→按4进入安全模式。如果安全模式可以进入,进去之后把最近安装的软件、插件都删除,并且杀毒。再正常重启电脑试试。
       如果安全模式不能进入,或者再重启仍然不能进入系统,建议重置系统,关机状态下,按电源键开机,立刻连续多次点击F11按键,进入WinRE界面,选择“疑难解答”→“重置此电脑”→“保留我的文件”。
       如果重置失败,使用HP Recovery Manager(恢复管理器)恢复系统到出厂状态:关机状态下,按电源键开机,立刻连续多次点击ESC,看到 F1、F2、F9、F10菜单后,按F11进入WinRE界面,选择疑难解答→Recovery Manager(恢复管理器)→左侧的系统恢复→恢复而不备份您的文件→下一步。恢复系统的时间与硬件配置有关系,快则1~2个小时,慢则4~5个小时,恢复过程中请不要插额外的硬件,建议不要联网。恢复完成后再联网。
如果 Recovery Manager(恢复管理器) 左侧的系统恢复无法使用,或者F11 WinRE界面无法进入,可以在能上网的电脑上。在5分享下载系统镜像,做个U盘启动,重新安装笔记本比较快,C盘文件也丢不了。

别的机器,比如联想,dell出现以上故障解决办法如下:


出现这样状况说明系统文件遭到了破坏,导致系统不完整,所以开机系统就会自动尝试修复,而无法修复就说明系统文件遭到了不可逆的损坏。基本上有三个原因:

第一种是最后一次正确使用电脑的时候误删除或者破坏了一些系统文件。

第二种是因为安装的软件或者插件跟系统兼容性不行,发生冲突。

第三种可能是中病毒导致系统出故障。

针对第二种和第三种情况,可以开机立刻按F8(是开机立刻就按,多按几次就能进入,如果这样都不行就直接看第三步),选择“最后一次正确配置”即可进入电脑。如果不可以就开机按F8,选择“安全模式”,进去之后把最近安装的软件、插件都删除,并且杀毒。 
对于第一种情况,如果知道是什么文件被删除,可以下载对应缺少的文件,然后按第二步操作进入“安全模式”,把缺少的文件补进去即可;如果不知道是什么系统文件被删除,就只能重新安装系统即可。

windows10下载地址:  www.5sharing.com/android/windows/25.html

欢迎关注公众号【5分享】(fivsha)。提供故障解决技术支持。
                                 

效率为王:终端管理工具 Tmux,为王tmux

本文来自作者 woosley 在 GitChat 上分享 「效率为王:终端管理工具 Tmux」,「阅读原文」查看交流实录。

「文末高能」

编辑 | 哈比

一、IBM eX5架构服务器的优势

简介

Tmux 是一款非常实用的终端复用器,用来管理一个终端窗口中运行的多个终端会话。它通过会话,窗口,面板的形式高效且有序的管理你所有的工作终端。

此外,它还可以通过将终端会话置于后台运行,在需要时按需接入,以及将会话共享给其他人,是远程办公和结对编程的利器。无论是前端还是后端开发工程师,运维人员,都值得将其加入个人的日常工具列表。

IBM 独有的硅创新使 eX5系统的处理器,能够非常迅速的访问扩展内存,从而提供最大的内存容量。eX5 是IBM 推出的第五代企业级X架构芯片,凭借数十年的集成微电子学方面的经验,创造出的硅解决方案。

安装

在 MacOs 下,安装 tmux 非常简单,使用 homebrew 便可以安装最新的版本:

brew install tmux

对于 Linux,大部分发行版都有打包 tmux,可以通过包管理器安装,比如在 Ubuntu 下,可以使用 apt 安装。

apt install tmux

在 windows 下想使用 tmux 有两种方法:

  • window10 加入了 linux 子系统的功能,用户可以在 windows 下使用 Ubuntu linux。安装 tmux 的方法和原生 Ubuntu 完全一样;

  • 对于 windows7 以及更加古老的版本,个人推荐使用 Cygwin,这是一个在 windows 下模拟 linux 的工具,提供了大部分 *nix 软件的安装,里面就包括了 tmux。

IBM 的独立内存扩展技术,即 MAX5 能够提供比今天业界产品多6倍的内存,允许用户在相同软件许可成本下多运行82% 的“虚拟服务器”,并且大幅降低中间件和应用开支。用户使用 eX5 运行一个微软数据库可以节省 50% 的软件许可费用。

初次使用

初次使用 tmux,只需要在终端下面键入命令:

tmux

默认情况下会启动一个新的会话(session)。这时候窗口显示如下:

可以看到 Tmux 在默认终端上面启动了一个新的界面。包括原来的 shell 窗口和下方的状态栏。

状态栏显示了当前 tmux session 的基本信息。

  • [0] 代表当前 session 的名字;

  • 0:bash 代表当天 session 的第一个窗口,名字为 bash;

  • 其他部分为当前主机名,以及当前时间。

作为一款基于终端的工具,tmux 所有的操作都使用键盘快捷键来进行,熟悉了 tmux 的快捷键之后,我们可以把自己的双手从鼠标完全解放出来,对提高工作生产力有极大的作用。

tmux 的快捷键使用 Prefix key 的形式。如果使用过 Gnu screen,那么对这种模式应该很熟悉,不同的是,Gnu screen 默认的 prefix 是 ctrl a,而 tmux 的默认快捷键是 ctrl b,按键方法为同时按下 ctrl 键 和 b 键。这个组合是可以定制的,在本文中,我们用 prefix 来代表这个按键组合。

现在我们可以使用快捷键创建一个新的窗口,按下 prefix c(同时按下 Ctrl

  • b,放开,然后按下 c)。

效果如下图所示:

此时整个窗口没有太大的变化,只是下面的状态栏多了一个 1:bash,表示当前启动了两个窗口。

现在可以试着按下 prefix n,看 tmux 如何在不同的窗口间转跳。

以往eX5架构多用在四路以上的产品中,不过eX5架构已经开始下移,包括刀片服务器和双路机架产品也开始采用。全新的eX5系统的突破还体现在针对 x86 工作负载而改进的性能、成本和灵活性。

服务器和会话

tmux 本质上可以说是一个服务器,当 tmux 命令运行的时候,后台运行了一个 tmux 服务,并启动一个会话,会话和服务器之间通过 Unix socket 来通信。

默认情况下启动的 tmux 会话通过数字命名,比如第一个会话为 0。可以通过:

tmux new -s session_name

来创建一个命名的 tmux 会话,比如tmux new -s test。启动会话之后,tmux 自动连接到此会话之上。我们可以脱离会话,这样可以将会话里面运行的任务置于后台,在需要的时候重新连接。

脱离会话的快捷键为 prefix d,脱离会话之后系统回到之前的终端。用这种方法,我们可以方便在在远程主机上启动一个长期运行的 tmux 会话,运行我们想长期运行的程序。我们可以用 tmux ls查看当前所有创建的 session,比如:

tmux ls learn: 1 windows (created Sun Dec 17 21:03:20 2017) [80x24] test: 1 windows (created Sun Dec 17 20:59:44 2017) [80x24]

这里我创建了两个 tmux 会话,名字分别为 testlearn

重新连接 tmux 的命名为tmux attach。在没有任何参数的情况下默认连接最新创建的会话。可以添加参数-t $name,连接名字为$name的 tmux 会话。比如tmux a -t learn。同时这里显示了一个 tmux 的小技巧,很多 tmux 的命令可以缩写,这里将 attach 缩写成为了 a。

在 tmux session 里面,可以通过 prefix s选择并快速切换 tmux 会话,如下图所示。tmux 会弹出一个会话的选择列表,可以通过方向键选择我们想打开的会话。

如果在创建了会话之后想重命名当前会话,可以使用prefix $,在底部弹出的输入框里面输入想要的名字即可。这里也可以使用 tmux 的命令模式。按下prefix :,在输入框里输入:rename-session new-session(支持 tab 补全),便可以重命名当前的会话。

注意当服务器重启之后,tmux 的会话信息会丢失。要持久化保存 tmux 会话信息,在本文的 tmux 插件部分会介绍一款简单易用的插件  tmux-resurrect

eXFlash:IBM 独有的下一代闪存技术,用以取代陈旧、不稳定的存储设备。通过替换数百个硬盘和数千条线缆,使存储成本大幅下降达97%;

窗口

之前我们演示了如何创建新的窗口,并使用prefix n,表示选择下一个窗口。

在不同窗口之间移动,除了 prefix n之外,还可以用数字键,选择第 N 个窗口,注意 tmux 中窗口的序号是从 0 开始,因此prefix 1表示选择第二个窗口。prefix p表示转跳到前一个窗口。

我们还可以使用快捷键prefix w来弹出一个虚拟的窗口列表,然后使用方向键来选择所需要打开的窗口。

使用prefix ,可以用来重命名当前的窗口,对应的命令模式为rename-window

键入 exit,会退出当前窗口,但是有的时候窗口可能会卡死,此时我们可以使用prefix &,在输入确认之后,强制杀死当前窗口。

FlexNode:能够提供物理分区能力,使 1台系统能够转化成截然不同的 2台系统,并且也可以从 2台系统变成 1台。这将允许用户在同一系统上白天运行基础架构应用,夜间进行批处理作业,从而带来卓越的资产利用率

面板

窗口可以分割为更小的面板,配合大屏显示器使用,非常有黑客的感觉。首先我们使用:

tmux new -s pane

创建一个新的 session,然后键入prefix %,然后键入prefix ",可以得到如下这样一个被分割的窗口:

当前光标所在的面板被高亮了出来。 我们可以继续键入prefix %prefix "查看继续分割面板的效果。要在不同的面板之间转跳,使用快捷键prefix o。如果要想上下左右的移动到不同的面板,使用快捷键prefix 方向键

在默认情况下,tmux 平均分割一个面板。我们可以通过prefix ctrl 方向键来调整面板的大小。

有的时候我们可能需要将一个面板放大,占满整个窗口。我们可以使用prefix !,将面板转化为一个新的窗口;或者也可以使用prefix z,使当前面板最大化为窗口,并暂时隐藏其他的面板。

强制退出一个面板的快捷键为prefix x

本文由小鱼儿玄机30码发布于小鱼儿玄机30码姐妹,转载请注明出处:以下为演讲实录,用来管理二个极限窗口中运作

关键词: 小鱼儿玄机30码