?? 阿里云计算研究员陈波(TechWeb配图) 【TechWeb报道】12月4日,由阿里巴巴集团、阿里云计算以及phpwind三方联合主办的第二届中国地方与行业网站峰会将今在杭州海外海国际会展中心隆重举行。本届峰会以“创新融合发展”为主题,有来自全国各地的2500多名互联网从业人士、媒体和专家参与此次大会。 以下是分会场“无线应用与技术创新专场”阿里云计算研究员陈波演讲实录: 大家下午好,我觉得你们能够选择这么一个分会场,我们讲有点高科技,“无线应用与技术创新论坛”,你们是一群很有品位的人、很有理想的人。 我相信今天下午就算我们在讲很技术的东西,也不会让大家感觉很枯燥,因为我们在台下有这样一群很高尚的人、很伟大的人,你们是一群脱离了低级趣味的人。 咱们技术创新,大家都有一些技术信仰,脑子里都有对新科技追求、对未来新事物探索的理念。信仰呢,你要信自由民主,那很危险,搞不定成吴×波了,如果信宗教,也很危险,搞不定成为了。我们还是信安全一点的,信高科技,我们谈互联网前沿技术。 昨天我跟我女朋友说,我上火了,要去医院或者买点苦瓜下火,我女朋友说还是去医院吧,苦瓜八块钱一斤,所以我们现在生活在一个水深火热的世界里,不过请大家放心,只要有统计局存在,我们人民还是幸福的。 今天来了很多阿里巴巴以及行业内重量级人物跟大家一起分享,基本上是研究员级别,研究员级别就是比科学家稍差一点点,研究员通俗来说就是没有烟、没有酒,不干活那种,研究员有陈波、吴翰清、陈华、王云峰,另外隆重介绍一下万网副总裁范春莹先生。 各位研究员们,各位从五湖四海过来的朋友们,各位互联网创业者们下午好!今天第一个要请出的是陈波研究员为大家分享。 陈波: 我介绍一下,我叫陈波,来自阿里巴巴云计算,我在负责阿里巴巴弹性平台项目,首先介绍一下什么叫做弹性计算,之前我们在构思平台名字的时候,大家取了很有趣的名字,后来大家达成共识,“弹性计算”,这四个字可以准确表示我们平台的重要作用,我们先从一个案例开始,Zynga有多少人知道,在座都是互联网行业的,大家应该知道开心农场的应用,这个开心农场游戏可以说在中国游戏界是一个奇迹,引领世界潮流。 大家知道中国是一个山寨国家,国外有什么好东西,中国就能在很短的时间内山寨出来,而且可能做得更好一些,Zynga这个跟我们恰恰相反,他们是国外的山寨企业,当五分钟推出开心农场游戏,在上面运行的很好时,Zynga也推出他们的开心农场山寨版,并且在国外的SNS社区达到NumberOne,Zynga第一次在开心农场推出游戏的时候,只有几十台服务器,他们没有想到有这么多人同时玩他们的游戏,他们的服务器短时间之内从几十台涨到几千台,很快他们的运维吃不消了。这时候有一家国外有名的帮助他们解决困境,那就是亚马逊,在云计算行业,亚马逊是鼎鼎有名的,可以说是这个行业的领先者,Zynga把他的产品运营完全交给亚马逊,他后续开发出任何一个游戏首先是放在亚马逊的平台上面,无论游戏用一台机器还是用一千台机器,Zynga不用关心底层运维,不需要像以前一样烦恼机房、带宽,他们根据业务上的预测,向亚马逊按需购买带宽、服务器、CPU内存费用就行。 对于我们将来的互联网开发者来说,Zynga的开放模式代表将来的趋势,我们在互联网上开发的应用有很大的不确定性,你在开发游戏和SNS的时候,你无法预知后来,怎么样去解决技术上的问题,我们不能花80%精力花在底层架构和服务其运维上面,这时候需要云计算技术帮助各位站长解决这类技术问题。 刚才说到这些云计算核心思想,其实就是说按照客户需要,按需把资源分配给客户,这些资源包括了CPU、内存、网络带宽,要实现资源弹性分配,那么必定要有一个统一管理者,他们要把所有ITC资源管理起来,才能接受客户申请,做出一个决策,到底要给客户分配哪些资源,分配在哪些地方,就需要有一个中心决策点,资源统一管理给这个云计算平台带来了很大的挑战性,首先是一个规模和效率的问题,当你的程序要管理一百台机器的时候很芭奇,当你要管理上万台机器的时候,你的技术架构到底能不能支撑这么大的应用,这是一个很大的问题。 第二个是系统安全,像亚马逊的EC2,跑着几十万虚拟机,很多网站都把全部身家放上面,亚马逊如何让客户信任他的平台,我的数据放在这个平台,怎样避免偷窃或者怎样避免网络攻击,系统安全是云计算非常重要的方面。 第三个是资源限制,当ABCD共享一个物理地址的时候,怎么样避免一个用户对资源无限制使用,避免干扰其他用户正常使用,这只是我们列出来比较大的点,当你要构建一个非常大的弹性计算平台,统一调度分配计算资源的时候,你会发现碰到大大小小很多问题。 “飞天”是阿里巴巴云计算正在做的分布式操作系统,大家知道操作系统是在一台物理机上面存储资源、计算资源、网络资源,分布式操作特点是分布式的,它管理不是一个机器,而是一个集群或者说一个机房,飞天把网络资源统一管理起来。首先是一个统一调度,一个集群资源需要统一分配,就需要一个代码,这里我们取了一个名字叫“伏羲”,它会请求资源,他资源分配出去以后,客户在运行当中遇到什么问题,有没有峰值、有没有低谷,这是监控要做的事情。 底下的四个模块,网络通信、运营服务和消息格式、安全,这是上层服务的一个基础,这里重点讲一下飞天分布式系统最重要的基础服务,就是存储服务,存储服务是将一个机群所有硬盘管理起来,在这个硬盘上面实现大块数据高速可读性,机械硬盘随机访问和连续访问,它的访问效率呈十倍和上百倍下降,如果我们能够把随机访问都改成顺序访问的话,有可能你的系统不需要在硬件上做什么额外投入,但是IO性能会得到几十倍或者上百倍提升。 但是对于大多数应用来说,更多面对的是一个小块数据的存取,怎样解决这样一个矛盾,一个底层架构只能满足大块数据读写性能,但是我们应用又面临着绝大部分场景对小块数据进行读写,比如数据库里面查出来几十K,但是大块数据需要上下64兆,怎样解决这个矛盾,引入中间一层,就是结构化数据存储,在中间做了一些请求分发,然后Cash工作,大块存储和最终应用访问特性做了一个平衡。 在此之上,有两个非常重要的应用,一个是累SQL的应用,在这么大的数据量下做数据分析,你没有一个很强的任务调动系统的话,那SQL服务就起到这么一个作用,SQL系统在阿里巴巴集团内部得到很大的应用,机群都是上百台机器。 接下来虚拟机服务是重点跟大家介绍的,也是我们阿里巴巴弹性计算平台的一个主要业务。 在这里先跟大家把几个概念明确一下,虚拟机跟我们之前的虚拟主机跟VPS有什么差异,虚拟主机大家都清楚,很多站长在开始建立网站,在不知名的网站购买共享目录,把文件传上去就行,但是这样一种方式有很大的限制,当你的网站容量上来的时候,发现这种虚拟主机机制很难保证它的性能,虚拟主机内部可能有两三百个用户甚至上千个用户共享一台资源,但一个用户耗光的时候,其他用户都会受到影响。VPS跟虚拟主机类似的技术,一台机器,有一个供应商能够把虚拟主机跑上千个VPS,那么跟其他用户的资源问题很难解决,所以现在才有这样一个虚拟化技术,虚拟化技术是云计算很大的趋势,虚拟机在这里有几个非常巨大的优势,相对于我们刚才说的VPS和虚拟主机它的优势体现在哪,首先是一个硬件层面支持的虚拟化,因特尔AND推出的CPU、网卡、CPI插槽,芭奇站群商城 http://shop.bakii.cn全部支持虚拟化技术,最早期的虚拟化技术都是软件实现,也就是你在虚拟机内部的运行程序都是需要通过软件翻译才能到达硬件层面,可想而知性能非常差,狂耗内存,性能也是特别差,跑起来特别糟糕,但是在服务端的虚拟化,我们可以通过硬件来解决这个问题。 CPU里面的VTX,还有网卡上面的RUSV,可以直接调用硬件功能,然后可以让虚拟机性能达到跟物理机差不多级别,还有一个很大的特性,刚才说到虚拟主机跟VPS的巨大缺陷,CPU无法独立的,但是虚拟机里面完全没有这个问题,我分给你两G内存,谁也抢不走,保证你的使用,假设一台物理机上面跑两个虚拟机的话,其中一个虚拟机受攻击,崩溃了,完全影响不了你的虚拟机。 刚才说了系统安全就是其中一块,虚拟化技术可以保证物理资源安全,我们还可以在网络方面确保网站安全性,据因特尔统计,现在硬件发展速度非常恐怖,五年前的20台服务器计算能力,只相当于现在一台服务器,在我们的弹性计算平台上面,我们管理的资源单位不再是一个物理机了,物理机可能是48G内存或者96G内存,这么高的配置,一般用户用不了这么高的资源,我们通过虚拟化技术,将资源以虚拟机单位管理起来,虚拟机内部还有虚拟CPU、内存、网卡或者是硬盘。目前我们能够支持的虚拟化操作系统涵盖绝大部分网站操作系统,windows、Linux等都是我们在这个平台上可以支持的。 刚才说到我们的资源都是按需分配、按需调度,很容易实现低配虚拟机到高配虚拟机升级,原来是一个内核虚拟机,2G内存,我可以在五秒钟之内,通过API调用,很快实现到四核或者4G内存的升级。 其实我也是一名站长,做了三年网站,这里面我最担心的事情,应该说是台下很多站长比较担心的事情,就是网站数据的安全性,现在我的网站已经运行两年半了,那么我现在最担心的一点,这台服务器硬盘什么时候损坏,虽然我的网站只有三万注册用户,不像外面网站动不动几十万注册用户,但是这个网站也凝聚我三年的心血,如果这个网站硬盘坏掉的话,对我来说是一个巨大灾难,我们这个云计算平台最大的一个特性,可以保证放在我们云计算平台内部的虚拟机硬盘数据完全可靠,即使我们机房发生火灾,我们保证数据永不丢失,它的技术实现主要是基于现在的分布式存储。 我们在虚拟机层面实现了一个虚拟磁盘技术,这个虚拟磁盘原理是什么,就是你往磁盘写一份数据,虚拟磁盘是复制三份到不同地址,这三份必定是在不同三个交换机下面,将来我们还会将不同数据分布到不同地域,比如北京有两份,杭州有一份,可以确保站长放在我们平台上的数据安全性。 还有一个很有趣的事情,就是快照,照片大家都见过,在我们成长过程中,当你到某一天的时候,你发现你的网站被人攻陷了,那你前几天拍过照,通过平台API,你可以在几十秒钟之内可以回到昨天前天或者一个月之前的状态,这是几十秒钟的开销。 三年前我有一个很沉重的教训,当时在一个品质不太好的IDC那里购买一台服务器,这台服务器运行一段时间之后,主板坏掉,我为了恢复这个网站,花了大概一两天时间,东奔西跑,如果当初有这么一个虚拟机技术,有可能我只需要在我的页面上点击,回归到昨天或者前天的状态,我的数据完全找回来了。 数据安全性以及现在的数据快照对个人站长非常重要,个人站长一般没有技术能力完全确保数据安全,如果这个任务交给弹性计算平台,你不用任何额外付出。 数据安全性是通过分布式存储实现,有了中心的分布式存储机制之后,我们要实现虚拟机快速恢复就很芭奇,虚拟机只是在一个物理机里面,在这个壳里面运行,当这个壳坏掉以后,CPU硬盘、主板坏掉以后,我的弹性计算平台只要通过一个API调用,让这个虚拟机在另外一个壳,另外一台物理机跑起来就可以了,这个数据是从底层的分布式储存实现,我们可以做到几秒级别恢复。 弹性计算平台很重要一点就是系统安全,我们让很多客户把很多东西放到我们平台,这些用户之间会不会攻击,或者这些数据会不会为我们所用,请大家放心,我们在系统层面解决这些问题,放在我们平台上的虚拟机或者说服务器,我们天生就是有一个防火墙在外面,这里有一个概念就是安全域,你对你的服务器可以进行安全域划分,如果不经你的授权,其他人看不到你的服务器,假设你拿到一台机器,我告诉你这个IP地址比如说是192.98.1,那这个人可能猜测会不会另外一台服务器IP地址是192.98.2呢,那我们会通过一些放防御措施解决。 防DDOS也是我们的优势,DDOS基本上是站长的痛苦,一般的IDC厂商遇到这些问题是没办法解决的,但是我们构建的机房可以大大缓解这个问题,首先我们有很大的出口带宽,这个带宽可能是以10G、20G来计的,这些带宽已经能够把DDOS攻击缓解到一定程度,也就是说我的通道足够宽,如果打不到我的通道上限,你的DDOS攻击是不生效的。 第二我们有专业DDOS设备,一旦有DDOS攻击,我们会监测,我们通过API调用,这是管理系统发起的,可以把这个流量在短时间之内切换到设备上面,对这个流量进行清洗,机群内部虚拟机不受影响,可以正常工作。 目前我们这个平台已经有一些成功案例,比如说万网关键业务,淘宝站的图片服务,还有一些行业网站,都已经托管在我们上面。这里重点提到淘宝站图片服务,现在有很多皇冠级用户用了我们虚拟机之后,他们用户打开皇冠级网站之后,发现图片显示是远快于一般的皇冠级卖家,因为我们机房品质比一般图片服务提供商好得多。 将来弹性计算平台还有很多特性推出来,第一个是虚拟网络,新生在IT方面投入相对固定资产来说非常大,可能四五个人的就要投入几万元的IT采购,而在这里你可以拥有自己的VPN或者说防火墙,负载均衡跟负载自适应,这对淘宝非常重要,淘宝每天有三万人以上的开发者,他们面临同样的问题,这些流量是不可预测的,负载自适应就可以满足他们的需求,我们的系统会自动监控网站流量,当你的网站流量达到一定程度时,我们会自行扩展出服务器,提供服务器支持、流量支持。 当你的流量下来的时候,比如说晚上12点,没有用户访问,我们可以把服务器收缩起来,这样实现双赢,用户可以付更少的钱,但是可以得到更多的服务品质。将来我们还会推出桌面虚拟化,在我们设想的将来,所有人在云的这端都有一台虚拟机,所有这种数据交互都是虚拟机之间交互,将来金山快盘或者BT下载这些东西都是浮云了。将来不会出现服务器端到客户端下载或者上传,如果你要什么数据传给另外一个人,有可能只是在万兆的网络里面,从A虚拟机传到B虚拟机,这个速度可想而知,将来VDI或者Apad这些PC客户端都是受用客户端,这是我们的设想。 弹性计算平台就介绍到这里。 观众: 你们这里是有虚拟机这块和硬件这块,你们硬件虚拟做到什么样的程度? 陈波: 当所有硬件虚拟化达到最理想值的时候,你在虚拟机内部的运行程序性能可以达到物理机的97%,当然这是最理想情况下做到的。 观众: 虚拟化的时候,肯定要对它进行一个分配,是直接在硬件层面上做这个事情还是我通过OS这个层面做虚拟化?你们操作系统层面是自己做的一个平台还是基于Linux或者其它的? 陈波: 我们基于开源的虚拟化管理软件,将来还会支持KVM,内置对虚拟化支持。 Linux VPS观众: 这些软件本身支持硬件虚拟化这块? 陈波: 对。 |