听水车们讲大数据在国内的发展

Posted 2013-04-10 | archive

发信人: Nineteen (..), 信区: Database
标题: Re: cassandra集群的去中心拓扑真是帅啊
发信站: 水木社区 (Sat Mar 9 10:03:09 2013), 站内

就像@immars提到的，开源项目们在一两年后开发出来的东西比论文原型在性能上差了一个层次，其实不仅仅是性能，其他方面差得会更多。

然后其他公司一看，不错，有东西能应付应付需求，接着就开始大用特用，坚持个一两年，东西尽管被改个面目全非，但仅限于补丁摞补丁，在外围小刀，想深入大改？门都没有，老板们会说了，先满足业务需求。最常听到的说法是：tmd我们都要死了，你丫还想花那么长时间大改？

团队规模在“快死了”的状态中不断成长，成长的另一个原因是层出不穷的运维事件和用户“永远都没办法满足的需求”，话语权也变得越来越重。

集群规模越来越大，最后发现确实搞不定了，一边开始上各种歪招，比如云梯居然在优化jvm；另一方面开始组织力量研发自己的系统，后者三大互联网公司貌似都尝试过，百度的yangzhengkun，腾讯的zhuhuican和阿里的wangjian。

但是遇到阻力很大，阻力的一部分就来自于前面提到的“团队”，抢饭碗吗？另一部分则是互联网公司缺乏大型平台的研发经验，各种没耐心，各种弯路，各种交学费。腾讯和百度是属于交了学费退学那种。

阿里还在向前走，远没走到头，这也是为什么阿里云梯系统还在的原因，它不仅得在，还得加强，因为淘宝业务增长太快。

可以看看论文出来到现在多长时间了，如果有渠道，可以去了解了解google技术进步的速度，它跑得越来越快，差距越来越大，这不是成功打击了对手是什么

从另一个方面也容易理解，开源出来自己的系统加强竞争对手的技术基础设施吗？还没到共产主义社会。至于傍了大腿的项目们，人开源出来的从来不是它生产环境使用的现网系统，或者过时或者阉割。

至于有人说“这么说开源项目都是坏的了？”，不是这样，开源的螺丝钉、离合器、甚至发动机都不差，但是指望开源的空间站、宇宙飞船没有问题...还是算了吧，凑合用用就好，真有心，还是自己造。

发信人: penny1983 (一只熊猫，两种表述||熊猫永不受伤), 信区: Database
标题: Re: cassandra集群的去中心拓扑真是帅啊
发信站: 水木社区 (Wed Apr 10 10:31:16 2013), 站内

开源实现没有靠谱的啊。

Paxos 算法和满足实际需求的系统之间还存在大量的鸿沟, fault-tolerant sytem 即

使写伪代码都不容易写对，Google开发chubby时候专门写了一个state machine
语言和相应的编译器，把用state machine 表示的算法转为c++，而且在chubby一致性检
验和容错方面投入了巨大的精力。

 Google的chubby一开始也是基于第三方商业数据库，但是由于商业库的replication问

题（bug，无法证明replica算法正确），google不得不自己实现kv db 用于实现multi-
paxos。这一过程也是一把辛酸啊，参加google的论文
Paxos made live-An Engineering View。

Comments