前 言
今天中午在和几位存储圈内的朋友聊到PPT,于是有朋友提到了投影机+胶片的历史,到后来才是电脑+投影机。
这回忆,太有历史感了。使我想起了自己的学生时代:投影机+胶片到了大学才有,中学小学时代几乎都是粉笔+黑板板书。
话说那个时代的老师才是真的为人师的感觉,我的老师粉笔字都写得很棒。
故乡当时还是比较落后,自从后来修好了路,成金快速路(成都-金堂)通车以后,这一切都在变了。
现在,金堂已经成为了成都市地区最美的“天府水城”。
话说,做PPT本来就是一个职业,你不会才好,不然你就又抢了一个人的饭碗了。
电脑熟练工也是一个职业,你不会才好,不然你就又抢了一个人的饭碗了。
有朋友说,只用平板和智能手机了,换得频繁,可以给很多人创造就业机会。
也有朋友说,当时苦练了1个月五笔电脑打字,后面完全用不上,一会就忘记了。还是拼音好,学会了,终身不忘。
可是,我拼音都不太会了,手写收入了。
现在,好多字手写都不会写了,直接语音输入了。
再过些年,语音说话都不太会说了,直接AI助理,想啥有啥了,意念转换成文字,安逸得很哦。
似乎,这样的梦想应该如此。比如:美女,来一个,立马就来了一个。这才霸道嘛。
不过,真到了那个时候,是不是存储技术更重要了?万一存错了,调错了数据就完蛋了。
既然想啥得啥,梦里都可以创作了,那就要求数据恢复工程师必须掌握回档意念的技术了。
所以,我一直坚持自己的观点:数据存储永远不会过时,玩存储阵列的永远有机会。
万变不离其宗,最终还是得靠各位存储大师傅的鼎力相助。
为此,也有朋友说:存储作为需求会永远存在,但是,这种需求的载体会不断变化。
不过,你们听说过神经细胞存储系统么?DNA存储数据那种?有兴趣的可以读读下面三篇提到DNA存储的老文章。
技术风云录|基于DNA的存储系统距离我们还有多远?
阿明全球存储观察 2016-04-30
存储技术的发展,以存储介质的发展所驱动着,年复一年,再年复一年。EMBL-EBI成员、哈佛医学院教授、著名遗传学家George Church的团队一篇有关DNA存储信息的论文,带给了人类新的希望。
从磁带、光盘、磁盘和闪存,每一种存储介质的出现都对存储技术有着划时代的意义,那么近年大家十分关注基于DNA的存储到底距离我们还有多远呢?
首先我们先来摸清楚DNA存储的定义和概念
DNA存储的原理是为核酸中的碱基赋予二进制值,随后通过微流体芯片对基因序列合成,从而使该序列与相关数据集相匹配。1立方毫米即可存储704TB的数据,相当于数百个硬盘的容量。
DNA存储方式是采用DNA双螺旋结构上有4个核碱基,开发定制代码,DNA数字存储系统首先把硬盘信息中的二进制数翻译成定制代码,然后借助标准DNA合成机器制造出相应的碱基序列。这一序列并非一个长分子,而是多个重复片段,每一个片段携带一些索引细节,明确各自在整体序列中所处位置。分子生物学实验室用来读取生物体DNA的标准设备可以读取信息,当即呈现在电脑屏幕上。
可见,DNA存储技术的与传统的存储技术不同,传统的电子存储是基于0、1这两个符号的组合,而DNA有A、T、C、G4个碱基,在编码上就比传统的二进制存储多了许多可能。
再看看DNA存储发展历史
实际上,DNA存储与计算的研究已经持续了近30年,来自《数据存储的未来:把宇宙写进DNA里》文章介绍说,早在1986年,麻省理工学院一位被称为科学狂人的科学家Joe Davis就成功将5×7像素的图片编码到DNA中。
1994年,美国南加州大学教授雷纳德·阿德勒曼(L.Adleman)博士在《科学》杂志上发表一篇题为《组合问题的生物电脑解决方案》的论文,首次提出分子计算机,即用DNA分子构建电脑的设想。阿德勒曼指出,DNA电脑将采用其本身的“语言”,以四进制系统来编码,与“人工生命”的研究范畴将融合在一起。今后的工程技术人员应该接受更加广泛的科学教育,使自己成为“通才”,全面掌握数学、物理、化学、生物学和计算机科学知识,才能做出更多的发明和创新。
2001年,以色列科学家成功研制成世界第一台DNA计算机,它的输出、输入和软硬件全由在活性有机体中储存和处理编码信息的DNA分子组成。虽然该计算机不过一滴水大小,但这已显示出未来DNA计算机的雏形。吉尼斯世界纪录称之为“最小的生物计算设备”。随后几年,以色列科学家对DNA计算机进行了改进,当时的运行速度已高达每秒330万亿次。
2004年,来自《南方周末》徐彬的文章报道说,中国上海交大Bio-X生命科学研究中心冯国鄞称已在试管中完成了DNA计算机的雏形研制工作,论文发表在中国《科学通报》49卷第1期英文版上。
2007年,日本科学家成功使用细菌DNA储存数据。
2011年6月,深圳特区报报道称,新加坡南洋理工大学舒建军教授在《物理评论快报》(Physical Review Letters )发表了他的最新研究成果,称他的团队提出了一种通过操纵DNA链能解决基于DNA计算的战略分配问题。在实验模型中,DNA分子用来存储与计算目的相关的信息。当前使用的计算机芯片都是硅计算依靠二进制,即1和0。而通过DNA计算,除了1和0以外,你还可以做的更多。DNA由AGTC四种碱基组成,这可以形成更多的排列。DNA计算将有潜力处理模糊数据,超越数位数据。
2012年,台湾国立清华大学和德国一研究所合作,用三文鱼的DNA制造出单次写入、多次读取的存储器。
但是,取得阶段性实质进展的,却是来自英国的一个EMBL-EBI的科学家团队。欧洲生物信息研究所(EMBL-EBI)全称EMBL - European Bioinformatics Institute,是一个非盈利性的学术机构,致力于以信息学手段解答生命科学问题。EMBL-EBI建立于1994年,位于英国剑桥南部的维康信托基因园,是欧洲分子生物学实验室(EMBL,全称EuropeanMolecular Biology Laboratory)的一部分。
2012年9月,欧洲生物信息研究所Ewan Birney和哈佛医学院教授、著名遗传学家George Church的团队在Science杂志上发表《Towards practical, high-capacity, low-maintenance information storage in synthesized DNA》即《迈向实用高效能低保养的合成DNA存储信息》文章表示,他们将一本5.34万字的书籍、11张图片和一段Java程序存进了不到一沙克(亿万分之一克)DNA中!有人根据这个比例换算得出,1克DNA将能存储700TB数据,相当于1.4万张蓝光光盘,或233个3TB的硬盘。而George Church教授则表示:“今后,拇指大小的设备或许就能存下整个互联网的信息。”
从EBI官方网站上可以查询到,George Church也是EMBL-EBI的一员,并且还有联系电话。
同样在2013年,阿根廷科学家近日成功将该国国歌旋律以人工基因编码形式植入某种细菌染色体中。
那么,按照George Church的做法,将二进制信息翻译成某个中间代码,再通过微流体芯片对基因序列进行合成,从而使该序列的位置与相关数据集相匹配,方便读取。
George Church基于DNA存储到底如何实现呢?
来自东方早报的《存储数码信息的DNA》的文章给予了详细介绍,这里摘录如下:
首先,把电子文件的二进制码(0,1)翻译成三进制码(0,1,2);然后,用由DNA四个碱基(分别以它们的学名首字母A、T、C、G代表)构成的一套特定编码和规则,将二进制码编译成一个DNA码序列。接着,以每25个碱基向后错位的方式,把这个DNA序列切割成若干个含100个碱基的等长片段,直至整个序列的所有内容都获得四个副本(例如:1,2,3,4;2,3,4,1;3,4,1,2;4,1,2,3)。这样一来,当任何一个副本出错时,有另外三个副本可供参考认证,可谓万无一失。为了确定这些等长片段在这个DNA序列中的准确位置,George Church团队给它们各自的首尾加上了索引标识。
用DNA编码编好电子文件后,再用专门设备做DNA合成,信息写录就完成了。取用合成DNA中的信息时,先把合成DNA放入标准化学试剂,然后用DNA测序仪,根据索引标识,将各个片段依序粘接成原DNA码序列,再译回二进制码,形成电子文件,就大功告成了。George Church团队十分谨慎,在编码设计中不惜繁琐,引入多重防错检错机制,为的是保证编辑和解读复原达到零误差。
编码设计好之后,George Church团队用了五个不同类型的电子文件做测试:一段26秒钟长的马丁·路德·金《我有一个梦想》演讲录音;一篇关于DNA结构的经典学术论文的PDF文件;莎士比亚十四行诗全篇,一张EBI大楼的彩色照片;以及一段这次试验使用的软件算法(Huffman编码)。信息总量不大,约739千字节,着重检验编码对不同信息形式、内容以及格式的适用能力。DNA的存储能力的确惊人,当装着这五个文件的合成DNA的试管送到George Church手中,他看了半天,竟然什么也没找到。还是经同事指点,才发现试管底部那颗灰尘般大小的DNA。
然后,George Church团队用DNA测序仪,把合成DNA中的信息复原为电子文件。结果令人振奋:它与原始电子文件的重合率为100%。不过这100%跟着一段有惊无险的小插曲。在DNA测序时,PDF文件中的两个25碱基小节不见了。缺了它们,就会出现误差,这是绝对不能容忍的。好在编码为每个小节提供了四个副本,根据副本,编码准确地完成了复原任务。这次歪打正着,证明了该编码防错的优越性能。还好,George Church团队很快找到了丢失的原因,George Church博士保证,只需稍微修改一下程序,类似问题以后不会再发生了。
George Church团队的论文精华解读
《Towards practical, high-capacity, low-maintenance information storage in synthesized DNA》的论文中有两个图可以值得研究一下。
一是DNA的数字信息编码图。
数字信息(a,蓝色)部分,这里的三进制数字的ASCII码是莎士比亚十四行诗第18,采用Huffman编码,转化为(b,红色)用五或六base-3编码代替每个字节。这也是DNA编码的转换在硅片(c,绿色),由不同于之前使用过的三个核苷酸来替换,并确保没有homopolymers同聚物生成。在此基础上形成的大量的副本,产生四倍冗余(d,绿色,采用紫色的备用段反向补充增强数据安全性)。增加了索引DNA编码(黄)的索引基因,也被编码为不重复的DNA核苷酸。
二是,基于DNA的存储的稳定性和Scaling特性描述图
从这个图可以看出,图a表示编码效率情况,即针对存储信息量增加时编码效率和成本变化。×轴表示被编码的信息总数。标注了常见的数据字节容量:
1MB1GB1TB1PB1EB3ZB(2014年估计全球数据信息量)……。
黑色Y轴表示的编码效率,测定合成碱可用于数据编码的比例。蓝色的曲线(Y轴从左向右)在当前的综合成本水平上,指出了相应的编码成本的影响。
图b表示误差率情况,(Y轴)为每个恢复基的误差率,作为测序覆盖的函数。蓝色曲线代表四个文件恢复,无需人工干预:当原始读取率≥2%时使用误差为零。从我们的理论误差率模型的Monte Carlo模拟得到的灰色曲线。橙色曲线代表watsoncrick.pdf文件,需要人工校正:最小可能的误差率为0.0036%。那个盒子所在的区域显示嵌入放大。
图c表示基于DNA的存储成本的时间表。当每10年数据发生改变,DNA存储的成本效益不错;当每5-10年数据发生改变,DNA存储的成本效益表现才稍差一点;如果每5年甚至更频繁的数据改变,磁带的成本效益还是更佳一下。当然了,有人也提到,倘若存储500年的数据来计算的话,DNA成本效益就更明显表现出来了。
George Church的论文指出,DNA作为存储介质,也有显著的弱点。一是成本过高。
George Church团队的实验费用高得惊人:每一兆(MB,10的6次方)字节的存储费用是12,400美元,外加测序解读220美元。这是常规磁带存写费用的一百万倍还多。所以,DNA存储必须大大降低成本,才谈得上实际应用。二是信息写读耗时。数码信息编入DNA目前只能由专门的DNA合成设备来做;而从DNA中取读信息,重组复原为数码文件,也很费时。George Church团队用了整整两个星期,才完成五个文件739千字节的复原。三是DNA介质不能重复使用,写录完毕,一般来说不能修改,不能再用。
DNA存储并非可以替代目前所有的磁带存储、光盘存储、磁盘存储或闪存存储,而是为大家提供了一个针对用户大规模的、长期和不经常访问的数字归档的现实技术方向。比如存储期五十年以上,且无需多次存取的信息,DNA介质就很有竞争力了。同时,“未来的DNA计算机在研究逻辑、破译密码、生物医药以及航空航天等领域应用将发挥其独特优势。”那么在DNA存储和DNA计算两个领域交叉发展推进进步的情况下,DNA在存储与计算领域的应用相信在不久的将来会来到我们身边。(阿明整理编辑)
尼玛,太扯了啊!用DNA分子存储数据可保存长达百万年!
全球存储观察 2015-08-19
Dostorage8月19日转发消息:据《独立报》报道,ETH Z rich瑞士联邦技术研究所的科学团队提出了使用DNA分子来存储信息的方法,并提出了一个数学算法可以解码DNA分子上的编码信息。当该技术成熟应 用后,大概一枚便士硬币的28克(1盎司)左右的DNA分子,能够存储30万TB的信息数据,并且保存长达至少100万年。而目前的存储介质最高保存期限大概为50年左右。
科研团队的Robert Grass博士“随着DNA分子的双螺旋结构的发现,人们发现DNA中的信息编码类似于计算机中采用的二进制编码,二进制编码由0和1组成,而DNA中的信息则由A、C、T、G4种核苷酸排列组成。”
科学家使用了一种机器合成包含数据信息的DNA分子,并将它们加热至71 ,结果这些信息可以保存一周。这等同于在50 的环境下保存信息2000年。目前商业化该方法还具有较大的难度,因为尚没有经济实惠的方式来生产这种DNA,另外能够读取DNA信息的驱动器显然也不经济。而且目前科学家能够读取DNA分子中的整块信息,但不能指向特定的DNA信息片段的数据块,相当于能够读取一个全文件,但无法定位读取指定片段,这些都是目前面临的问题。
牛逼的DNA硬盘能够让存储技术飞跃100年吗?
全球存储观察 2015-07-24
Dostorage7月24日转载消息:50年前,在仙童半导体公司任职的摩尔提出了著名的“摩尔定律”,指引了21世纪的一场伟大科技革命。在这50年间,人类获取、处理信息的能力,遵循着摩尔定律冲破天际,但随之而来的一个问题也摆在了人类面前:这么多信息,我们该如何进行存储?
事实上,这个问题自现代计算机诞生以来便如鲠在喉。如今的教科书,更愿意把相关的解决方法统称为“存储技术”。在计算技术腾飞的这几十年,存储技术一直是一个疲惫的追赶者——其首要原因便是物理限制。与中央处理器(CPU)的硅片介质不同,现代的数据存储一般以磁介质为核心。顾名思义,就是要通过磁介质磁场行为的“记忆效应”来实现数据存储的功能。这种存储模式无论在尺寸上(数据密度)还是在使用寿命上(保存时间)都大打折扣。我们现如今使用的机械硬盘、固态硬盘、USB闪存等,其预期寿命都在十年左右,而且个头还不小,一旦数据丢失,造成的损失便无法弥补,维护的成本自然也相当高昂。
近年来,一些存储技术专家把目光投向了仿生学。他们论证道:生命是如此精细和复杂,为了能够无误地繁衍遗传,哪怕是一条蚯蚓,它所携带的信息也足以写满一屋子硬盘。蚯蚓的小身躯到底如何存储这些数据呢?答案便是DNA(脱氧核糖核酸)。DNA是遗传和基因编码的基本结构,其功能主要是半保留复制(延续生命)以及转录核糖核酸从而合成蛋白质(实现生命功能)。相比较磁介质存储的“傻大憨粗寿命不长”,DNA存储信息的能力极强——一汤匙DNA所携带的信息,可以存储自人类文明出现以来所有的书籍影音;且由于它特殊的双螺旋紧密结构,物理化学特性稳定,不易被破坏,低温下可保存千百年不变质。困扰存储技术多年的问题答案,早就被“造物主”写在了我们每个人的身体里。
DNA由四种含氮碱基——A、T、C和G互补配对构成,科学家将数据编码成二进制的数字串,每遇到一个0,就在目标DNA的尾巴上合成一个A—T碱基对;如果是1,就合成一个C—G碱基对。这样一来,整部莎士比亚全集就可以被存储在头发丝大小的“DNA硬盘”中。每次写完数据,就把“DNA硬盘”放到低温环境中保存。需要读取数据的时候,只需对目标DNA进行测序,将碱基对还原成二进制编码,再完成解码工作,就可以被人类“阅读”了。
——阿明/整理编辑——
对于这些观点,你也赞同吗?欢迎文末留言评论。
留言与评论(共有 0 条评论) |