幻传承和创新
调用20年当时的语言数据,而物理数据包含在一个100年时间1ZB数据中,生物数据包含在一个1000年1024ZB数据中,语言数据包含在一个5000年4096ZB数据中,怎么弄?
全部都全网在单机,每个使用者对应一个超级电脑用于解压缩,然后索引需要用到的内容?
70亿个使用者呢?是不是需要建造70亿个超级电脑硬件啊?
特别是有很多历史变迁问题,比如10年前,某个学科专有名词的学术名是A,10年后,该学科专有名词的学术名是B,然后每隔一段时间,学术名都有改变,突然一下去找100年前,这个学术名,那就麻烦了。
学科用大数据的应用,如果只考虑到当代使用,很容易就解决,可能最多需要3个超级电脑就足以应对,可是如果面对的是时间跨度可能需要百万年的古生物研究呢?地球考古学研究呢?历史新闻研究呢?会面对什么问题?
还有一种问题,那就是语言是一种主观存在,包含的含义,在每一代可能都有偏差,比如流氓一词,可能某些词义没有被编写进入字典中,没有编入辞典中,就被后来人当做通假字论了,还不排除有的写书的人,本身喜欢另辟蹊径,自己创造一些词语组合,也不排除创作者词不达意。
这也就导致,搜索可能需要完全展开整个数据库的所有内容都变成最终的未压缩版本,这是刚性需求,特别是使用者使用模糊搜索兼或用未来的术语来搜索历史上的术语。
然而随着数据采集越来越精密,很多全息数据,都可以大到没边,把无限大+无限大+无限大的数据,都聚集到数据库中,能用很小的存储硬件来存储可以解压缩成为无损数据来使用,然而解压缩时,硬