1
对于大部分数据来说,数据处理可以分为以下五个步骤:
1.数据采集;2.数据传输(实时/批量);3.数据建模/存储;4.数据计算/分析;5.数据可视化展示/挖掘
在大数据处理的五个步骤不断进一步优化和改进,可提升大数据的准确性。
2
首先,你得定义什么是准确性,是数据的真实性,还是数据采集之后是否按预想那样正确。
如果是前者,我觉得没有什么特别系统的,或者有效的方式。一般,还是靠权威验证或者用公知的正确数据做参考。这其实好比“新闻的真实性怎么确认?” 而且这个和数据大不大没什么关系。
如果是后者,这是一个技术实现层面的问题。那就是得靠正确的校验数据去判断是否数据的采集是否正确没偏差。这里,校验数据和校验方法的正确性是关键。
我觉得也可以拿事实和观点为例。
如果你认为符合事实才是准确,那么大数据模型的定义是一个观点。这观点未必准确与事实相符,即我上面说的第一种情况 — 数据的真实性问题。
3
数据量大到目前只有google,facebook,baidu这样的公司能搞。。
他们也公开了部分数据集供学术界使用,阿法狗用了所有能用的人类棋谱。。
这个数量还是远远不够的,于是每天几百台阿法狗互下,产生新的棋谱,再用这些棋来继续training,data当然是要实际数据
其实deep learning还是很好骗的,前几年有paper就用人造图片能让这类图像识别系统完全失效。。
4
大数据的准确性,取决于样本数据的纯度,以及样本数据的多少,数据纯度越高,数据量越大,预测的准确性就越高。