大数据的准确性怎么保证？-58码农网-专业IT技术交流,源码下载平台

对于大部分数据来说，数据处理可以分为以下五个步骤：

1.数据采集；2.数据传输（实时/批量）；3.数据建模/存储；4.数据计算/分析；5.数据可视化展示/挖掘

在大数据处理的五个步骤不断进一步优化和改进，可提升大数据的准确性。

首先，你得定义什么是准确性，是数据的真实性，还是数据采集之后是否按预想那样正确。

如果是前者，我觉得没有什么特别系统的，或者有效的方式。一般，还是靠权威验证或者用公知的正确数据做参考。这其实好比“新闻的真实性怎么确认？” 而且这个和数据大不大没什么关系。

如果是后者，这是一个技术实现层面的问题。那就是得靠正确的校验数据去判断是否数据的采集是否正确没偏差。这里，校验数据和校验方法的正确性是关键。

我觉得也可以拿事实和观点为例。

如果你认为符合事实才是准确，那么大数据模型的定义是一个观点。这观点未必准确与事实相符，即我上面说的第一种情况 — 数据的真实性问题。

数据量大到目前只有google，facebook，baidu这样的公司能搞。。

他们也公开了部分数据集供学术界使用,阿法狗用了所有能用的人类棋谱。。

这个数量还是远远不够的，于是每天几百台阿法狗互下，产生新的棋谱，再用这些棋来继续training，data当然是要实际数据

其实deep learning还是很好骗的，前几年有paper就用人造图片能让这类图像识别系统完全失效。。

大数据的准确性，取决于样本数据的纯度，以及样本数据的多少，数据纯度越高，数据量越大，预测的准确性就越高。

新办的烟草证，烟草公司每个月就给我30条定量，如何维持生意？有什么经营技