大数据的准确性怎么保证?

1

对于大部分数据来说,数据处理可以分为以下五个步骤:

1.数据采集;2.数据传输(实时/批量);3.数据建模/存储;4.数据计算/分析;5.数据可视化展示/挖掘

在大数据处理的五个步骤不断进一步优化和改进,可提升大数据的准确性。

2

首先,你得定义什么是准确性,是数据的真实性,还是数据采集之后是否按预想那样正确。

如果是前者,我觉得没有什么特别系统的,或者有效的方式。一般,还是靠权威验证或者用公知的正确数据做参考。这其实好比“新闻的真实性怎么确认?” 而且这个和数据大不大没什么关系。

如果是后者,这是一个技术实现层面的问题。那就是得靠正确的校验数据去判断是否数据的采集是否正确没偏差。这里,校验数据和校验方法的正确性是关键。

我觉得也可以拿事实和观点为例。

如果你认为符合事实才是准确,那么大数据模型的定义是一个观点。这观点未必准确与事实相符,即我上面说的第一种情况 — 数据的真实性问题。

3

数据量大到目前只有google,facebook,baidu这样的公司能搞。。

他们也公开了部分数据集供学术界使用,阿法狗用了所有能用的人类棋谱。。

这个数量还是远远不够的,于是每天几百台阿法狗互下,产生新的棋谱,再用这些棋来继续training,data当然是要实际数据

其实deep learning还是很好骗的,前几年有paper就用人造图片能让这类图像识别系统完全失效。。

4

大数据的准确性,取决于样本数据的纯度,以及样本数据的多少,数据纯度越高,数据量越大,预测的准确性就越高。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章