【类神经网路】应用场景常见的初级问题

大家好,很高兴见到大家。在此发个文,来解决我新手上路无法回文的问题哈哈,需要解决新手任务。很高兴能参与到 IT 的社群,如果有在使用 IThome 有什么小技巧或是什么的,请不要介意的和我分享,我还在学习,是个菜鸟,感谢大家。


今天想和大家分享的事情是关于类神经网路中关于监督式学习的部分,一般来说,我们在训练类神经网路的时候,会把资料分成输入资料与标籤资料,透过模型训练让输入资料经过模型计算后的输出值,能和标籤资料匹配。这个方法在普遍多数类神经网路运用很成功的地方,大概都没有什么问题,例如影像辨识、图像识别都是热门的主题。

但是如果我是一般人,我想建立一个使用类神经网路的事业,不想处理这么上游的纯技术,而是想用简单的技术整合到现存的一些业务流程中,例如我举个例子:

你现在是一个商业机构顾问,你想改善一家公司的销售流程,让他们针对真正赚钱的商品做销售就好,所以你想用类神经网路模型对客户的消费资料进行训练,希望让他能匹配这个客户购买的商品,藉此找出客户在什么样的背景或前提最容易去购买某项商品。

初级问题1

好,所以你的类神经网路模型的资料主要会有:

输入资料:一群客户的消费背景资料,例如在什么时间、在哪家店,这个客户几岁、性别是什么。
标籤资料:一群客户的消费明细资料,最终买了哪些东西、价格多少。

假设你很成功顺利地训练出了类神经网路模型,只要你输入一个客户的背景资料,他就会吐给你一个可能会买的东西、买的价格大概是多少,好,所以?

所以,你就要等新的客户来到某一家店消费,然后计算他们可能会买的东西和价格,然后叫客户常去的店进货。

你有注意到任何不对劲的地方吗?

当客户到店里面的时候,他已经消费了,他可能已经买了你预期他要买的东西,不然就是买了不是你预期他要买的东西,而不是还没买东西!你的店根本来不及进货。

很多人在想整合类神经网路的技术到真实应用场景的时候,经常会忽略这个问题,而这个问题还只是应用场景最低等级的问题,也就是真实应用场景的资料是【输入与标籤,成对出现】你虽然很聪明地把资料按照很合理的方式分割成了输入资料和标籤资料,但是你面对的情况却是标籤资料和模型输出资料同时出现的情况。

让我们暂且称「输入与标籤,成对出现」叫做初级问题1,未来有机会我们会探讨这个问题,还有怎么解决,金融市场资料就是这样。

初级问题2

你可能很聪明,所以你现在将输入和标籤资料做了一个「时间延迟」使得你的预测能有反应时间,我得肯定这的确是初级问题1的解法的一种:

输入资料:一群客户的消费背景资料,他过往的消费背景,住哪里、性别和电话之类的。
标籤资料:一群客户的消费明细资料,但是是「下次」的消费,下次买了什么、下次买了多少钱之类的。

假设你很顺利的客户大概都会来消费两次以上,所以你至少都有客户两次的消费纪录,使得你能做这样子输入、标籤资料的分类然后再训练模型,我们假设你很成功地训练出了一个模型,他能在客户消费背景资料一输入的当下,立即计算他下次可能要买的东西或买多少钱,可能要等多久他才会来买。

现在的问题是,假设模型计算这个人下次消费的时间是两周后,预测他可能要买两包苹果好了,所以你什么时候要进货呢?你现在就要叫货了吗?但你现在叫货的话,苹果可能会坏掉哦!但是你现在不叫,他如果提前来买怎么办?所以我必须要十分确定这个人,他真的两周之后会来买苹果!

所以我需要资料中,必须有多次他两周之后买苹果的资料!
我必须要在统计上达到显着,啊哈我统计可是学很好呢,学以致用呢!

有没有再次发现不对劲的地方呢?

实务上你很有可能没有办法达到统计上的显着性,因为当你把输入和标籤资料中做了「时间延迟」的时候,你在应用场景中就多了「延迟的不确定性」因为你期望输入与标籤之间要有因果关係,然而标籤的出现又要让你有足够的反应时间,因此你想找出来的因果关係,之间的时间就会拉长,你就越难保证真的是这个因导致这个果(而且事实上他可能还未必具有因果关係呢)。

让我们暂且称这个叫做「时间延迟的不确定性」也就是初级问题2,未来有机会我们也会谈资料怎么输入和放标籤,来解决这个问题。


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章