去年在公司做了一个业务量监控与预测的模型, 一直觉得那个模型很复杂, 需要简化了才能在更多的场合使用. 经过认真及长时间的思考, 觉得可以提出用户行为概率曲线的概念, 在这过程中, 真的体会到了自已数学水平的不足, 高等数学, 线性代数, 以及运筹学等.

    我们来看一下下面这张图, X轴是一天的范围, Y轴没有说明是什么数据, 用一定频率收集的某个数据画成的.

    假设Y轴是网上成交的笔数, 可以理解成最近一个月或几个月的平均晚易笔数, 那么这个图可以用来进行交易报警和预测. 只要计算一下, 现在的交易水平和平均值之间的增长比例, 就可以用来预测现在的交易笔数了, 如果真实的低于预测的, 那表示有什么事情影响了交易, 这是交易预测的基本模型.

    如果Y轴是页面的PV数量, 如果隐藏掉Y轴的坐标, 就会发现这两条曲线形状可能一样. 如果现在要对PV数量进行预测, 则可能需要统计一下最近一个月或几个月的平均PV数量, 然后计算一下现在的PV数量和平均值之间的增长比例, 就可以用来预测和监控PV了.

    如果Y轴是搜索的次数, 如果隐藏掉Y轴的坐标, 就会发现这三条曲线形状也可能一样. 要对这个再做一个监控和预测呢? 再计算一下平均值......

    当然我们还有更多的需要预测和分析的行为数据, 如用户登录数, 如何使得分析变得简单, 我们需要将Y轴变成一个无意义的数值, 不能是交易笔数, 不能是PV数, 不能是搜索数, 也不能是登录数. 要将Y轴变为在某一天里, 所有用户动作落在这个时间段的概率, 比如有0.02%的用户行为会落在早上8点的间隔内, 就可以使分析和预测变得简单了.

    以用户登录数为例, 假设昨天用户的登录数是5000万次, 那么今天某个时间点的用户登录数为多少呢? 5000万乘以这个时间点的概率就可以了; 对于搜索量呢? 对于PV数量呢? 同样的道理, 一个时间点发生的概率乘以昨天的行为总数就可以了.

    我们大量的分析工作, 只要着重于分析各种用户行为, 找出具有不同特征的用户行为曲线就可以了, 当然不同的时间段, 如周一和周末, 用户行为概率曲线可能是不同的, 但在大多数场合, 用户行为是很稳定的, 也是很难去改变的.