大数据下客户金融产品购买概率预测
日期:2018-07-20 16:48:00 来源:网络整理
大数据下客户金融产品购买概率预测
袁
袁峻峰 | 未央网
2016-02-22
2
收藏
大数据金融
本文共2232字,预计阅读时间44秒
摘要:
本文讨论用逻辑回归模型预测在金融市场情景下客户对金融产品的购买概率,以股票购买持仓概率作为研究对象。并探讨了TB级百万特征金融数据处理方法。
模型
基本假设:客户每日的持仓,是基于当时金融市场情景以及股票属性作出决策的独立事件。
该逻辑回归Logistic Regression模型简单描述如下:
客户购买持仓股票概率是指客户在指定日期购买持有指定股票的概率。表述如下:
基础数据
1 、客户数据
基本特征:
· 客户交易流水,可提取客户历史易特征。
· 客户交易系统操作记录,可提取客户交易系统操作特征。
· 外部客户数据,包括客户画像其他属性:信用属性,消费属性,兴趣爱好,社交信息等,百度的标签体系可为每个人打上24大类,268小类,几千个标签。
下表为客户特征:
2、 股票数据
Wind等数据提供商提供的股票数据包括:基本信息,股本信息,财务,薪酬,关注度,行情,技术指标等。
新闻信息:目前Wind等数据提供商已将新闻主题词提取并关联相关股票,还给出了正负效应。
3 、市场数据
Wind等数据提供商提供的市场数据包括:利率,汇率,财政,价格指数,国内外贸易,景气指数以及新闻等。
4 、客户购买记录
客户过去一年每日持仓记录。
数据处理与模型实施
1、 数据量预估
样本数:
假设客户数为1000万,目前A股有2800多股票,取过去1年购买记录为样例,大约是250天,那么产生的样本数为大约7万亿,但只需记录持仓信息,假设人均10只股票,那么需存储的记录大约为250亿条。负样本不用存储,在模型计算时产生。
特征数:
客户特征关联股票特征再关联市场特征,将产生百万维以上特征,特征稀疏。
250亿条百万维稀疏矩阵,大约是几十TB。估计需50台普通PC服务器的Hadoop/Spark集群,可满足数据处理和特征提取。对TB级百万特征逻辑回归模型运算,我尝试过国内厂商基于Spark的平台,可以支持。另一条路是针对这个大规模机器学习的具体问题定制优化。我也试用过国内一家新兴大数据公司第四范式公司的数据建模产品,他们对高维稀疏矩阵做了深度定制与优化,仅在10台普通PC服务器就可以处理该数据量级别逻辑回归运算。
2 、金融特征提取
由于我们将每日交易行为作为独立事件。既假设股票特征,市场特征在样本中都是独立的,而我们在做交易决定时可能更关心特征在指定区间内的变化如股票中技术指标等。所以市场数据以及其他股票数据也需要将变化趋势转换为特征,如变化率,以及以涨跌标记变化趋势,如+代表涨-代表跌,++--表示过去四个周期的一种变化趋势。
由于二级市场企业公告的时间周期为季,宏观市场指标有月也有年,而新闻的时间频率可以为秒,并且客户特征也是随着时间变化的。将不同时间周期的数据统一归结为按日期的特征必须处理有大量数据。从而可以保证,样本是指定客户在其当时的特征下,根据当时的市场特征以及股票特征做出的购买持仓决定。
3、 模型效果评估
这是我很迷惑的部分,这么高维度的特征数据,如何根据需求判断不同参数的结果优劣。一般评估模型效果都是用AUC (Area under the Curve of ROC) ROC曲线下面积, ROC为接收者操作特征曲线(Receiver Operating Characteristic Curve)。
而我们实际会选择排序列表作为推荐名单,这时,阀值Threshold的选取就很重要。一些商业的产品会使用其他参数来评估。每当看到AUC莫名的增长,总是让人喜悦的,虽然有时会发现是由于数据处理错误导致的。
实践中,我们完全可以用模型预测过去一段时期的购买持仓,并和实际交易数据对比。在类似案例中的测试结果表明,相对于简单规则和随机预测,该模型的准确率可提供10倍以上。这个结果也是可以预期的,在高维数据,不断迭代局部优化,可以捕抓一些长尾特征。如下图,可以捕捉那些少数群体特征。
总结
1 、本文讨论用逻辑回归模型预测在金融市场情景下客户对指定金融产品的购买概率。认为可以假设客户每日的持仓,是基于当时金融市场情景以及金融产品属性作出决策的独立事件。从而可以在客户特征,金融产品特征以及市场特征三个方面关联作为样本数据,并以当日购买持仓为标记使用逻辑回归做预测。另外本文还探讨了TB级百万特征金融数据处理的一些方法与经验。
2、 可能的应用场景,该模型方法可应用于金融产品推荐。
也许有人会疑惑该模型的商业价值,但难道您就没看到该模型是在沿着行为金融学基本问题"基于有限理性的金融资产预期定价问题" [1]向着"看不见的手"发起挑战吗?
假设我们可以将人的金融需求特征完成特量化,又将股票特征量化,结合当时市场场景,自动撮合交易。想象下,多么美好,再也没有泡沫与股灾。
在Matrix(黑客帝国中的主机)中一切皆有定数。
以上言论纯属YY,人的行为当然不能完全量化。
3、 如何将金融领域知识加入机器学习模型,是我很想感兴趣的部分,欢迎讨论。
参考文献:
[1] 汪丁丁.行为金融学基本问题.财经问题研究, 2010, 7 .
本文系未央网专栏作者袁峻峰发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!
用微信扫描可以分享至好友和朋友圈
扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。
上一篇:新三板禁止存续期未满企业借壳 P2P上市之路愈难
下一篇:供应链金融各种玩法下的法律风险——“商业保理+x”(上)
发表评论
发表评论
您的评论提交后会进行审核,审核通过的留言会展示在下方留言区域,请耐心等待。
免责声明:新闻资讯来源于合作媒体等,不代表本网观点,仅供参考,并不构成投资建议,风险自担。如涉版权,联系处理。
- 房地产信贷进一步趋紧 房贷利率还有多少上浮空间 ...
- 竞逐三四线城市,加码新零售,家居企业加速跑 ...
- 吉林省成立家具售后服务维权中心 ...
- “红五月”热销行情不再,楼市去化压力普遍增加 ...
- 这条高铁下半年通车!深圳北出发3小时到梅州,太方 ...
- 热点城市调控收紧 地产融资再遇严控 ...
- 5G带来技术革新,智能门锁或将成为智能化生活的 ...
- MUJI十次降价谋翻身,中国消费者为何不再“买账 ...
- 卓艺装饰与广州城建职业学院签订院企战略合作协 ...
- 龙湖智慧服务在广佛用心筑家 ...
- 智能锁具想要获得长足发展,行业标准的制定势在必 ...
- 家电企业破局不能只盯产品升级这一条路 ...
- 全国首个蒙娜丽莎绿屋定制馆在太原开业 ...
- 双城联动,流量爆棚,阿里郎游鸿明携手为朗斯品牌 ...
- 各项数据持续走低,家具企业如何主动破局自寻 ...
- 墙面返潮与漏水的区别 ?墙体漏水的原因 ...
- 赛迪孙会峰:新基建中充电桩市场将达万亿
- 盘手网诚招全国网络代理商,在家也可赚大钱!
- 搜狗2019年营收80亿,创历史新高 增速领先行业水平
- 白色情人节送什么礼物?中兴天机Axon 5G旗舰手机貌美又实用!
- 振东制药作为全国最大的中药材基地之一 让中医药为人类健康做出更大贡献
- 驰援武汉, HPE在行动
- 掌上“课堂”如何让一部中兴天机5G旗舰化身在线学习助手
- 游戏性能超群 中兴天机Axon 5G旗舰助你掌控全场
- 众志成城!振东制药扛起中医药抗“疫”旗帜
- 高效“云办公” 中兴天机Axon 5G旗舰助你一臂之力
- 跟随金融科技浪潮 富邦华一线上“防疫”出大招
- E乐购强势登陆千家万户,即将与你共享经济财富
- 富邦华一银行落地首单疫情防控债认购 精准助力疫情防控
- 战“疫情” 爱玛启动100家医院10万名医护人员爱心驰援行动
- 保价格、保质量、保供应 三元食品向社会庄严承诺
- 深圳二手房挂牌价 半年跌幅1.13%
- 三峰木门形象代言人陈建斌老师喜迎二胎
- 发改委印发第17号公告,工程咨询单位实行告知
- 多因素致资金面恶化 271家房企宣告破产清算
- 嘉元科技在国内锂箔行业提交登记科创主板技术领先的应用
- 没有比较就没有差距:茶叶小罐赢得对比度的第三方评估NO。1
- 美国投资移民改革法案不惜任何代价地板被认为新政
- 景瑞满足偿债高峰控股年内出台的13%的最高利率债务的3美元
- [支链]威板专用的信息深入研究
- 卫浴行业不景气,三大问题亟待解决
- 租房常住人口可落公共户口,发改委推重点人群城市落户
- 共筑精装梦:一场不可缺席的房地产供应链发展峰会
- 小程序月活超3800万 贝壳找房摘得金瑞奖“最佳小程序流量担当奖”
- 打破了国外的技术垄断巨化股份写的高品质发展的新篇章
- 房地产依赖度降低 海南经济转型加快自贸区建设