当前位置 博文首页 > LY的博客:量化策略多因子选股之SPSS MODLER建模
TARGET设置为当日股价/半年前股价,若大于1则为盈利,设为1.小于等于1,设为0。 以后可以考虑再减去无风险收益率或者沪深300收益率,以体现超额收益。
数据来自于20180324的股价,20170901的股价,股票池为中证500和沪深300成分股(与数千只A股总量相比,它们的流动性、市值和规模具有显著特点,所以测试结果并不保证适用于其他股票,尤其是小市值不稳定的创业板块)
部分财务数据取对数减少其流动性,训练集为70%,测试集30%,没有考虑采用迅雷+验证+测试,因为数据量不够大。
选取财务数据为:个股行业,201709月公布财报时的股价,log流通市值,log总市值,pe,roe,log净利润,利润同比增长,净利润率,毛利率,log营业收入,mbrg主营业务收入增长率(%),nprg净利润增长率(%),20180323(财报半年后股价)。mbrg和nprg都有部分空缺值。
目标为预测股价是否增长。
对13个分类算法模型进行测试并评分,选出测试集准确最高的3个模型进行加权组合为集合模型
排名前三位的是三个决策树类模型
组合模型的准确度显著高过三个单独的模型,但三个决策树的组合不禁让我怀疑是否会过度拟合。
变量重要性比较图,差别不大,ROE较为重要
CHAID 树查看器,75%
C&R树:
C5.0:
--
LOGISTIC 分类
? 方程式用于 0
? ?+ 0.00000000000000000000
? 方程式用于 1
? ?0.0003492 * pe +?
? ?0.001576 * roe +?
? ?0.004322 * profits_yoy +?
? ?-0.05296 * net_profit_ratio +?
? ?0.005209 * gross_profit_rate +?
? ?0.007028 * mbrg +?
? ?-0.004223 * nprg +?
? ?-0.9064 * marketvalue_Log10 +?
? ?3.007 * totalvalue_Log10 +?
? ?2.537 * net_profits_Log10 +?
? ?-1.173 * business_income_Log10 +?
? ?9.481 * [industry=白酒] +?
? ?10.06 * [industry=百货] +?
? ?11.67 * [industry=半导体] +?
? ?8.279 * [industry=保险] +?
? ?9.406 * [industry=玻璃] +?
? ?-73.2 * [industry=仓储物流] +?
? ?9.078 * [industry=超市连锁] +?
? ?0.5356 * [industry=出版业] +?
? ?-1.141 * [industry=船舶] +?
? ?10.74 * [industry=电脑设备] +?
? ?10.54 * [industry=电气设备] +?
? ?2.065 * [industry=电器连锁] +?
? ?10.46 * [industry=电器仪表] +?
? ?9.407 * [industry=电信运营] +?
? ?-1.332 * [industry=多元金融] +?
? ?-0.1655 * [industry=房产服务] +?
? ?-0.2103 * [industry=服饰] +?
? ?1.235 * [industry=钢加工] +?
? ?9.663 * [industry=港口] +?
? ?9.816 * [industry=工程机械] +?
? ?0.7729 * [industry=公共交通] +?
? ?0.8514 * [industry=供气供热] +?
? ?0.1322 * [industry=广告包装] +?
? ?9.676 * [industry=航空] +?
? ?1.709 * [industry=红黄药酒] +?
? ?8.165 * [industry=互联网] +?
? ?2.06 * [industry=化工机械] +?
? ?10.09 * [industry=化工原料] +?
? ?10.54 * [industry=化纤] +?
? ?10.83 * [industry=化学制药] +?
? ?-0.04307 * [industry=环境保护] +?
? ?-0.1378 * [industry=黄金] +?
? ?7.757 * [industry=火力发电] +?
? ?10.49 * [industry=机场] +?
? ?9.776 * [industry=机械基件] +?
? ?9.982 * [industry=家居用品] +?
? ?10.75 * [industry=家用电器] +?
? ?7.33 * [industry=建筑施工] +?
? ?-1.836 * [industry=焦炭加工] +?
? ?7.917 * [industry=空运] +?
? ?53.2 * [industry=矿物制品] +?
? ?3.84 * [industry=林业] +?
? ?19.61 * [industry=旅游服务] +?
? ?9.343 * [industry=铝] +?
? ?-20.75 * [industry=煤炭开采] +?
? ?0.5587 * [industry=摩托车] +?
? ?11.34 * [industry=农药化肥] +?
? ?2.063 * [industry=农业综合] +?
? ?0.6792 * [industry=批发业] +?
? ?21.29 * [industry=啤酒] +?
? ?-7.317 * [industry=普钢] +?
? ?11.49 * [industry=其他建材] +?
? ?1.779 * [industry=汽车服务] +?
? ?8.598 * [industry=汽车配件] +?
? ?8.333 * [industry=汽车整车] +?
? ?-1.283 * [industry=铅锌] +?
? ?0.4774 * [industry=轻工机械] +?
? ?9.946 * [industry=区域地产] +?
? ?9.494 * [industry=全国地产] +?
? ?11.56 * [industry=染料涂料] +?
? ?18.25 * [industry=乳制品] +?
? ?9.661 * [industry=软件服务] +?
? ?1.447 * [industry=软饮料] +?
? ?-0.2329 * [industry=商贸代理] +?
? ?-0.7887 * [industry=商品城] +?
? ?10.86 * [industry=生物制药] +?
? ?6.504 * [industry=石油加工] +?
? ?0.4152 * [industry=石油开采] +?
? ?10.23 * [industry=食品] +?
? ?-0.216 * [industry=水力发电] +?
? ?-2.132 * [industry=水泥] +?
? ?-38.98 * [industry=水运] +?
? ?22.57 * [industry=饲料] +?
? ?3.261 * [industry=塑料] +?
? ?-2.684 * [industry=铁路] +?
? ?9.348 * [industry=通信设备] +?
? ?-0.4796 * [industry=铜] +?
? ?0.7619 * [industry=文教休闲] +?
? ?-1.559 * [industry=小金属] +?
? ?-1.829 * [industry=新型电力] +?
? ?10.36 * [industry=医疗保健] +?
? ?-0.4588 * [industry=医药商业] +?
? ?-0.7248 * [industry=影视音像] +?
? ?9.393 * [industry=元器件] +?
? ?-0.9525 * [industry=园区开发] +?
? ?17.83 * [industry=运输设备] +?
? ?20.67 * [industry=造纸] +?
? ?37.8 * [industry=证券] +?
? ?10.16 * [industry=中成药] +?
? ?21.55 * [industry=种植业] +?
? ?9.94 * [industry=专用机械] +?
? ?0.6874 * [industry=装修装饰] +?
? ?+ -22.5
朴素贝叶斯:
神经网络:
SVM: