

问题背景:
问题1:针对中国gu票市场,请建立分类模型,将附录 2 中湾区指数的 30 只gu票进行分类,选出最适合进行高频交易的 10 只gu票。
解决思路:
1、首先需要进行数据合并,将不同的gu票的数据按照行进行连接。
2、可以将行情指标与高频因子组成变量集,将其作为自变量,以收益率作为因变量,来建立机器学习预测模型,并且以预测的年收益率排名在10的gu票作为最适合进行高频交易的10支gu票。(spsspro支持机器学习回归模型,并且,若是数据太多,也可以在spsspro的数据处理模块进行降维处理后再去建立机器学习模型)
行情数据指标包括开盘价(open)、收盘价(close)、最高价(high)、最低价(low)、成交 量(volume)以及成交额(money),可以用来构建高频因子(包括收益率分布因子、成交量分布因子)
参考文献【基于XGBoost的高频选股研究】指出加入高频指标建立的机器学习模型的精度更好 以下是一些常见的高频指标:
问题2:高频交易策略--可以选用配对交易策略 1、首先需要进行资产配对
可以利用相关性分析,找出相关性最大的两个gu票作为配对资产,spsspro存在相关性分析
2、确定gu票配对的交易比例
可以用到协整检验,sspsspro中的话可以用线性回归来的得到配对交易比例)
3、构造价差序列
常常直接使用协整回归的残差序列代替减去均值的价差序列
4、对价差序列的波动性进行分析
spsspro存在GARCH模型来分析价差序列
5、开平仓规则
通过协整回归得到gu票的价差序列,其表达式为:Spreadt= yt - β · xt ,当价差序列为正,且超过波动范围的上界时,表示 Y gu票的价格被高估、X gu票的价格被低估,此时应该卖出 1 份 Y gu票的同时买入β份 X gu票;当价差序列为负, 且超过波动范围的下界时,表示 X gu票的价格被高估、Y gu票的价格被低估, 此时应该卖出一份 X gu票的同时买入β份 Y 股
问题3:运用任务 2 设计的交易策略,对以下gu票组合进行高频交易。 假若某粤港澳基金公司同时持有中国平安、美的集团,以及从上面任务 1 中选出来的 2 只湾区指数的gu票,共 4 只gu票,每只gu票市值均为 150 万元(按 2022 年 10 月 31 日收盘 价算),同时账号持有流动资金 400 万元,合计 1000 万市值。请为该粤港澳基金公司设计 2 高频交易策略,计算gu票的收益率,给出收益率曲线。
分别以中国平安、美的集团为基准,找到对应的相关性最强的gu票作为配对样本,随后再编写代码进行交易策略运行
相关推荐
第三届数据分析科普竞赛优秀协办单位及校园大使名单公布!