基于机器学习算法的债券流动性预测-泰国旅游信息网

　　摘要

　　对投资者而言，标的资产的流动性变化对制定投资策略、防控风险具有重要意义。本文主要关注债券在未来一段时间的流动性，创新性地融合先验知识，使用债券的动静态特征信息，训练出可解释的概率分层决策链模型，实现对流动性的预测。此外，本文提出基于投资组合的未来流动性分数指标，实现在不同投资组合之间的流动性排序，并可以观测在连续时间窗口下的未来流动性的变化。资产管理人也可对不同流动性等级的债券设置变现比例，根据债券当日市值完成对资产组合的可变现金额测算，进一步提升流动性管理能力。

　　关键词

　　债券流动性　债券组合流动性　机器学习　贝叶斯统计

　　引言

　　从债券市场看，较好的流动性是指在合理的价格范围内有大量债券可供交易，且大额交易不会对价格造成较大冲击。从投资者角度看，较好的流动性意味着债券可以合理的价格迅速变现。预测未来流动性，可以提前测算债券资产的可变现比例，对做好资金流动性规划有一定作用。

　　受限于债券的发行主体、方式、规模、产品条款、投资者特征等多重因素，传统的基于人工预测流动性的方法缺乏时效性和智能化，也无法及时捕捉到市场的动量信息和非线性规律。近年来随着机器学习的发展，市场开始引入复杂模型来预测流动性，但无法直接结合先验知识。虽然不同债券流动性的差异较大，但存在一定的共识，即研究人员普遍认为信用债流动性弱于利率债。如果把这些先验知识融入机器学习模型，将大大提高预测模型的精度和可信度。

　　在预测流动性过程中，结果的可解释性非常重要。传统机器学习模型虽然精度较高，但缺乏可解释性。像XGBoost等内部黑盒的模型无法直接被人类理解，即使给出预测值，预测逻辑也未知。

　　资产管理领域中，以债券资产为主的投资组合较为常见。除组合收益率外，组合流动性量化也值得研究。如果我们对市场中所有存续债券的未来流动性进行量化，将预测结果映射到任意债券投资组合中，计算出综合流动性量化分数，便可比较不同的投资组合，为流动性风险定价提供实证依据。

　　基于上述挑战，本文对债券流动性预测提出新的解决方案，结合专家经验设定可变现比例，对投资组合的可变现能力进行量化。创新点有三方面：一是构建清晰可解释性的决策模型，二是动态调整预测模型，三是建立投资组合流动性评价能力模型。

　　流动性预测基本模型

　　（一）问题定义与预处理

　　度量债券流动性的指标一般包括即时性、宽度、深度。即时性是指一定时间内的成交量；宽度是指买卖价差，买卖价差越小，流动性越好；深度指标一般使用换手率，即债券在一定规模下的成交量大小。

　　买卖价差数据获取难度较大，宽度被排除。新债和老债的换手率阈值不同，无法统一比较。成交量可以综合判断债券流动性，成交量越高，流动性越大。基于上述原因，本文将以即时性作为衡量流动性的维度，用未来30天的日均成交量作为流动性能力的度量指标，即模型的目标变量（Y）。

　　个券的特征（X）分为静态特征和动态特征。静态特征主要是债券的自有属性，比如资产类别、发行场所、付息方式等。动态特征是会随时间变化的特征，比如信用评级、存续期限、过去30天交易量、到期收益率等。类别型数据无法直接入模，在此我们根据专家经验做预处理，转化为数值型数据（见表1）。对于缺失特征的个券，我们的填充策略是使用众数进行填充。处理完输入特征数据后按照对应的时间关联个券未来30天的日均成交量，形成完整的数据集。

　　（二）模型介绍

　　递减规则列表模型（FRL）是一种监督预测模型，可用于预测个券未来的流动性。该模型由Futong Wang和Cynthia Rudin于2015年提出，类似一棵向右生长的二叉树，优点是可以学习到与人工经验类似的评价方式。先用关联分析的方法来挖掘规则，形成规则池，接着使用贝叶斯方法在规则池中挑选后验概率最大的规则，可以产出预测结果的规则列表。

　　（三）模型产出

　　FRL模型结构和专家的判断逻辑非常相似，对于债券的流动性预测模型，先构造出历史训练集。债券的流动性（Y）使用未来30天的日均成交量描述，相关债券特征（X）包括存续期限、发行方式、资产类别等。训练完FRL模型结构如图1所示。

　　为展现训练好的模型预测逻辑，以下对单个债券样本的预测路径进行描述。假设当天有1只剩余期限为1年且私募发行的信用债，经过图1的二叉树，第一层规则判断的是债券的剩余期限，该债券的剩余期限为1年，不满足规则的阈值（小于6个月），因此自动落入第二个判断节点来预测发行方式。该债券属于私募发行，不满足第二层判断规则，因此继续落入右边子节点，进行第三层的判断逻辑，即资产类别。该债券属于信用债，不属于同业存单或者利率债，继续落入右边子节点，也就是模型的叶子节点，得到了最终的流动性分数。

　　实证研究

　　本文将对常配置的债券类投资组合进行分析，以展示如何对组合型资产的可变现能力进行预测。

　　（一）数据处理与模型训练

　　数据选取市场中未到期的债券样本，并加工动静态特征。按照表1的编码方式，将类别型特征转换为数值型特征，并对缺失特征进行填充，确保数据的准确性和一致性。

　　建模阶段，对于时序类数据，按照前后的时间窗口来划分训练集和测试集，确保无数据穿越问题。将训练集输入FRL模型，生成模型的预测成交量。训练集选择2023年8月24日—11月24日期间的存续债券，目标变量是债券未来流动性（即时性指标）。基于专家经验，如果日均成交量大于100手，则认为债券流动性较强，并标记为1，否则为0。特征方面则是当日可以获得的债券信息。

　　得到个券未来30天的流动性预估分数之后，将其映射为3个等级（0~2），转化为多分类模型，展示债券之间的相对流动性。具体规则如表2所示，预测分数越大代表流动性越好。

　　（二）模型预测

　　模型训练结束后在测试集上进行评价，以2023年11月25日—12月25日为测试集时间窗口，用训练好的模型对存续的104万样本进行预测，并转化为预测的流动性等级。真实的流动性等级根据专家经验设置，小于100手等级为0，在100手至10000手之间等级为1，大于10000手等级为2（见表3）。本文使用机器学习模型常用的准确率、召回率、精确率这3个指标来评价：

　　a．准确率是预测正确的个券样本数/全部的样本数；

　　b．召回率是根据上述3个得分来单独计算，每个分数档的召回率=该分数档下预测正确的样本数/真实为该分数档的样本数；

　　c．精确率是根据上述3个得分来单独计算，每个分数档的精确率=该分数档下预测正确的样本数/预测为该分数档的样本数。

　　测试集中预测准确的样本有87万只，准确率为83.3%。

　　FRL模型在高流动性和低流动性的债券组中召回率较高。在低流动性债券中的精确率最高，说明模型在预测低流动性债券中效果较好。

　　对预测出的各流动性等级下的债券，计算不同属性下每个债券池中的平均交易量，记为交易活跃度指数（单位为万手），数值越大，代表流动性越强。

　　如表4所示，各维度的统计结果表明预测的流动性等级越高，真实的平均交易量越高。且满足市场对债券流动性的共识，比如利率债的交易活跃度明显高于信用债，公募债的交易活跃度显著高于私募债，随着存续期限的增加交易活跃度降低。从到期收益率来看，高流动性组中收益率在[2%，3%）的债券交易活跃度最高。此外，债券市场上永续债的交易活跃度指数高于非永续债，因为永续债大都为信用风险低的金融永续债，整体上交易较活跃。

　　表5、6、7分别展示3个流动性组中部分债券样本。在每个流动性等级池中，公募发行、存续时间在6个月以下的债券更活跃。中低流动性组中，非利率债、永续债较活跃；高流动性组中，利率债、非永续债较活跃，到期收益率分布稳定，信用评级较高。历史流动性对未来流动性的影响也较大，一般过去流动性越好，未来流动性也会越高。如债券7与债券10，基本属性类似，均为公募发行且存续期限在6个月以下的利率债，到期收益率的差异较小，但过去流动性差距较大，模型及时抓住该动态信息并反馈到最终的流动性等级分类中。

　　（三）预测结果的应用

　　1．个券的流动性评价

　　对模型预测的个券流动性等级，按照流动性等级0~2来分组分析。如果发现有潜在流动性风险，则可以参考模型预测的未来流动性排名来进行处置。

　　2．债券投资组合的流动性评价

　　本文提出3个指标评价债券组合的流动性。一是基于算术平均的未来流动性综合分数（FLI）。二是基于市值加权的未来流动性综合分数（WFLI）。三是基于持仓金额的可变现金额（RA）。具体的计算公式如下：

　　（1）FLI：

　　ranki，其中ranki代表第i个债券的流动性等级排名，n为债券个数。

　　（2）WFLI：

　　wi×ranki，其中wi代表第i个债券的市值在投资组合中的权重，ranki代表第i个债券的流动性等级排名，n为债券个数。

　　（3）RA：

　　valuei×ri，其中valuei代表债券投组对第i个债券的持仓市值，ri代表第i个债券的可变现比例，n为债券个数。

　　FLI的范围为0~2，WFLI的范围为0~2。RA的范围为

　　valuei（rmin代表最小可变现比例）。3个指标的数值越大，代表组合的流动性越好。

　　valuei×rmin~

　　基于FRL模型的预测结果，可以预测个券在未来流动性的等级。设置对应的可变现比例并计算债券资产组合的可变现金额。依据专家经验，对流动性等级为0、1、2的债券分别设置为0.3、0.6、0.9。

　　对表8的债券投资组合进行流动性指标计算，FLI为1.25，WFLI为1.5，RA为6600万元，占总市值的66%。

　　3．投资组合之间的流动性矩阵

　　应用上述FLI可以对投资组合的流动性进行比较。每个债券投资组合的FLI范围为0~2，由于个券的属性每天变化，可从横向和纵向两个角度来观测债券投资组合的未来流动性变化，形成观测矩阵。

　　表9展示债券投资组合的未来流动性观测矩阵，横向角度可以看到在某一时间段下不同债券投组的FLI。纵向上，可以观测同一债券组合的未来流动性变化，比如债券投组1的未来流动性先下降后上升。此外，还计算了在特定时间窗口下投组的平均值和标准差，比如债券投组4在2023年12月1日至12月4日的平均流动性最高；但是债券投组3的流动性标准差最低，说明该组合流动性比较稳定。

　　结论与展望

　　本文基于可解释的机器学习模型和专家知识，形成评价债券投资组合的FLI，加权WFLI和可变现金额RA。从横向和纵向角度，对不同债券投资组合进行评价，为投资者提供了债券资产及其组合的流动性风险管理依据，对自营业务、资管业务均具有借鉴意义。未来可进一步优化模型层。FRL模型虽然可解释性较好，但是规则限制性较强，可以加强对交叉规则的挖掘，对不同流动性债券进一步细分。

　　参考文献

　　[1]焦健，张雪莹．债券违约对流动性影响的传染效应研究[J]．证券市场导报，2021（1）．

　　[2]王振瀚、唐瀚明，投资视角看信用债流动性“潮汐”——对券种、信用资质和期限的流动性分析[EB/OL]． https：//h5.drcnet.com.cn/docview.aspx？version=finance&docid=7376621&leafid=15102&chnid=3945．

　　[3] 赵洋．交易所国债市场流动性影响因素的实证研究[J]．生产力研究，2009（3）．

　　[4]周舟、李鸿禧，我国国债市场流动性影响因素研究（上篇）[EB/OL]．https：//www.sohu.com/a/472844599_121123914．

　　[5]Wang F， Rudin C． Falling rule lists [C]． Artificial intelligence and statistics． PMLR， 2015．

　　◇ 本文原载《债券》2024年7月刊

　　 ◇ 作者：蚂蚁集团信贷事业群何悦　王海洋　王一博　李天明

　　◇ 编辑：高兰兰　陈森　鹿宁宁

责任编辑：赵思远

未经允许不得转载：泰国旅游信息网 » 基于机器学习算法的债券流动性预测