期货量化交易数据平台浅谈

量化交易是用数学模型替代人为的主观判断,利用计算机技术从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略,主要就是用计算机来代替人类做主观判断;这里我们主要讨论普通商品期货。

多因子线性模型(目前都是基于Tick数据进行预测)

X: 影响收益率的因素 - 因子

A: 每个因素的权重 - 系数

因子

系数

15个节点,每天接收1G左右数据,2010-2017年总数据量大概1T左右,2010-2017年hbase数据总量1亿条左右

500毫秒一个tick数据

多线程异步写入kafka

数据清洗和过滤逻辑,时间戳补齐,品种名称统一等等

hbase的表名和kafka的Topic名称依据期货品种名称设计,key设计依据数据毫秒时间戳,利于业务数据操作

历史批量数据导入,使用BulkLoad快速导入HBase中,其原理是直接将生产的特定文件格式直接导入到hdfs中,符合HBase底层数据文件格式,然后通过工具BulkLoad直接挂接到HBase下即可,会通过mapreduce批量执行任务,这样大大提高记录逐行导入至HBase的效率。

topic的partiton个数需要根据consumer并行度设置,即在consumer group中有几个consumer实例,就设置几个partion,其目的是为了最大化topic的并行消费能力。

Mapper中执行程序找不到hbase相关的jar,cp到hadoop目录下的lib也不行,使用assemble把依赖的包全部打成一个jar;

集群上运行mapreduce程序,需要读取hbase相关,可能找不到hbase配置文件的问题

hadoop-env.sh export HADOOP_CLASSPATH="$HADOOP_CLASSPATH:$HBASE_HOME/lib/*"

开启thrift服务,用于python访问

linux系统最大文件打开数设置,否则出现Premature EOF from inputStream异常

增加压缩存储功能snappy,否则hdfs空间占用太大

平台在生产过程中,产生大量日志,其中zookeeper的日志较多,通过脚本或者命令清理。

echo “”>zookeeper.out ls | xargs truncate -s 0

Ambari来监控所有硬件资源和软件服务,较好的ui方便数据平台的管理。

总计算节点的总核数决定了并发执行的task数;

多线程、进程增加多作业执行,增加并行度;配置在作业之间轮询调度;

conf.set("spark.scheduler.mode", "FAIR")

尽量把数据分成等份的task进行并行计算,不让每个task计算时间过长,对数据进行partition,需要不断调试,找到合适的值;

对于pair类型的rdd,尽量把key进行细化,在拆分,这样数据集粒度更细,并行度更好;

当rdd后续需要进行各种join等连接操作时,特别是对于pair rdd,就需要进行分区;并且如果此rdd被反复多次使用,就需要cache操作;

做join的时候,尽量用小RDD去join大RDD,用大RDD去join超大的RDD;

RDD如果后面使用迭代,建议cache,但是一定要估计好数据的大小,避免比cache设定的内存还要大,如果大过内存就会删除之前存储的cache,可能导致计算错误,如果想要完全的存储可以设置如下

persist(MEMORY_AND_DISK)

因子和权重系数计算使用spark计算平台,10个节点,从21分钟优化到2.7分钟;