今日实时汇率

1 美元(USD)=

7.2542 人民币(CNY)

反向汇率:1 CNY = 0.1379 USD   更新时间:2025-02-24 08:02:31

在美国,共和党和民主党喜爱争论政府效率这个问题。共和党 称政府没有私人企业高效,而民主党的观点与此相反。然而,什么时候美国政府做过任何实事呢?哪怕是任何事情?说真的,什么时候有过? 我们看看二战后的美国。他们做了些事情——大事。他们建造了高速道路系统。他们登上了月球。他们创造了郊区、医保系统、现代高校系统、汽车文化和其他许多关于美国的我们了解和所爱和所憎的地方。 那么,美国政府真正做了些什么呢?过去十年的“巨大的立法成果”没有在多大程度上改变美国人的生活。医疗法案呢?法案实施后,你有医保仍然需要为医疗保健服务掏钱付费。医保仍然由雇主提供。若你失业了,你不是依旧需要支付高昂的医疗保险费,就是要支付巨额的医疗费用(费用比保险公司实际支付的高许多)。穷人依然有医疗补助,老人依然受到医疗照顾。虽然你可能不得不多填一张表格,在某个地方少花钱,在另一个地方多花钱,但是对几乎所有人来讲情况不会真正发生什么变化。 事情真的是没有变化的吗?是的。你想一想,100年以前,刚刚所有的那些事物都不存在。没有医保,没有医疗照顾,没有医疗救助。你的雇主肯定不需要为任何事物买单。医生对任何人的收费都相同,你付给医生的是现金。没有FDA对药物做出批准。也根本没有FDA食品药物局。没有卫生署,或者HMO、 PPO、 FSA、 MSA或三个缩略字母的其他署。所有那些事物都是政府在过去的一个世纪当中创立的。 医疗保障系统过去往往基本都是私人开销,现如今这方面的开销半公半私。所以,一个现今有可比性的改变——有可比性是相对政府当初做事时候来说的——这个改变即是将医疗的开销全部私人化,并消除医疗照顾、医疗补助和其他所有医疗相关的政府项目。又抑或,在另一端入手,将此开销全部公有化,并且创建一个像加拿大有单一付款人的医保系统。上述任一一种情况在未来十年发生的可能性是多大呢? 又或者,考虑下“华尔街改革”法案。这个法案实际会做些什么呢?我只有最模糊的想法,而我却是一个经济学专业的。最有可能的情况是,法案似乎会为金融机构增加文书工作量。但这些机构都会以基本上和目前的形式依然存续。商业银行、私人股本公司和对冲基金仍然会存在。初次公开发行、抵押、股票交易和公司债券也依然会有。 将“华尔街法案”同政府在实施新政期间的行为对比。以下只是一些政府所做的事情。-创建了SEC,该委员会是首个规制股票的政府部门-消除了全部用黄金结算的习惯,用不能赎回的美金来代替-在全国上下为所有的银行存款投保-创建了有固定月供的贷款 你能想象政府在今日做像上面这样的事情的情形吗?你能想象政府消除SEC吗——现在任何人都允许为他们想要的任何公司向公众发行股票?或是禁止所有贷款行为吗——很抱歉,购买那栋房子必须使用现金支付?或是抛弃所有美金,用欧元取而代之?或是消除存款保险金?政府以前经常做像这样的事情。 为了详尽讲述一个例子,黄金一直是本币,在美国、欧洲、古希腊和古罗马的历史和追溯到世界的文明之始一直是这个样子。美国政府但是禁用了黄金。你能想象联邦特工到你和你邻居的家里,没收所有的纸币和硬币,用日元取代他们所有吗?过去的情况就像是这样子的。即使我们可以争论那样做是好是坏,但是政府现在只不过不做那样的事而已了。那样在政治上实在是很不现实。 这样的例子数不胜数。太空探索的例子呢?NASA的能力很明显已经被spaceX和其他私人竞争对手所超越——NASA甚至连一个载人的太空航天器也不再有了。基础设施建设呢?在过去的四十年中纽约增添了七个地铁车站,而车站总数为468个。社会福利呢?最近一次的变化发生在1983年。税收呢?基本情况没什么变化,自里根总统的改革以来它或许有百分之几的波动。军事呢?我们最强大的武器——我们的核导弹、航母战场组、轰炸机、战斗机和主战坦克——他们尽管在电子和其他方面在某种程度上有所进步,但仍和1970年代最强有力的武器相差无几。伊拉克战场大体上和越南是同样类型的战争。(当然我们减少了征兵,但早在30多年前开始我们就不征兵了。)教育呢?如果你被移动回到一个1950年代的教室当中,我打赌你除非从人们穿着的区别中发现,否则你不可能看出当时的课堂和现在的区别。这样的例子还有很多、很多 那为什么美国政府不做什么实事呢?就在最近(从2010年开始),有种来自共和党的特殊形式的政治堵塞,共和党人不愿意支持任何奥巴马总统扶持的事物,而这样的行为也带来了像债务限额危机这样的情况。但事情的趋势远比此更深远和广泛。如果我非要把这个归结到一各原因上的话,那便是因为就我们的***而言他们令人烦恼地缺乏远见。除开那疯狂的茶党,今日的政府里面没有人觉得应当和现在的情况有巨大的出入。 举个例子说。有人可能会浏览巴拉克奥巴马的网站。网站上甚至没有任何提案,有的只是关于奥巴马已经做的事情的讨论,那些大多是对一小部分人产生很小作用的小事。或者当一个人浏览米特罗姆尼的网站的时候,上面的提案同样很小——对这个做出百分之几的改动,对那个做出百分之几的削减,而且(主要)反映奥巴马总统所做过的所有事情。虽然所有的活动都包括抨击对手,但这个集中在过去行为的活动很令人惊叹。某个候选人只谈论他已经做过的事情,然而另外那个候选人只谈论报道,好像在奥巴马上任前2008年时候世界是很完美的。我们不能改变历史。那对未来我们能做什么呢?NVIDIA 图形驱动程序安装失败/mpweixinqqcom/s/pPo_VnUZYNJmdJ7RJ2jvyw 各位亲爱的朋友大家好,今天我们接着来讲《道德经》第五十七章。在昨天我们讲了这样两句话,老子说“夫天下多忌讳,而民弥贫;民多利器,而邦家滋昏”。今天老子接着讲,如果领导者没有“道”的话,社会会出现什么情形。老子说“人多智而奇物滋起,法物滋彰而盗贼多有。”什么意思呢?我们一点点分析,很有意思。老子说,这老百姓、这人如果智慧特别多,特别多地用智慧的话,“奇物”就会特别多,“奇物”就会“滋起”,这些“奇物”指什么呢?“奇”是不正常的物品,是稀奇古怪的东西。老子整个这句话讲的是如果人智慧太多了,到处用智慧去做事的话,天下就会出现很多稀奇古怪的东西,这些东西不是我们正常生活所需要的,根本就没有什么作用,而且对生活有着不好的影响,这是老子说这话的意思。大家觉得老子讲的太奇怪了,难道我们智慧这么多是坏事吗?老子的思想,其实我们今天真应该好好想想,我们人是越来越聪明,那我问个问题,人越来越聪明,难道社会真的就百分之百地越来越好吗?这事我之前讲过,未必。比如说我们过去在古代吃完饭,吃饭剩了菜,剩了几块肉拿荷叶打包,包回来之后荷叶扔在地里边,它烂掉了成为泥土。现在我们用什么?我们发明了一种东西叫塑料,您说这够聪明吧,发明塑料当然聪明了,我们把地里的石油拿出来,用化学方式使得分子重新改变,然后变成塑料,成型。塑料的分子在自然界本身是不存在的,是我们给它造出来的。您看看我们聪明吧,我们人聪明,智慧很多,但是智慧多,我们因为自己想方便,我们想方便、想便利,结果造出了塑料,这塑料造出来以后消失不了了,您给它扔到地里边几百年都未必能分解掉。这塑料我们使用得很广泛,每次上超市买东西回来都用塑料袋拎回来,您用完之后再把它扔到垃圾箱里边去,这东西几百年都不会消失的,因为它没法被分解掉,或者说很难被分解掉。从大自然来讲,塑料就是“奇物”,是那种非自然的、不正常的东西。为什么出现?因为我们太有智慧了,我们现在平心而论,您觉得这智慧对人真的有好处吗?对这自然真的有好处吗?未必。我们再来讲汽车和飞机。汽车和飞机都是运输工具,它为什么会出现呢?主要是为了满足我们想到外边、到远处去看看那种欲望,我们想去看。比如说我们就想去看北极,我就想去看最南边什么样,我想去看去。在过去古代你走可能要走很久,现在坐飞机一会儿就到了。可是您知道这飞机把您搬过去代价是什么吗?是要烧大量的燃油的,这油是从地球里边抽出来的,我们天天为了把自己搬来搬去、搬来搬去,从地下抽出很多油来烧掉,我们走了那么远,我们看到外边世界对您的生活真的有用吗?您说这是满足我的理想啊。这理想真就那么有用吗?您觉得有那么有用吗?实际上我现在有个感触,我经常到各地讲课,每次到哪讲课,当地朋友都非常热情,推荐我本地著名的景点一定要去。一开始我很兴奋,每个景点都去看,结果看了一阵儿以后,后来就不看了,到现在我基本上不怎么看了。为什么?我发现,你小时候看一座山,会一直在想山那边有什么,其实你翻过去就发现山那边还是山,你想那个山那边又是什么,翻过去还是山。生活跟你是一样的,我发现这些景点都不出我心中所想,我心中想象的景点是这样的,去了看了也就是验证一下而已,跟这差不多,但实际上往往还没你想象的好呢。很多古代所说的这个楼、那个阁,全国几大楼之一、几大阁之一,想象特别美好,到那去一看旁边全是高楼大厦,在中间孤零零的一个很矮的楼,在古代觉得那是高的了,觉得文人写得特别美,现在边上都是好几十层的钢筋水泥的楼,这楼显得很低,一看在现代化的氛围中就一个孤零零的古典建筑在那儿,其实我看完我都觉得很凄凉,我觉得好像还没有我想象的好。汽车也是如此,开车非常便利,我们觉得方便,可是您知道这车它把您移来移去,从这移到那去,您觉得很方便,代价是什么?烧的是石油,也是从地球、大地里挖出来这些东西,这些东西挖出来烧掉就没有了,可是就是为了满足我们从这儿移动到那儿便利的需求。在过去可能骑马或者走步就行了,现在我们尽量想到远方,到越远越好,所以我们觉得开车便利,但是这种便利实际上可能会带来一些副作用。比如说我没开车之前我体形特别好,我开车以后发现自己肚子明显变大,因为运动减少了,您是便利了,但是您运动减少了。所以现在我尽量少开车,我开车的时候都有点心疼这个油。对于大自然来讲,车和飞机就是“奇物”,不是正常出现的,人本来就像动物一样,本来你是有一定范围的,你本来不需要走那么远,但是我们为了自己,人为的要走很远,我们发明了这些东西,都不是自然界所应该有的,结果消耗了自然的这些资源。我们来回移动,移动那么快真的有用吗?实际上一切烟消云散的时候,你会发现没什么用的,但是自然环境却被您改变了。所以“人多智而奇物滋起”,老子讲的是对的,老子特别清醒地洞悉了人们这种发展如果靠欲望来驱动,会导致社会出现什么问题。因为人们动用了智力,玩命用智力,结果让人类社会越发展越快,走上了一条不归路,这条不归路让人们根本就无法停下来,所以我觉得老子也没法阻止这种发展,但是老子非常清楚地洞悉了这种发展趋势。我们之前打仗拿刀对砍,一个人砍几个人差不多了,现在有了原子弹,一个炸弹扔过去,几十万人的城市就会瞬间灰飞烟灭,您说要造这原子弹,这智商得多高啊,这种智商让我们人类可能走上一条不归路。人为什么会动用这么多的智力去做事呢?是有一颗不安分之心,人们的欲望太多,想更加便利、想获得更多、想更享受。我们的洗衣机是为了免去体力洗衣服累,所以有洗衣机。上电梯是我们不想登楼等等,所有的科技发展基本上都是以人类希望便利、希望不费力气就能完成某工作等等,以这样的欲望为驱动,科技才进步的,您仔细想想是不是都这样。在现代社会这样的“人多智而奇物滋起”这种事更多了,我举个例子,比如说我们不只把它解释到物上边,我们来看看财经系统,人聪明,现在了不得。怎么聪明呢?我们办个保险公司,办保险公司让大家来保险,这保险的本质是平时大家把钱拿来放到我这儿,谁有问题了我们去给你补偿,从这里边做一种共济的模式,这里边有点利润,但是最终它的本质是保障大家,让大家能够共同抵抗风险,这是保险的本质。但是现在人们聪明搞个万能险,这万能险是好东西,可以理财用,把保险人的钱收上来,老百姓的钱都收上来,收上来之后我跟金融机构去谈去,我利用金融杠杆,这杠杆可了不得了,这就是人们的智慧,聪明啊。我们用各种各样的金融技巧,我拿10块钱,我最后能动用出1000块钱来,我有各种手段,不断地用金融手段。我觉得这杠杆其实相当程度带有赌博的成分,但是我们金融界人士聪明,我们就想出了这种杠杆的模式,我撬动1000块钱,我用这1000块钱去入股,我去购买上市公司的股票,我这钱多,我有钱。结果去触动实体经济、进入实体经济,进入以后就有风险了,为什么?因为它进来并不是真的想把公司经营好,他要借这公司股价的这种波动,从里边盈利,这里边就有风险,因为你进来时候如果股价跌了,那么你的钱会被套在里边,会损失了,您这用的是杠杆,你拿什么钱去还这些保险人的钱呢?因为保险资金是社会稳定的基础,是用来抗风险用的,每个人都有风险,我们互相共济抗风险用的,但是您用这钱相当于去赌博去了,如果赌输了您拿什么钱还呢?没有钱还的话会引起社会波动的,所以这种事是非常恶劣的行为。这种现象为什么会产生?人们贪婪,人们有智慧,所以金融的这种产物就是“奇物”,这智慧用到这上边,使得人们的贪婪之心倍增,让整个社会的风险就更大了。所以我们来看人的智慧是有两方面的:一方面,如果我们用来去救人,去保护环境,让我们更加和谐地生活,这个应该是一种质朴的“质”,这种“质”对人是有好处的;另一方面,但是如果我们是为了欲望而出发,我们把这个“智”用在了更多、更快地攫取,更多、更快、更好地去享受,为了虚幻的东西去追求它的时候,“智”就使人们遭受很大的损失,甚至走上不归路。老子对这种情况是有着非常清醒的认识的,老子认为领导者对这种“智”的把控非常重要,在《道德经》里边老子一直劝领导者一定要遏制民众的取巧之心,民众为了欲望去动用智慧之心,一定要回到那种质朴的状态,这是《道德经》的一个重要的思想之一。我们学了这段《道德经》以后,我们对自己的“智”也一定要有清醒的认识,在做事本身上是为了让大家更加受益的,我们用智慧好的,可是如果我们为了欲望、为了享受等等我们去用“智”的话,可能最终会非常得不偿失的。所以我们人变得质朴一点,这个“质”就不是智慧的“智”了,而是本质的“质”,如果我们变得质朴一些,我们的生活可能会更加稳固和扎实,可能更加和谐。可是如果我们每个人都为了自己的欲望而动用自己的智慧的话,我觉得您的生活只能用“累”一个字来形容。朋友们,今天我们《道德经》就讲到这儿,明天这个时间我们接着来讲《道德经》里边的人生道理,我们明天再见,不见不散。如何建立自己的算法交易重新安装,安装时选择自定义安装,把下面的“执行清洁安装”勾上就行了。1打开NVIDIA显卡驱动安装程序。2当出现这一步时,先不要进行任何操作,不要急着安装。3返回到桌面,右键“计算机”,点击“管理”。4点击“服务和应用程序”,再点击“服务”。5找到“Windows Installer”,右键选择“启动”并等待服务启动。6返回显卡驱动安装程序,执行下一步继续安装,便不会再次出现安装失败的情况。一、传统方法在某些假设下的显式最优策略Bertsimas, Dimitris, and Andrew W Lo "Optimal control of execution costs"Journal of Financial Markets11 (1998): 1-50这里假设了不同的价格冲击函数,然后求解得到最优的交易执行方案。根据参数的不同,最优的策略要么是全部开头卖掉、均匀减仓、或者全部最后卖掉。 /stuffmitedu/afs/athenamitedu/user/d/b/dbertsim/www/papers/Finance/Optimal%20control%20of%20execution%20costspdfAlmgren, Robert, and Neil Chriss "Optimal execution of portfolio transactions" Journal of Risk 3 (2001): 5-40 这篇文章我们专栏前面有讲过,很著名的 Almgren-Chriss 模型。 /wwwsmallakekr/wp-content/uploads/2016/03/optliqpdf张楚珩:交易执行Almgren-Chriss ModelGuéant O, Lehalle C A, Fernandez-Tapia J Optimal portfolio liquidation with limit orders[J] SIAM Journal on Financial Mathematics, 2012, 3(1):740-764这篇文章我们专栏前面也有讲过;前面的 Almgren-Chriss 其实考虑的是使用市价单,而这里考虑使用限价单进行交易。 /arxivorg/pdf/11063279pdf张楚珩:交易执行限价单交易执行Guéant, Olivier, and Charles‐Albert Lehalle "General intensity shapes in optimal liquidation" Mathematical Finance 253 (2015): 457-495这里也是考虑限价单进行交易,但是与前面不同的是:前一个假设限价单考虑的成交概率随着价格指数衰减,而这里考虑了一个更加一般的形式。 /arxivorg/pdf/12040148pdfCartea A, Jaimungal S Optimal execution with limit and market orders[J] Quantitative Finance, 2015, 15(8): 1279-1291这里考虑同时使用限价单和市价单进行交易,从而能够完成 Almgren-Chriss 模型所规定的方案,或者找到一个更有的交易方案。 /sci-hubse///wwwtandfonlinecom/doi/abs/101080/1469768820151032543Bulthuis, Brian, et al "Optimal execution of limit and market orders with trade director, speed limiter, and fill uncertainty" International Journal of Financial Engineering 402n03 (2017): 1750020也是考虑使用限价单和市价单一起交易。 /arxivorg/pdf/160404963pdf张楚珩:交易执行市价单+限价单 最优执行Cartea A, Jaimungal S Incorporating order-flow into optimal execution[J] Mathematics and Financial Economics, 2016, 10(3): 339-364这里考虑市场所有交易者的订单都会产生线性的短期/长期市场冲击,因此可以估计未来一段时间的订单流向(买单总量和卖单总量的差),从而能够在 Almgren-Chriss 模型的基础上进行一定的调整,使得策略更优。 /sci-hubse///linkspringercom/content/pdf/101007/s11579-016-0162-zpdf图书Cartea Á, Jaimungal S, Penalva J Algorithmic and high-frequency trading[M] Cambridge University Press, 2015讲交易执行的基础上,更侧重讲了一些数学工具。Guéant O The Financial Mathematics of Market Liquidity: From optimal execution to market making[M] CRC Press, 2016从 Almgren-Chriss 模型开始讲,一直到相应的拓展和实际的问题,十分推荐。融合对于市场环境隐变量的估计Casgrain P, Jaimungal S Trading algorithms with learning in latent alpha models[J] Mathematical Finance, 2019, 29(3): 735-772市场交易者会根据不同的市场挂单和价格走势而采取不同的反映,因此我们也可以根据历史数据学习到各种情况下的价格后验分布,从而更好地帮助我们进行交易执行或者套利。最后的结果可以看做在 Almgren-Chriss 模型的基础上外加了一个调控项,反映我们对于未来的预期。 /arxivorg/pdf/180604472pdf如何实现以按量加权平均价格(VWAP)交易Kakade, Sham M, et al "Competitive algorithms for VWAP and limit order trading" Proceedings of the 5th ACM conference on Electronic commerce 2004从在线学习的角度提出了几个用于使得我们交易到 VWAP 价格的模型。为什么会关注 VWAP 的交易执行?当大的流通股股东需要减持的时候,为了避免直接出售引起的价格波动,一般是把需要减持的股票卖给券商,然后由券商来拆单出售,而交易价格一般为未来一段时间的 VWAP,因此券商需要尽量以 VWAP 来交易执行。 /sci-hubse///dlacmorg/doi/abs/101145/988772988801Białkowski, Jędrzej, Serge Darolles, and Gaëlle Le Fol "Improving VWAP strategies: A dynamic volume approach" Journal of Banking & Finance 329 (2008): 1709-1722改进对于交易量的建模,从而得到更好的 VWAP 交易算法。把交易量拆分为两个部分,一部分是市场整体的交易量变动,另一部分是特定股票上的交易量模式。 /sci-hubse///wwwsciencedirectcom/science/article/pii/S0378426607003226以按时间加权平均价格(TWAP)交易为了对称,可以介绍一下另一种加权平均的情形 TWAP,这种情形实现起来相对比较简单;如果不考虑市场冲击,就拆分到每个时间步上均匀出售即可实现。可以证明 TWAP 交易在以下两种情形下最优:市场价格为布朗运动并且价格冲击为常数;对于晚交易没有惩罚(其实更晚交易意味着面临更大的风险),但是对于最后未完成交易的惩罚较大。二、强化学习方法基于传统模型的强化学习方法Hendricks D, Wilcox D A reinforcement learning extension to the Almgren-Chriss framework for optimal trade execution[C]//2014 IEEE Conference on Computational Intelligence for Financial Engineering & Economics (CIFEr) IEEE, 2014: 457-464本专栏有讲。 /arxivorg/pdf/14032229pdf强化学习 + 交易执行(Paper/Article)Nevmyvaka Y, Feng Y, Kearns M Reinforcement learning for optimized trade execution[C]//Proceedings of the 23rd international conference on Machine learning 2006: 673-680比较经典的一篇,发在 ICML 上,本专栏前面有讲。使用 DQN 方法,实现形式接近 DP。 /smallakekr/wp-content/uploads/2019/01/rlexecpdfDabérius K, Granat E, Karlsson P Deep Execution-Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks[J] Available at SSRN 3374766, 2019使用了 DDQN 和 PPO 方法,基于生成的价格序列来进行实验,使用特定的模型考虑短期和长期市场冲击。 /sci-hubse///papersssrncom/sol3/paperscfmabstract_id=3374766Ning B, Lin F H T, Jaimungal S Double deep q-learning for optimal execution[J] arXiv preprint arXiv:181206600, 2018DDQN 的强化学习解法,在美股上实验。 /arxivorg/pdf/181206600pdfLin S, Beling P A An End-to-End Optimal Trade Execution Framework based on Proximal Policy Optimization[C]//IJCAI 2020: 4548-4554使用 PPO 的解法,比较有意思的是这里面的实验结果显示,使用 LSTM 和把历史数据全部堆叠起来用 MLP 效果差距不大。也是在美股上实验。 /wwwijcaiorg/Proceedings/2020/0627pdfFang Y, Ren K, Liu W, et al Universal Trading for Order Execution with Oracle Policy Distillation[J] arXiv preprint arXiv:210310860, 2021在使用强化学习的基础上,引入了一个教师网络,教师网络学习一个基于未来数据的策略,并且用于训练学生网络。本专栏前面有讲。 /wwwaaaiorg/AAAI21Papers/AAAI-3650FangYpdfVyetrenko S, Xu S Risk-sensitive compact decision trees for autonomous execution in presence of simulated market response[J] arXiv preprint arXiv:190602312, 2019ICML-19 的文章。构造了一个可以反映市价单市场冲击的模拟器;使用 tabular Q-learning 来学习基于决策树的模型;使用特征选择的方法来筛选特征。通过以上方式,能够学习到一个模型帮助决策什么时候应该下市价单、什么时候应该下限价单。 /arxivorg/pdf/190602312pdfAkbarzadeh N, Tekin C, van der Schaar M Online learning in limit order book trade execution[J] IEEE Transactions on Signal Processing, 2018, 66(17): 4626-4641从 online learning 的视角来解决这个问题,使用 DP 类的方法,分析 regret 。 /repositorybilkentedutr/bitstream/handle/11693/50289/Bilkent-research-paperpdfsequence=1Wei H, Wang Y, Mangu L, et al Model-based reinforcement learning for predictions and control for limit order books[J] arXiv preprint arXiv:191003743, 2019专栏刚刚讲了的一篇文章,使用 model-based 类的强化学习算法,直接学习一个世界模型,然后让强化学习策略通过和世界模型的交互进行学习。 /arxivorg/pdf/191003743pdfKarpe M, Fang J, Ma Z, et al Multi-agent reinforcement learning in a realistic limit order book market simulation[J] arXiv preprint arXiv:200605574, 2020这里的多智能体似乎适用于结合历史数据生成其他市场参与者的动作,而最优策略的学习仍然是使用单智能体 DDQN 方法来做。他们开源了一个考虑多智能体的模拟环境 ABIDES。 /arxivorg/pdf/200605574pdfSchnaubelt M Deep reinforcement learning for the optimal placement of cryptocurrency limit orders[J] European Journal of Operational Research, 2022, 296(3): 993-1006研究数字货币上如何下限价单。对比了 PPO 和 DDQN,发现 PPO 更好。探索出了一些重要的因子,比如 current liquidity cost,queue imbalance 等。 /wwweconstoreu/bitstream/10419/216206/1/1696077540pdf强化学习 + 交易执行 (Thesis)Hu R Optimal Order Execution using Stochastic Control and Reinforcement Learning[J] 2016KTH (瑞典)工程学院硕士论文。算法直接是基于价值函数的动态规划。不过提供了比较详细的模拟环境和算法伪代码。 /wwwdiva-portalorg/smash/get/diva2:963057/FULLTEXT01pdfRockwell B Optimal Order Execution with Deep Reinforcement Learning[J] 2019加拿大蒙特利尔高等商学院硕士论文。使用 TD3 和 DDPG 算法,不过实验是基于人工生成的数据的(skew-normal Brownian motion)。 /bibloshecca/biblio/memoires/m2019a628776pdfReiter M B An Application of Deep Reinforcement Learning for Order Execution[D] School of Engineering Science, Osaka University, 2020多伦多大学本科毕业论文。在使用 A3C 算法的基础上,考虑了使用教师学生网络的方式进行迁移学习,并且考虑了短期市场冲击。 /mbreitergithubio/doc/thesispdf强化学习 + 风险偏好Robust Risk-Sensitive Reinforcement Learning Agents for Trading MarketsDeep equal risk pricing of financial derivatives with non-translation invariant risk measures强化学习 + 做市策略Optimal Market Making by Reinforcement LearningOptimizing Market Making using Multi-Agent Reinforcement LearningDeep Reinforcement Learning for Market MakingDeep Recurrent Q-Networks for Market MakingRobust Market Making via Adversarial Reinforcement LearningMarket making via reinforcement learning强化学习 + 资产组合Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order ExecutionRobo-Advising: Enhancing Investment with Inverse Optimization and Deep Reinforcement LearningLarge Scale Continuous-Time Mean-Variance Portfolio Allocation via Reinforcement Learning