https://cn1.91.short

添加时间：2024/10/16 2:22:02

论文：A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning论文链接：https：//arxiv.org/abs/1711.00832要想实现通用智能，智能体必须学习如何在共享环境中与他人进行互动：这就是多智能体强化学习（multiagent reinforcement learning，MARL）遇到的挑战。最简单的形式是独立强化学习（independent reinforcement learning，InRL），每个智能体将自己的经验作为（非稳态）环境的一部分。这篇论文中，我们首先观察到，使用 InRL 学得的策略能够在训练过程中与其他智能体的策略产生过拟合，但在执行过程中无法实现充分的泛化。我们引入了一种新的指标：共策略关联（joint-policy correlation），对该效果进行量化。我们介绍了一种用于通用 MARL 的算法，该算法基于深度强化学习生成的多种策略的几乎最佳回应，还进行博弈论实证分析来计算策略选择的元策略。该算法是之前算法的泛化，如 InRL、iterated best response、double oracle 和 fictitious play（虚拟对局）。之后，我们展示了一种可扩展的实现，使用解耦元求解器（meta-solver）减少内存需求。最后，我们在两种部分可观测的设置（gridworld coordination games 和扑克）种展示了该策略的通用性。

2、截至12月9日，上交所融资余额报5438.6亿元，较前一交易日增加9.6亿元；深交所融资余额报4188.19亿元，较前一交易日增加26.14亿元；两市合计9626.79亿元，较前一交易日增加35.74亿元。从目前盘面的情况来看，场内资金主要是在围绕着涉及股票数量较少，科技股龙头叠加低价低估高分红蓝筹成为资金主要青睐对象，带动沪深指数整体上行。

8月6日，《证券日报》记者致电如上所述的6家房企并获悉，有2家房企在将美元置换成人民币时已经或将会做出对冲风险的安排：“市场波动不会影响我们公司的融资成本，我们很早就进行了外汇掉期交易”、“今年我们有两笔美元债融资的目的是置换国内的贷款，因此会在置换时进行套期保值”。

“立足于解决发展不平衡不充分的问题，通过重大国家战略，将不同区域板块和横跨东中西、连接南北方、沟通国内外的重要轴带相耦合，我国区域发展格局不断优化，区域发展协同性不断增强。”国务院发展研究中心发展战略和区域经济研究部部长侯永志说。扩大内需，提升供给，区域协调发展拓宽新空间

美国北极国际（Arctic International）税务公司总经理唐娜·凯普利（Donna Kepley）说，4月份，刺激经济补助很可能错汇给了数千名外国人，特别是那些F-1签证和J-1签证持有者。这个失误源自常见的报税错误。这些曾在美国大学学习或暑期打过工的外国工作者往往用税务管理软件TurboTax和其他电子申报系统，他们并不知道这些软件和申报系统是专为美国居民设计的。因此，每年都有不少外籍临时工填错了申报表。因为非移民工作者的社保卡号与美国公民的社保卡号位数相同，因此看上去一样，美国国税局很少注意到错误。通常，这些错误没啥大碍。但今年，这一错误却造成国税局认为某些外籍工作者有资格获得一次性刺激经济补助汇款。这次故障不仅影响到在美国的工作者，还影响到一些最近离开美国的人。

目前，AI芯片技术主流路径有GPU、FPGA、ASIC等，其中GPU、FPGA是较为成熟的芯片架构，ASIC是针对特定应用场景的专用芯片。GPU架构的芯片能满足深度学习大量计算需求，释放人工智能的潜能，但缺点在于功耗较高；FPGA架构的芯片具有足够的计算能力、较低试错成本和足够的灵活性，缺点在于价格较高、编程复杂；ASIC架构的芯片能够在特定功能上进行强化，具有更高的处理速度和更低能耗，但缺点是成本高，有用量足够大时才能够降低成本，而且由于是定制化，可复制性一般。

随机推荐

21世纪经济报道记者采访了多位支付机构人士

形成《长春长生公司狂犬病问题疫苗受种者损害认定汇总表》（见附

并透露了下一阶段汽车销售流通、二手车交易及出口、下一阶段新能

车行至宁洛高速路段后越来越浓重的沙尘让周边事物似乎都成了暗黄

首发Redmi Note7千元机

智能机器人骚扰电话+大数据营销+探针盒子

一直以来苏州以强大的县域经济为支撑

翻开日前提交全国人大常委会审议的民法典各分编草案