备案控制台

开发者社区

开发者社区云计算文章正文

A Brief Note about Boltzmann/Softmax Exploration Strategy

2017-04-28 1506

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： One method that is often used in combination with the RL algorithms is the Beltzmann or softmax exploration strategy. The action selection strategy is still random, but selection probabili

One method that is often used in combination with the RL algorithms is the Beltzmann or softmax exploration strategy.
The action selection strategy is still random, but selection probabilities are weighted by their relative Q-values. This makes it more likely for the agent to choose good actions, whereas two actions that have similar Q-values will have almost the same probability to get selected. Its general form is

P (a) = e Q ( s , a ) T \sum i e Q ( s , a i ) T

in which

P(a) is the probability of selecting action

a and

T is the temperature parameter. Higher values of

T will move the selection more towards a purely random strategy and lower values will move to a fully greedy strategy.

止于至玄

目录

相关文章

征途黯然。

|

6月前

|

数据挖掘

【提示学习】Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification

文章提出了一种简单确高效地构建verbalization的方法：

征途黯然。

17 0 0

Trouble..

|

8月前

|

算法计算机视觉知识图谱

ACL2022：A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction

少样本关系提取旨在通过在每个关系中使用几个标记的例子进行训练来预测句子中一对实体的关系。最近的一些工作引入了关系信息

Trouble..

76 0 0

Trouble..

|

8月前

|

自然语言处理算法

SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model

在社交媒体上，面临着大量的知识和信息，一个有效的关键词抽取算法可以广泛地被应用的信息检索和自然语言处理中。传统的关键词抽取算法很难使用外部的知识信息。

Trouble..

89 0 0

SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model

Trouble..

|

8月前

|

机器学习/深度学习自然语言处理算法

Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling 论文解读

先前的信息抽取(IE)工作通常独立地预测不同的任务和实例(例如，事件触发词、实体、角色、关系)，而忽略了它们的相互作用，导致模型效率低下。

Trouble..

57 0 0

Trouble..

|

8月前

|

机器学习/深度学习自然语言处理算法

TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 论文解读

近年来，从非结构化文本中提取实体和关系引起了越来越多的关注，但由于识别共享实体的重叠关系存在内在困难，因此仍然具有挑战性。先前的研究表明，联合学习可以显著提高性能。然而，它们通常涉及连续的相互关联的步骤，并存在暴露偏差的问题。

Trouble..

90 0 0

Trouble..

|

8月前

|

机器学习/深度学习存储数据挖掘

Global Constraints with Prompting for Zero-Shot Event Argument Classification 论文解读

确定事件论元的角色是事件抽取的关键子任务。大多数以前的监督模型都利用了昂贵的标注，这对于开放域应用程序是不实际的。

Trouble..

51 0 0

Trouble..

|

8月前

|

自然语言处理 Java 计算机视觉

ACL2023 - AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model

事件论元抽取（EAE）识别给定事件的事件论元及其特定角色。最近在基于生成的EAE模型方面取得的进展显示出了与基于分类的模型相比的良好性能和可推广性

Trouble..

116 0 0

Trouble..

|

8月前

|

机器学习/深度学习自然语言处理索引

GTEE-DYNPREF: Dynamic Prefix-Tuning for Generative Template-based Event Extraction 论文解读

我们以基于模板的条件生成的生成方式考虑事件抽取。尽管将事件抽取任务转换为带有提示的序列生成问题的趋势正在上升，但这些基于生成的方法存在两个重大挑战

Trouble..

75 0 0

Trouble..

|

8月前

|

机器学习/深度学习存储自然语言处理

PESE Event Structure Extraction using Pointer Network based Encoder-Decoder Architecture论文解读

事件抽取（EE）的任务旨在从文本中找到事件和事件相关的论元信息，并以结构化格式表示它们。大多数以前的工作都试图通过分别识别多个子结构并将它们聚合以获得完整的事件结构来解决这个问题。

Trouble..

49 0 0

征途黯然。

|

机器学习/深度学习算法数据挖掘

【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……

【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……

征途黯然。

88 0 0

【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……

热门文章

最新文章

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

New Product Launch: Alibaba Cloud ElasticSearch

OSS回源的几种方式和应用场景

第176天：页面优化

java多线程编程

配置GoldenGate源端Manager参数

企业逐渐采用移动办公、物联网及软件定义网络策略

《OpenCV图像处理》——2.8　小结

Docker误区+技巧+转换关系

2014秋C++第19周补充代码哈希法的存储与查找

mysql 处理科学计数法的字段

❤Nodejs 第八章（操作本地数据库优化查询为分页查询方式）

基于CH32V103的多功能推杆设计

分布式事务：构建可靠分布式系统的基石

Raft算法：分布式一致性领域的璀璨明珠

Paxos算法：分布式一致性的基石

云效产品使用报错问题之gitlab库导入到云效失败如何解决

软件体系结构 - 复杂指令集架构 (CISC)

云效产品使用报错问题之流水线发布uniapp的应用失败如何解决

云效产品使用报错问题之不知道云效api需要什么权限如何解决

相关电子书

更多

Life-stage Prediction for Prod

Cost-Based Optimizer in Apache

Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）