2024-09-11
深度学习
00

PPO(Proximal Policy Optimization,近端策略优化)是一种强化学习算法,由OpenAI于2017年提出,主要用于解决强化学习中策略更新时的不稳定性问题。PPO是深度强化学习领域中非常流行的一种策略优化方法,因其高效性和稳定性,广泛应用于许多复杂任务中,如机器人控制、视频游戏AI和自然语言处理等。

背景与问题

在强化学习中,智能体(agent)通过与环境交互,学习一个策略(policy),以便最大化累积奖励。经典的强化学习方法如策略梯度(Policy Gradient)和Q学习(Q-Learning)在策略更新时会遇到一些问题:

  1. 策略更新过大:当策略在更新时,如果变化过大,可能会导致策略的性能急剧下降,甚至偏离最优解。这种不稳定性使得算法在许多复杂环境下表现不佳。
  2. 样本效率低:在高维度环境中,传统的强化学习方法往往需要大量的样本才能找到较好的策略,样本效率较低。
2024-09-11
深度学习
00

分享issues:

https://github.com/hiyouga/LLaMA-Factory/issues/5398

从中获取到Deepspeed zero 3 在如何使用。

2024-09-10
深度学习
00
2024-09-10
数学之美
00

计算随机取汉字的概率与期望次数

在一个包含2万个汉字的集合中,如果我们每次随机取一个汉字,想要取到全部汉字的概率是多少?又需要取多少次,才能期望取到所有汉字?这些问题可以借助概率论中的“优惠券收集问题(Coupon Collector's Problem)”来解答。

2024-09-10
备忘录
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-09-09
深度学习
00

这里有个收费的印章制作:https://tools.kalvinbg.cn/convenience/seal

这里有个java的印章制作:https://github.com/xxddccaa/SealUtil

这里还有一个别人的印章数据集:https://drive.usercontent.google.com/download?id=125SgEmHFUIzDexsrj2d3yMJdYMVhovti&export=download&authuser=0

image.png

本篇文章也用java制作一下印章数据集,可以应用于印章检测和印章识别。

2024-09-09
Linux运维
00

使用 tar 命令在 Linux 中压缩文件:实际案例分享

在 Linux 系统中,tar 是一个非常常用的命令,用来打包和压缩文件。最近,我和一位朋友讨论了如何将一个目录压缩为 .tar 文件,过程中分享了一个非常简洁的命令。这篇博客就是为了记录下这次有趣的对话和技巧,帮助大家更好地理解 tar 的使用。

2024-09-08
Linux运维
00

有几家非要收钱,不收钱就慢得要死,自建一个自己用肯定就快了。

2024-09-08
单片机
00

使用PIC16F1719进行ADC配置与读取详解

在嵌入式系统开发中,ADC(模数转换器) 是一个非常常见且重要的功能。它可以将模拟信号转换为数字信号,从而使得微控制器能够处理来自外部传感器等设备的模拟数据。在本文中,我们将使用PIC16F1719微控制器,并详细介绍如何配置和使用其内置的ADC模块来读取模拟信号。

2024-09-08
单片机
00

使用PIC16F1719的PWM功能实现及代码解析

在本篇博客中,我将详细解释如何在PIC16F1719微控制器上使用PWM(脉宽调制)功能,以及通过一段具体的代码演示如何配置和使用PWM来控制输出端口的信号。本文适合对PIC单片机有一定基础知识的读者,希望通过本篇文章能更好地理解PWM的概念和实际应用。