ZHAOZihao

Posted by Zhao Zihao on February 1, 2021

强化学习Q Learning

Q Learning的介绍以及简单demo

Q Learning的介绍智能体agent的每一次学习过程可以看作是从一个随机状态开始，采用一个策略来选择动作，如ε-greedy策略或Boltzamann分布策略。采用随机策略是为了保证智能体能够搜索所有可能的动作，对每个Q(s，a)进行更新。智能体在执行完所选的动作后，观察新的状态和回报，然后根据新状态的最大Q值和回报来更新上一个状态和动作的Q值。智能体将不断根据新的状态选择动作，直...

Posted by Zhao Zihao on January 29, 2021

ϵ-greedy算法

ϵ-greedy算法的简介和理解

epsilon-greedy算法（通常使用实际的希腊字母ϵ）很容易理解，并且在机器学习的多个领域被使用。epsilon-greedy的一种常见用法是所谓的多臂匪徒问题（multi-armed bandit problem）。假设站在k = 3台老虎机前面。每台机器都会根据不同的概率分布进行支付，而我们不知道这些分布。假设我们总共可以玩100次。我们有两个目标。第一个目标是使用一些...

Posted by Zhao Zihao on January 28, 2021

强化学习&深度学习&元学习

三种学习方式的关系

强化学习（Reinforcement Learning）详细介绍：https://zhuanlan.zhihu.com/p/25319023 Environment & Agent Environment指的是外部环境，在游戏中就是游戏的环境。Agent指的是智能体，指的就是你写的算法，在游戏中就是玩家，智能体通过一套策略输出一个行为（Action）作用到环境，环境则反馈...

Posted by Zhao Zihao on January 24, 2021

Meta Learning

元学习的定义、优势以及部分研究思路

meta learning与few-shot learning联系：我们需要元学习模型学习一个先验知识来帮助以后学习一个新的任务，这就导致很多元学习论文中会有 Task 或者 Episode 的概念，也就是我们需要学习很多类似的任务，然后用在这些任务上学到的先验知识使我们面对一个新问题的时候可以学习得又快又好，又快又好也就使得现在的元学习（meta learning）和少样本学习（fe...

Posted by Zhao Zihao on January 23, 2021

如何找到优质的paper

记录一些Top Conferences的网址

如何找到优质的paper 1 Google Scholar Google 学术搜索是一项免费服务，可以帮助快速寻找学术资料，如专家评审文献、论文、书籍、预印本、摘要以及技术报告。作为此次扩展的一部分，Google 学术搜索在索引中涵盖了来自多方的信息，信息来源包括万方数据资源系统，维普资讯，主要大学发表的学术期刊、公开的学术期刊、中国大学的论文以及网上可以搜索到的各类文章。 G...

Posted by Zhao Zihao on January 22, 2021

Few Shot Learning

少样本学习的概念、定义以及优缺点

few-shot learning出现原因众所周知，现在的主流的传统深度学习技术需要大量的数据来训练一个好的模型。例如典型的 MNIST 分类问题，一共有 10 个类，训练集一共有 6000 个样本，平均下来每个类大约 600 个样本，但是我们想一下我们人类自己，我们区分 0 到 9 的数字图片的时候需要看 6000 张图片才知道怎么区分吗？很显然，不需要！这表明当前的深度学习技术和我们...

Posted by Zhao Zihao on January 21, 2021

Machine Learning Introduction

机器学习的详细介绍以及分类

以下资料整理于李宏毅“李宏毅2020机器学习深度学习(完整版)国语”中的slides Learning Map 下图1中，同样的颜色指的是同一个类型的事情蓝色方块指的是scenario，即学习的情境。通常学习的情境是我们没有办法控制的，比如做reinforcement Learning是因为我们没有data、没有办法来做supervised Learning的情况下才去做的。...

Posted by Zhao Zihao on January 20, 2021

统计博客的访问量

记录在个人博客中如何加入用户访问量的小功能

如何在个人博客中增加访问量统计的功能方法一进入网址 www.flagcounter.com根据首页的自定义界面选择你想要的显示模式，如下图所示：选择自己喜欢的显示风格后，点击“get your flag counter”按钮，进入到注册界面，当然可以直接选择skip来跳过该步骤😬 接着我们会发现生成两组代码，这里我们选择html格式的代码，复制后粘贴到需要的地方就可以了...

Posted by Zhao Zihao on January 16, 2021

IP数据报分片

IP数据报的分片&应用到每个分片中的length, ID, fragflag,offset字段的相关例题

在TCP/IP分层中，数据链路层用MTU（Maximum Transmission Unit，最大传输单元）来限制所能传输的数据包大小，MTU是指一次传送的数据最大长度，不包括数据链路层数据帧的帧头。当发送的IP数据报的大小超过了MTU时，IP层就需要对数据进行分片，否则数据将无法发送成功。一个IP数据报的每个分片都具有自己的IP头部信息，它们都具有相同的标识值，但是具有不同的位偏移，且...

Posted by Zhao Zihao on January 15, 2021

MyBlog

Java语言概述&基本语法

Java的简单介绍以及基本语法知识