Distilling the knowledge in a neural network
Hinton 在论文中提出方法很简单,就是让学生模型的预测分布,来拟合老师模型(可以是集成模型)的预测分布,其中可通过用老师模型 logits 除以 temperature 来调节分布平滑…
下载模型文件:
将https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B/tree/main目录下面的所有文件全部下载下来,稍微有点大,所有文件将近16个G 编写代码进行推理
$ more testDS.py
from transformers import AutoModelForC…
网页监控插件distill web monitor使用之监控亚马逊到货及价格
前言
前几次的亚马逊EVGA放货都是在凌晨1点半之后到早晨8点左右,我不太习惯熬夜等待一个不确定的事物,在错过了几次之后,决定还是自己动手丰衣足食吧,开始使用pytho…