当前位置: 首页 > news >正文

建设数码产品网站的策划书泰安工作招聘

建设数码产品网站的策划书,泰安工作招聘,线上网课,小程序有什么用将Q算法和D算法结合应用到llm解码上之人在回路 参考地址代码解释 参考地址 https://dongfangyou.blog.csdn.net/article/details/136466609 代码 import numpy as np from tqdm import tqdmfrom sample import net, char2id_dict, get_real_p# 假设的词汇表 VOCABULARY lis…

将Q算法和D算法结合应用到llm解码上之人在回路

  • 参考地址
  • 代码
  • 解释

参考地址

https://dongfangyou.blog.csdn.net/article/details/136466609

代码

import numpy as np
from tqdm import tqdmfrom sample import net, char2id_dict, get_real_p# 假设的词汇表
VOCABULARY = list(char2id_dict.keys())# 初始化Q表
q_table = {}
for word1 in VOCABULARY:for word2 in VOCABULARY:q_table[(word1, word2)] = 0# Q学习参数
alpha = 0.1  # 学习率
gamma = 0.6  # 折扣因子# 用户反馈函数
def get_user_feedback(generated_text):# 这个函数应该根据用户的实际反馈来更新Q表# 在这个简化示例中,我们随机生成反馈# print(f"Generated Text: {generated_text}")print("Please give your feedback (1 for positive, -1 for negative, 0 for neutral):")feedback = int(input())# feedback = np.random.choice([-1, 0, 1])  # 负面、中性、正面反馈return feedback# Q学习更新函数
def q_learning_update(q_table, state, action, reward, next_state):current_q = q_table.get((state, action), None)if current_q is None:current_q = 0q_table[(state, action)]=0max_future_q = max([q_table.get((next_state, a), 0) for a in VOCABULARY])new_q = (1 - alpha) * current_q + alpha * (reward + gamma * max_future_q)q_table[(state, action)] = new_qreturn q_table# LLM解码器
class LanguageModel:def __init__(self):# 假设的生成概率分布passdef generate_text(self, start_word, q_table):text = [start_word]current_word = start_wordwhile len(text) < 10:  # 生成10个词汇的文本next_word = self.choose_next_word(current_word, q_table)text.append(next_word)current_word += next_wordreturn ' '.join(text)def choose_next_word(self, current_word, q_table):if np.random.rand() < 0.1:  # 10%的概率随机选择return np.random.choice(VOCABULARY)else:# 根据Q表和模型概率选择下一个词汇q_values = []voc_probs=get_real_p(current_word, net, char2id_dict)for word in tqdm(VOCABULARY):v=q_table.get((current_word, word), 0) + voc_probs[char2id_dict[word]]q=wordq_values.append((v, q))return max(q_values)[1]# D*算法的重新规划函数
def d_star_lite_replan(q_table, generated_text, user_feedback):# 根据用户反馈更新Q表words = generated_text.split()for i in range(len(words) - 1):state = words[i]action = words[i + 1]reward = user_feedbacknext_state = words[i + 2] if i + 2 < len(words) else Noneq_table = q_learning_update(q_table, state, action, reward, next_state)return q_table# 训练循环
model = LanguageModel()
for episode in range(100):generated_text = model.generate_text('当时明月在', q_table)print(f"Episode {episode}: {generated_text}")# 获取用户反馈reward = get_user_feedback(generated_text)# 使用D*算法重新规划解码策略q_table = d_star_lite_replan(q_table, generated_text, reward)# 最终生成的文本
final_text = model.generate_text('当时明月在', q_table)
print(f"Final Text: {final_text}")

解释

上述代码是一个简化的Q学习算法和D*算法的示例,用于生成文本。

首先,代码定义了一个词汇表VOCABULARY,以及一个初始Q表q_table,以及学习率alpha和折扣因子gamma。

接下来,代码定义了两个函数get_user_feedback和q_learning_update。get_user_feedback函数用于获取用户对生成的文本的反馈,可以选择负面、中性或正面反馈,或者根据实际情况自定义反馈。q_learning_update函数用于更新Q表,根据当前状态、动作、奖励和下一个状态来更新Q值。

然后,代码定义了一个LanguageModel类,其中包含生成文本和选择下一个词汇的函数。在生成文本的过程中,根据当前词汇和Q表来选择下一个词汇。其中,有10%的概率随机选择,90%的概率根据Q表和模型概率选择。

接下来,代码定义了一个d_star_lite_replan函数,用于根据用户反馈重新规划解码策略。根据生成的文本和用户反馈,更新Q表。

最后,代码使用循环进行训练。在每个循环中,生成文本并获取用户反馈,根据用户反馈重新规划解码策略。训练结束后,生成最终的文本。

需要注意的是,代码中的LanguageModel类和相关函数只是用于示例,实际应用中需要根据具体需求进行修改和优化。此外,代码中的模型生成概率分布和词汇表是假设的,实际应用中需要根据实际情况进行定义。

http://www.yayakq.cn/news/305165/

相关文章:

  • 黑龙江省建设集团有限公司网站推广网站站群
  • 浪起科技做的网站怎么样晚上网站推广软件免费版
  • 网站建设字体颜色代码网站开发要注意哪些细节
  • 做膜结构那个网站好大庆互联网公司
  • 采集站seo赚钱辅导班北京塞车网站建设
  • tag 网站托管公司龙岩网站建设方案
  • 网站建设及报价方案竞价网站怎么做seo
  • 三明鑫龙建设工程网站企业微信小程序登录入口
  • 网站设计开发制作东莞网络营销外包价格
  • 万网做网站asp.net做网站源代码
  • 成都app制作软件百度seo公司兴田德润
  • 如何设计服装网站规划wordpress企业网站seo
  • 类似k站的网站一个空间2个网站
  • 橄榄树网站建设网页制作素材动物
  • 做一个家乡网站有什么可以做企业邮箱怎么申请免费的
  • 哪个网站可以看一级a做爰片t深圳网站备案
  • 卡盟建设vip网站哪些网站用jsp
  • 哪里有永久免费建站精美 企业网站模板
  • 哪个网站可以免费下载电视剧看网站开发模型工具
  • 装修公司网站建设费用网站建设结构
  • 网站开发制作云盘增加wordpress的用户
  • 廊坊开发网站公司网站安装wordpress
  • 网站建设php上海公共招聘网站
  • 网站域名使用费多少石家庄做网站最好的公司有哪些
  • 北京专业网站的建设安徽政务服务网
  • 网站设计的用途小程序商城开发
  • 浙江省建设厅继续教育网站wordpress全局阴影
  • iis网站的建设沈阳企业网站设计制作
  • 口碑好的定制网站建设wordpress网站静态化
  • 关键词研究工具济南网站建设与优化