首页
友情链接
点点滴滴
关于本站
秋码记录
一个游离于山间之上的Java爱好者 | A Java lover living in the mountains
累计撰写
142
篇文章
累计创建
317
个标签
累计创建
46
个分类
栏目
首页
友情链接
点点滴滴
关于本站
搜索
包含标签
NLP
微调模型(Machine Learning 研习之十二)
现在正处于百模乱战的时期,对于模型微调,想必您是有所了解了,毕竟国外的大语言模型一开源,国内便纷纷基于该模型进行微调,从而开始宣称领先于某某、超越了谁。可到头来,却让人发现他们套壳了国外大语言模型对外开放的API。 好了,我们不说国内各种大模型宣称超过了谁,毕竟,嘴巴长在别人脸上,我们管不了,也管不着,吹牛终将是会露馅的! 当我们需要对开源大模型进行微调时,看看有几种方法可以做到这一点的! 网格搜索 手动调整超参数,直到找到超参数值的完美组合。 这将是一项非常乏味的工作,而且您可能没有时间去探索多种组合。 相反,您可以使用 Scikit-Learn 的 GridSearchCV 类来搜索您。 您需要做的就是告诉它您希望它试验哪些超参数以及要尝试哪些值,它将使用交叉验证来评估超参数值的所有可能组合。 例如,以下代码搜索 RandomForestRegressor 的最佳超参数值组合: from sklearn.model_selection import GridSearchCV full_pipeline = Pipeline([ ("preprocessing", preprocessing), ("random_forest", RandomForestRegressor(random_state=42)), ]) param_grid = [{'preprocessing__geo__n_clusters': [5, 8, 10], 'random_forest__max_features': [4, 6, 8]}, {'preprocessing__geo__n_clusters': [10, 15], 'random_forest__max_features': [6, 8, 10]}, ] grid_search = GridSearchCV(full_pipeline, param_grid, cv=3, scoring='neg_root_mean_squared_error') grid_search.fit(housing, housing_labels) 请注意,您可以引用管道中任何估计器的任何超参数,即使该估计器嵌套在多个管道和列转换器的深处。 例如,当 Scikit-Learn 看到“preprocessing__geo__n_clusters”时,它会在双下划线处分割该字符串,然后在管道中查找名为“preprocessing”的估计器并找到预处理 ColumnTransformer。 接下来,它在此 ColumnTransformer 中查找名为“geo”的转换器,并找到我们在纬度和经度属性上使用的 ClusterSimilarity 转换器。 然后它找到该变压器的n_clusters超参数。 同样,random_forest__max_features指的是名为“random_forest”的估计器的max_features超参数,这当然是RandomForest模型。 这个param_grid中有两个字典,因此GridSearchCV将首先评估第一个字典中指定的n_clusters和max_features超参数值的所有3×3=9个组合,然后它将尝试第一个字典中指定的所有2×3=6个超参数值组合 第二个字典。 因此,网格搜索总共将探索 9 + 6 = 15 种超参数值组合,并且每个组合都会对管道进行 3 次训练,因为我们使用的是 3 折交叉验证。 这意味着总共将有 15 × 3 = 45 轮训练! 这可能需要一段时间,但是完成后您可以获得如下参数的最佳组合:
2024-03-09
[Machine Learning 人工智能]
花了不到1块5,玩了下全网最火的ChatGPT
这一周来,要说 AI 界最为热闹的莫过于 ChatGPT 了。刚推出一周的时间,注册用户竟然达到了 100 万。自 ChatGPT 推出后,不过短短几天,用户如蜂拥般地去注册,把玩这个能在一周左右吸粉 百来万的现下5网红。 前提准备 由于种种原因,访问 openAI 需要使用科学上网。 具备科学上网的工具,注意:香港 ip 是 100% 无效的,当然最好是 美国 ip。 有一个能接受验证码的国外手机号码,这一点,并不是所有都有的,我就没有,那该怎么办呢?关于这一点,可接着往下看注册虚拟号码,您也就慢慢清楚标题中的1块5是花在这里了。 注册虚拟号码 首先打开 https://sms-activate.org/ 进行注册虚拟号码。 我们先注册个账号,需通过填写的邮箱进行验证账号。 这时,我们在该页面左侧选择服务下的输入框,输入op,即会出现自动补全下拉框,毫无疑问,我们选择第一个OpenAI。 在我们选择了OpenAI后,也就是点选了OpenAI,下面出现所有国家的,当然,我们还是选择第一个,原因嘛,那就是它便宜啊,只需10.5P(10.5卢布)。 而在我们点击了那个 购物车 图标时,出现错误提醒,那便是,你的 余额是 0,需要充值,才能购买。 点击 左上角 人头图标,再列出的下拉框,再次点击充值。 在点击 充值 选项时,这时,页面列出很多 支付方式,往下滚动直找到 支付宝。 由于后续人流量的剧增,该平台所产生的费用,已不是本文发稿时那个价位了,还请你知悉! 这里是使用 美元 做为单位,我们充0.2美元足够了,而 0.2 美元在当下当时兑换成人民币是 1.47 元,1块5还不到。 支付宝 扫码支付。 注册 OpenAI 账号 如果在注册OpenAI 账号时,出现了以下提示,那么说明科学上网是局部,需 全局 科学上网。 注册OpenAI一部分是通过 邮箱 进行验证,另一部分则是通过 手机号码 接受验证 再次验证。 填写接收的邮箱验证,进入下一步 手机号码 验证。 我们拷贝刚刚购买的虚拟手机号码。 我们将`虚拟号码`平台上购买的号码拷贝填入`OpenAI`,用于接收短信验证码,而这里需要注意将国家区号去掉,因为我们在`OpenAI`平台选择国家时,带有国家区号,然而,我们在`虚拟平台`上购买的虚拟号码包括国家区号。 回到虚拟号码平台,若是没看到验证码,可以刷新下页面就出来了。
2022-12-08
[人工智能]