DataWhaleAI分子预测夏令营 学习笔记

AI分子预测夏令营学习笔记

一、直播概览

主持人介绍

  • 姓名:徐翼萌
  • 角色:DataWhale助教
  • 活动目的:分享机器学习赛事经验,提升参赛者在分子预测领域的能力

嘉宾介绍

  • 姓名:余老师
  • 背景:Data成员,腾讯广告算法大赛冠军,著有《机器学习算法竞赛实战》

二、技术分享要点

数据预处理

  • 数据清洗:包括处理缺失值、异常值和重复数据。缺失值可以通过均值、中位数填充,或使用预测模型预测缺失值。异常值可以通过箱型图等方法识别并处理。
  • 数据标准化:对数据进行标准化或归一化处理,以消除不同量纲的影响。
  • 探索性数据分析(EDA):使用统计图表来分析数据分布、中心趋势和分散程度。

特征工程

  • 特征提取:从原始数据中提取有助于模型理解的特征,例如从化学结构中提取分子描述符。
  • 特征选择:使用过滤法、包装法或嵌入法选择最有信息量的特征。
  • 特征转换
    • 连续特征:可能需要进行对数转换或Box-Cox转换来稳定方差。
    • 类别特征:使用独热编码转换为虚拟变量,注意处理“一位有效”问题。

模型选择与训练

  • 模型比较:评估不同模型的性能,包括但不限于决策树、随机森林、梯度提升机、支持向量机等。
  • 超参数调优:使用交叉验证和自动化调参技术(如Hyperopt或Optuna)来找到最优的超参数组合。
  • 模型正则化:使用L1或L2正则化防止模型过拟合。

预测与评估

  • 性能指标
    • 准确率、召回率和F1分数:评估模型在不同类别上的表现。
    • ROC曲线和AUC:评估模型在不同阈值下的性能。
  • 混淆矩阵:直观展示模型预测与实际标签之间的关系。
  • 误差分析:分析模型预测错误的案例,找出潜在原因。

模型融合

  • Bagging:通过自助采样和模型平均来减少方差。
  • Boosting:通过关注被之前模型错误分类的样本来减少偏差。
  • Stacking:结合多个模型的预测结果进行最终预测。

附加学习内容

  • TF-IDF深入:理解TF-IDF的计算原理,如何影响文本特征的处理。
  • 高级文本处理:学习词嵌入(Word Embedding)和主题建模(如LDA)等高级文本分析技术。
  • CatBoost特性:探索CatBoost如何处理缺失值和类别特征,以及其在处理大数据集时的优势。

交叉验证方法

  • K-Fold:将数据集平均分成K份,轮流使用其中一份作为验证集。
  • Stratified K-Fold:在K-Fold的基础上,保持每个折叠中各类别的比例相同。
  • Time Series Cross-Validation:特别适用于时间序列数据,保持数据的时间顺序。

处理类别不平衡

  • 重采样:通过过采样少数类或欠采样多数类来平衡类别。
  • 合成样本生成:使用SMOTE等技术生成新的合成样本。
  • 阈值调整:根据类别分布调整分类阈值。

实用技巧

  • 特征重要性评估:使用特征重要性图来识别关键特征。
  • 模型解释性:使用SHAP、LIME等工具来解释模型预测。
  • 代码优化:编写清晰、高效的代码,使用向量化操作代替循环。

实践建议

  • 代码版本控制:使用Git等工具管理代码版本。
  • 实验跟踪:使用MLflow或TensorBoard记录实验过程和结果。
  • 结果可视化:使用Matplotlib、Seaborn等库创建直观的图表来展示结果

三、QA环节要点

  • 讨论生成数据的局限性和对现有数据的有效利用。
  • 指导如何查询比赛成绩和排名,根据反馈优化模型。

四、结束语与感悟

  • 主持人徐翼萌对余老师的分享表示感谢,强调了学习活动的价值。
  • 个人感悟:通过学习,对机器学习在分子预测领域的应用有了更深入的理解。

五、后续行动计划

  • 独立完成代码实践,加深对理论知识的理解。
  • 参与DataWhale的后续活动,获得更多实践经验。
  • 持续跟踪最新的机器学习技术和研究进展。

六、备注

  • 记录直播中遇到的理解难点,计划通过查阅资料或参与讨论来解决。
  • 收集直播中提及的资源链接,如相关论文、工具库和学习材料。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/778666.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springcloud分布式架构网上商城 LW +PPT+源码+讲解

3系统分析 3.1可行性分析 在开发系统之前要进行系统可行性分析,目的是在用最简单的方法去解决最大的问题,程序一旦开发出来满足了用户的需要,所带来的利益也很多。下面我们将从技术、操作、经济等方面来选择这个系统最终是否开发。 3.1.1技术…

网络漏洞挖掘实测报告

关于作者:个人主页 网络漏洞挖掘实测报告 一、前言 网络漏洞挖掘是信息安全领域中至关重要的一环。通过挖掘和修复漏洞,可以有效地保护系统免受潜在的攻击和破坏。本报告旨在记录一次完整的网络漏洞挖掘实测过程,包括实施方法、过程、结果以…

欢迎加入国家智能网联汽车创新中心OS开发训练营大家庭

欢迎加入国家智能网联汽车创新中心OS开发训练营大家庭。🚀 导学阶段启动 在正式开营之前,我们特别设置了导学阶段,旨在帮助大家更好地迎接颇具挑战性的项目实战。导学阶段包括一系列精心准备的视频课程和配套习题。github链接:htt…

基于YOLOv10+YOLOP+PYQT的可视化系统,实现多类别目标检测+可行驶区域分割+车道线分割【附代码】

文章目录 前言视频效果必要环境一、代码结构1、 训练参数解析2、 核心代码解析1.初始化Detector类2. torch.no_grad()3. 复制输入图像并初始化计数器4. 调用YOLOv10模型进行目标检测5. 提取检测结果信息6. 遍历检测结果并在图像上绘制边界框和标签7. 准备输入图像以适应End-to-…

2024年导游资格证题库备考题库,高效备考!

1.台湾著名的太鲁阁公园的特色是()。 A.丘陵和溶洞 B.森林和瀑布 C.峡谷和断崖 D.彩林和彩池 答案:C 解析:台湾著名的太鲁阁公园的特色是峡谷和断崖。 2.下列位于台湾的景区中,素有"神秘的森林王国"之…

DropNotch for Mac v1.0.1 在 Mac 刘海快速使用 AirDrop

应用介绍 DropNotch 是一款专为Mac设计的应用程序,可以将MacBook的凹口区域(刘海)转换为文件放置区。 功能特点 文件共享: 用户可以将文件拖放到MacBook的凹口区域,并通过AirDrop、邮件、消息等方式轻松共享。多显示器支持: 即…

Web漏洞扫描工具AppScan与AWVS测评及使用体验

AppScan和AWVS业界知名的Web漏洞扫描工具,你是否也好奇到底哪一个能力更胜一筹呢?接下来跟随博主一探究竟吧。 1. 方案概览 第一步:安装一个用于评测的Web漏洞靶场(本文采用最知名和最广泛使用的靶场,即OWASP Benchma…

WY-35A4T三相电压继电器 导轨安装 约瑟JOSEF

功能简述 WY系列电压继电器是带延时功能的数字式交流电压继电器。 可用于发电机,变压器和输电线的继电保护装置中,作为过电压或欠电压闭锁的动作元件 LCD实时显示当前输入电压值 额定输入电压Un:100VAC、200VAC、400VAC产品满足电磁兼容四级标准 产品…

Spring容器Bean之XML配置方式

一、首先看applicationContext.xml里的配置项bean 我们采用xml配置文件的方式对bean进行声明和管理,每一个bean标签都代表着需要被创建的对象并通过property标签可以为该类注入其他依赖对象,通过这种方式Spring容器就可以成功知道我们需要创建那些bean实…

使用LoFTR模型进行图像配准、重叠区提取

LoFTR模型源自2021年CVPR提出的一篇论文LoFTR: Detector-Free Local Feature Matching with Transformers,其基于pytorch实现图像配准,与基于superpointsuperglue的方法不同, 是一个端到端的图像配准方法。与LoFTR官方库相关的有loftr2onnx库…

NDVI数据集提取植被覆盖度FVC

植被覆盖度FVC 植被覆盖度(Foliage Vegetation Cover,FVC)是指植被冠层覆盖地表的面积比例,通常用来描述一个区域内植被的茂密程度或生长状况。它是生态学、环境科学以及地理信息系统等领域的重要指标,对于理解地表能…

SwinTransformer的相对位置索引的原理以及源码分析

文章目录 1. 理论分析2. 完整代码 引用:参考博客链接 1. 理论分析 根据论文中提供的公式可知是在 Q Q Q和 K K K进行匹配并除以 d \sqrt d d ​ 后加上了相对位置偏执 B B B。 A t t e n t i o n ( Q , K , V ) S o f t m a x ( Q K T d B ) V \begin{aligned} &…

软件设计之Java入门视频(12)

软件设计之Java入门视频(12) 视频教程来自B站尚硅谷: 尚硅谷Java入门视频教程,宋红康java基础视频 相关文件资料(百度网盘) 提取密码:8op3 idea 下载可以关注 软件管家 公众号 学习内容: 该视频共分为1-7…

gptoolbox matlab工具箱cmake 调试笔记

一、问题描述 起因:在matlab中运行Offset surface of triangle mesh in matlab的时候报错: 不支持将脚本 signed_distance 作为函数执行: E:\MATLAB_File\gptoolbox\mex\signed_distance.m> 出错 offset_bunny (第 22 行) D signed_distance(BC,V,F…

绝区贰--及时优化降低 LLM 成本和延迟

前言 大型语言模型 (LLM) 为各行各业带来了变革性功能,让用户能够利用尖端的自然语言处理技术处理各种应用。然而,这些强大的 AI 系统的便利性是有代价的 — 确实如此。随着 LLM 变得越来越普及,其计算成本和延迟可能会迅速增加,…

Python实战训练(方程与拟合曲线)

1.方程 求e^x-派(3.14)的解 用二分法来求解,先简单算出解所在的区间,然后用迭代法求逼近解,一般不能得到精准的解,所以设置一个能满足自己进度的标准来判断解是否满足 这里打印出解x0是因为在递归过程中…

经典双运算放大器LM358

前言 LM358双运放有几十年的历史了吧?通用运放,很常用,搞电路的避免不了接触运放,怎么选择运放,是工程师关心的问题吧? 从本文开始,将陆续发一些常用的运放,大家选型可以参考&#…

【最新整理】全国高校本科及专科招生和毕业数据集(2008-2022年)

整理了各省高校本科、专科招生和毕业数据等21个相关指标,包括招生、在校、毕业人数,以及财政教育支出、教育经费等数据。含原始数据、线性插值、回归填补三个版本,希望对大家有所帮助 一、数据介绍 数据名称:高校本科、专科招生…

如何处理 PostgreSQL 中由于表连接顺序不当导致的性能问题?

文章目录 一、理解表连接和连接顺序二、识别由于表连接顺序不当导致的性能问题三、影响表连接顺序的因素四、解决方案手动调整连接顺序创建合适的索引分析数据分布和优化查询逻辑 五、示例分析手动调整连接顺序创建索引优化查询逻辑 六、总结 在 PostgreSQL 中,表连…

[FreeRTOS 内部实现] 事件组

文章目录 事件组结构体创建事件组事件组等待位事件组设置位 事件组结构体 // 路径:Source/event_groups.c typedef struct xEventGroupDefinition {EventBits_t uxEventBits;List_t xTasksWaitingForBits; } EventGroup_t;uxEventBits 中的每一位表示某个事件是否…