第一部分 机器学习基础1、何谓机器学习?在了解一个新的知识领域的时候,我们往往需要先从认识到该领域的基本概念开始。
何谓机器学习?先说结论:
机器学习(Machine Learning,ML) 是计算机科学的一个分支,旨在通过数据驱动的方法,让计算机系统能够自动从数据中学习规律(模型),并利用这些规律对未知数据进行预测或决策。其核心在于通过算法优化模型的性能,使其具备泛化能力,从而解决实际问题。
这个理解是站在计算机科学的角度,从算法和模型的角度来定义机器学习。
那用一个简单的例子来加以解释:就好比正在处于读书生涯的你,通过在校的学习,掌握了数学、英语、计算机相关等知识,具备了扎实的专业基础,已经具备了一些处理问题的思维方式。【计算机系统从数据中学习规律(模型)】
在毕业以后,你需要将所学到的思维方式运用到工作、科研、工程、管理等工作中。【利用学习到的规律对未知数据进行预测或决策】
在工作中解决你本专业领域内问题的时候,是否能够游刃有余还是拖泥带水,更多地取决于你的知识背景和思维方式。也就是“泛化能力”【通过算法优化模型的性能,使其具备更好的泛化能力】
总的来说,机器学习使用计 ...
机器学习系列二:深入浅出线性回归(最小二乘法与正则化)欢迎来到“机器学习系列”的第二篇文章!在上一篇中,我们探讨了机器学习的基本概念与分类。今天,我们将正式踏入算法的殿堂,从最经典、最基础,也是应用最广泛的算法之一开始——线性回归(Linear Regression)。
无论是预测房价、分析销售趋势,还是评估风险,线性回归都扮演着举足轻重的角色。本文将带你扒开公式的外衣,深入理解线性回归的核心:最小二乘法,并探讨如何通过正则化技术来让模型变得更稳健。
1. 什么是线性回归?简单来说,线性回归就是在寻找一条“最佳的直线(或超平面)”,让它能够尽可能地拟合数据点,从而反映出自变量(特征 $x$)和因变量(目标值 $y$)之间的线性关系。
假设我们有 $n$ 个特征,线性回归的预测模型可以表示为:
$$h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + … + \theta_n x_n$$
为了书写方便,我们通常引入 $x_0 = 1$,将其转化为向量内积的形式:
$$h_\theta(x) = \th ...
机器学习系列三:逻辑回归(分类的利器,Sigmoid 与交叉熵)欢迎回到“机器学习系列”!在上一篇文章中,我们学习了如何用线性回归来预测连续的数值(比如房价、销售额)。但是,如果我们要解决的问题不是预测具体的数值,而是做选择题呢?
比如:这封邮件是“垃圾邮件”还是“正常邮件”?这个肿瘤是“恶性”还是“良性”?图片里的是“猫”还是“狗”?
这类问题在机器学习中被称为分类(Classification)问题。今天,我们将介绍分类领域中最基础、最经典的算法——逻辑回归(Logistic Regression)。
💡 避坑指南: 虽然它的名字里带有“回归”二字,但逻辑回归是一个彻头彻尾的分类算法,最常用于解决二分类问题(是或否)。
1. 为什么不能直接用线性回归做分类?你可能会想:既然是二分类(0 或 1),我能不能直接用线性回归拟合一条直线,然后设定一个阈值(比如 0.5)?大于 0.5 的预测为 1,小于 0.5 的预测为 0?
在某些极其理想的情况下,这似乎可行。但线性回归在分类任务上有两个致命缺陷:
对异常值极其敏感:如果数据集中突然出现一个极端的样本点,线性回归的直线会被严 ...
机器学习系列四:打破线性束缚——多项式回归与特征工程欢迎来到“机器学习系列”的第四篇文章!在前面的文章中,我们学习了线性回归(预测连续数值)和逻辑回归(解决二分类问题)。你可能会发现,无论是拟合一条直线,还是画出一条笔直的分类决策边界,我们都在处理“线性”关系。
但在真实的物理世界和商业场景中,数据往往不会乖乖地排成一条直线。如果数据呈现出弯曲的 U 型、S 型或更复杂的波浪形,我们手中的线性模型是不是就彻底失效了?
并非如此!今天,我们将学习一种极其巧妙的“欺骗”模型的方法——特征工程(Feature Engineering),并借此引出我们对付非线性数据的利器:多项式回归(Polynomial Regression)。
1. 现实世界的痛点:非线性关系想象一下我们在预测某款手机电池的寿命(因变量 $y$)与充电次数(自变量 $x$)之间的关系。在最初的几百次充电中,电池寿命可能下降得很慢;但一旦超过某个临界点,寿命可能会呈现断崖式下跌。
如果我们在散点图上把这些数据画出来,它绝对不是一条直线,而是一条向下弯曲的曲线。这时候,如果我们强行用 $h_\theta(x) = ...
机器学习系列五:是骡子是马?如何科学评估分类模型(混淆矩阵、准确率、召回率与 ROC 曲线)欢迎来到“机器学习系列”的第五篇文章!在前面的系列中,我们已经掌握了如何用逻辑回归来解决二分类问题(比如判断邮件是否为垃圾邮件)。
现在,假设你辛辛苦苦训练好了一个分类模型,并在测试集上跑出了一个结果。这时候老板走过来问:“你的模型效果怎么样?”
如果你只回答:“我的模型准确率高达 99%!”——那么你可能要小心了,因为在机器学习的世界里,“准确率”往往是一个极具欺骗性的陷阱。
今天,我们就来聊聊如何科学、全面地评估一个分类模型。我们将深入了解混淆矩阵,理清精确率与召回率的爱恨情仇,并学会看懂那条高端大气的 ROC 曲线。
1. 准确率(Accuracy)的致命陷阱准确率(Accuracy) 是我们最直觉的评估指标:预测对的样本数 / 总样本数。
听起来很完美对吧?但在处理数据不平衡(Imbalanced Data)的情况下,准确率会彻底失效。
举个极端的例子: 假设我们在做罕见病筛查,1000 个病人中只有 1 个人真正患病(正类),999 个人是健康的(负类)。如果我写一个极其“ ...
机器学习系列六:打破线性束缚——深入理解决策树与随机森林欢迎来到“机器学习系列”的第六篇文章!在前面的文章中,我们学习了线性回归和逻辑回归。它们非常优雅,但都有一个共同的局限性:它们本质上都是在画“直线(或超平面)”。
如果数据像太极图一样互相嵌套,或者特征之间的关系非常复杂,一条直线根本切不开怎么办?今天,我们将彻底打破线性的束缚,向你介绍一种不仅极其强大,而且非常符合人类直觉的算法模型——决策树(Decision Tree),以及它的进阶完全体——随机森林(Random Forest)。
1. 什么是决策树?(像人类一样做决定)如果你玩过“猜猜看(20个问题)”的游戏,你就已经掌握了决策树的精髓。
假设你要判断今天是否适合去打网球。你不会去算一个复杂的线性公式,而是会在脑海中走一个流程图:
今天天气怎么样?(晴天 / 阴天 / 雨天)
如果是晴天,紫外线强不强?(强 -> 不去;弱 -> 去)
如果是雨天,风大不大?(大 -> 不去;小 -> 去)
决策树本质上就是一个由“节点”和“分支”组成的树状结构。 * 根节点与内部节点:代表 ...
灵魂的荒园与重生的地标:《我与地坛》
“十五年前的一个下午,我摇着轮椅进入园中,它为一个失魂落魄的人把一切都准备好了。那时,太阳循着亘古不变的路途正越来越大,也越红。在满园弥漫的沉静光芒中,一个人更容易看到时间,并看见自己的身影。”
如果说《务虚笔记》是史铁生在思想迷宫里的长途跋涉,那么《我与地坛》便是他一切哲思与救赎的起点。在双腿骤然瘫痪、生命跌入绝对谷底的至暗时刻,二十多岁的史铁生摇着轮椅,撞进了这座历经四百年沧桑的皇家废园。这篇散文不仅仅是对一座园子的白描,更是一个绝望的灵魂在生死边缘的剥茧抽丝,是对母爱最深沉的忏悔,也是对命运最雄浑的交响。
一、地坛:一座荒园的救赎密码四百年的地坛,琉璃剥落,古柏苍幽。当史铁生的轮椅碾过石径时,这座被时光遗忘的园子成了他精神的避难所。地坛的荒芜与他不期而遇的残疾形成了一种镜像般的共鸣,那些被风雨侵蚀的砖瓦、颓垣断壁,恰似作者当时破碎的生命图景。
但在万物萧条之中,史铁生却在坍圮的墙垣间发现了另一种狂热的生机:蚂蚁的疾行、蜂儿的悬停、瓢虫的升空、露珠坠地的金光。这些被常人忽略的微观世界,构成了命运绝境中的宇宙。荒园不荒,它用大自然最原 ...
生命的拷问与爱的轮回 > “那只白色的鸟,盘旋在雨中,或在雨之上,飞得像时间一样均匀和悠久。”这本书写的是一个人在面对自我与世界的种种矛盾时,如何探索、思考、寻找出路。书中蕴含了哲学、思考、爱情、生死、选择等主题,通过人物命运的描写、生活的意义、过去的反思、情感的纠葛以及社会的变迁,构成了一个引人深思的故事。《务虚笔记》是轮椅上的史铁生的首部长篇小说,也是他半自传式的作品。作家通过这部作品,将读者带入对生命哀艳与无常的凝望,体味历史的丰饶与短暂。这部小说语言优美凝练,情感真挚厚重,既发人深省又易于阅读,处处流露着一种对人世沧桑的如泣如诉、似忧似怨的伤感与领悟。
人物关系:命运的代号与交织书中叙述了上世纪50年代以来社会的剧变对几位人物的影响:残疾人C、画家Z、女教师O、诗人L、医生F、女导演N等。这些人物的名字仅用字母代替,在作者看来,名字不过是命运的代号,不同的字母象征着不同的命运轨迹,却又在名为“生活”的网中紧密交织。
画家Z 画家Z曾追求女教师O,但因O的父母反对而被迫分开,这导致他性格孤僻。Z终生画着一只象征冷酷孤傲的羽毛,并在追求高贵的信念中与O的观念不 ...
HTMLHTML 超文本标记语言
超文本:链接
标记:标签,带尖括号的文本<>
标签结构
标签要成对出现,中间包裹内容
<>里面放英文字母(标签名)
结束标签比开始标签多 /
标签分类:双标签和单标签
HTML骨架
html:整个网页
head:网页头部,用来存放给浏览器看的信息,例如 CSS
title:网页标签栏标题
body:网页主体,用来存放给用户看的信息,例如图片、文字
快速生成骨架:!+回车
注释在 VS Code 中,添加 / 删除注释的快捷键:Ctrl + /
标题标签123456<h1>一级标题</h1><h2>二级标题</h2><h3>三级标题</h3><h4>四级标题</h4><h5>五级标题</h5><h6>六级标题</h6>
注意:
一级标题在一个网页中只能用一次,用来放新闻标题或网页的 logo
独占一行(换行)
段落标签1<p>段落 ...












