Shawn's blog Writing is thinking

如何解读线性回归的结果?

线性回归是一种简单又强大的统计模型,可用于检测两个或者多个变量之间的线性关系。常用统计软件包括R,Python,SPSS等都有相应模块帮助我们轻松建立线性回归模型。但面对软件给出的一长串统计结果时,很多朋友不知道如何解释这些数字,从而无法对模型的有效性给出合理诊断。

通过阅读本文,你将能理解报告中核心数字所代表含义,更精确的阐释回归分析结果。

Read More

为什么是“最大似然”而不是“最大概率”?

为什么是“最大似然”而不是“最大概率”

虽然两者经常被混用不加区别,“迂腐”的统计学家们仍然“固执”要将两者区分开来,其中缘由可从下面等式说起:

\[L(\mu, \sigma; data) = P(data;\mu, \sigma)\]

以正态分布 \(N(\mu, \sigma)\)和一组观测到的数据data为例。上面等式左边表示似然,右边表示概率密度,两者等值。但含义上右边讲的是“已知分布参数为 \(\mu\)和 \(\sigma\) 的情况下观察到data的概率是多少”,左边讲的是“观测到一组数据data,对应分布参数为\(\mu\)和 \(\sigma\) 的似然为多少”

综上,给定分布参数下观察到某数据的概率密度在数值上等于给定某数据下该参数为某值的似然。然而,尽管两者大小相等,侧重点却截然不同,前者侧重于数据而后者侧重于参数。这也是为什么我们称“最大似然”而不是“最大概率”的原因。

Read More

看完钱钟书《围城》,是一种什么感觉?

知乎原回答:看完钱钟书《围城》,是一种什么感觉?

一开始不喜欢赵辛楣这个角色,觉得他自大,心眼小,跪舔苏文纨。往后看此人魅力方慢慢展现,他学识渊博,重义轻财,通达人情,执行力强,不失幽默感。因此虽遭遇动荡,终归越混越好,哪怕被一座围城困住,至少有几分走出去的资本。

Read More

如何评价电视剧《天道》?

知乎原回答:如何评价电视剧《天道》?

编剧通过丁元英在古城隐居和扶贫王庙村两件事将一票主要人物联结成了一个由强势文化和弱势文化所构成的社会单元。强势文化者信奉自然规律,遵守客观法则,笃信自强自立;弱势文化者期盼救世主和破格获取。两种文化属性注定了两个群体迥然不同的命运,决定了他们在社会阶层所能攀爬的高度及为社会创造价值的大小。我倒不认为弱势文化就应该被批判而强势文化就应该被颂扬,两者都能以各自合适的生存之道体现生命的价值,坦然不失偏颇即可。弱势文化者凭朴素生存之道能活得有尊严和精彩;强势文化下的人物,也可能因为一步错错万步而走向深渊。

主要想说说剧中几个印象深刻的人物。

Read More

标准化(standardization)和归一化(normalization)

知乎原文:标准化(standardization)和归一化(normalization)

注意,我们下面讨论的归一化和标准化针对的都是特征(数据列),而非针对样本(数据行)进行。

归一化(Normalization)和标准化(Standardization)都是为了解决不同特征取值范围相差太大的问题。因为,如果部分特征的取值特别大而远超其他特征的值,那模型训练的结果就会被这少部分的特征所支配,从而错失了其他小值特征所含有用信息。

Read More

BI转数据挖掘,我的脱产学习路

知乎原文:BI转数据挖掘,我的脱产学习路

为了避免文章被误读,声明以下几点:

不赞成裸辞,并建议不到万不得已不要裸辞,在另外一个回答解释过原因:22岁非计算机专业工科妹子裸辞转行程序员,已自学Python两个月准备开始OJ,给自己一年时间可行吗?

不打广告。。。误解我打广告的同学先认真读文章。。。

每个人的基础和感兴趣的方向不一样,学习计划应因人而异(我的学习计划比较乱。。),最好根据自身情况合理制定学习计划。

共勉。

18年11月1日 更

Read More