数据科学 | Answer

当99%准确率成为谎言：机器学习评估指标的深层博弈

一个训练好的疾病诊断模型号称达到了95%的准确率，医疗团队欣喜若狂，准备将其投入临床使用。然而，当数据科学家深入检查后发现：这个模型只是简单地给所有患者都打上"健康"的标签——因为健康患者占总数的95%。 ...

推荐系统如何从海量数据中读懂你的心思：从协同过滤到深度学习的三十年技术突围

2006年10月，Netflix做了一件在当时看起来疯狂的事：公开发布了1亿条匿名用户评分数据，悬赏100万美元征集能把推荐准确率提升10%的算法。这个看似简单的数字背后，是一场持续三年的算法马拉松，吸引了来自186个国家的超过4万支队伍参赛。最终获胜的方案融合了超过100个子模型，技术报告长达92页。 ...

一个被对数表泄露的秘密：为什么数字1总是赢家

1881年，加拿大裔美国天文学家Simon Newcomb在使用对数表进行计算时注意到了一个奇怪的现象：书的前几页——那些以数字1开头的页——比后面的页磨损得更严重。这本该是一个无聊的观察，却揭示了一个横跨整个数学世界的惊人规律。 ...

为什么你的A/B测试结果总是不可靠？从p值陷阱到多重比较的统计困境

Ronny Kohavi在微软担任实验平台副总裁期间发现了一个令人不安的数据：在经过精心设计和执行的A/B测试中，只有约三分之一成功改善了目标指标。另外三分之一的实验没有任何显著差异，剩下的三分之一甚至产生了负面影响。 ...

一个不存在的日期：Excel为何保留了四十二年的错误

在Excel中输入"1900-02-29"，按下回车。程序不会报错，不会提示无效日期，而是平静地接受了这个输入，将它格式化为"1900/2/29"或"29-Feb-00"。 ...

数据可视化：为什么你的图表总是选错

1983年，统计学家 Edward Tufte 在《The Visual Display of Quantitative Information》一书中提出了一个简单却深刻的问题：一张图表中，有多少"墨水"是用来展示数据的，又有多少是用来装饰的？他称之为"数据墨水比"（Data-Ink Ratio）——一个图表中数据相关的墨水量与总墨水量的比值。 ...