样本必须反映整体特征,避免只取特定子群体。分层明显时应使用分层抽样。
必须清楚定义研究范围(如:所有币种 vs 前100大币种),否则抽样框会出错。
变数差异大用分层抽样;数据量大且有周期性要小心系统抽样;有群体结构用聚类抽样。
太小不稳定,太大浪费资源。做回归/机器学习时,样本数需远大于参数数量。
存活者偏误(忽略退市者)、时期偏误(特殊波动期)、选择性偏误。
必须设定固定 Random Seed,确保结果可复制。
通常先预处理(清极端值/缺失值),再抽样。
不要随机打散时间结构!应使用时间切割(Time Split),避免破坏序列相关性。
教学/示范 5-20% 即可,模型训练需更大比例。
记录抽样方法、比例、Seed、筛选条件等,提升透明度。
你需要连续通过 5 个关于「抽样注意事项」的关卡才能完成任务。如果不确定,请先查看右上角的调查手册。
这里是错误解释...
恭喜你!你已经掌握了抽样调查的核心注意事项,数据质量得到了保证。
样本具有代表性
避免了抽样偏误
设定了 Random Seed
妥善处理了时间序列