数据科学项目对于从事这个行业者来说很重要,不仅能锻炼能力,同时可以作为就业面试时的经验,可以在面试过程中进行讨论,从而增加自己的竞争力。
所以找到一个合适、有趣的数据集,这些数据集涵盖了各种来源:人口数据、经济数据、文本数据和公司数据。
免费的学生数据集
1、美国人口普查数据:https://www.census.gov/data.html
美国人口普查局公布了州、市甚至邮政编码级别的大量人口统计数据。对于那些对创建地理数据可视化感兴趣的学生来说,这是一个非常棒的数据集,可以在人口普查局的网站上访问。或者,可以通过API访问数据。使用该API的一个方便方法是通过choroplethr。总的来说,这些数据非常清晰和全面。
2、FBI犯罪数据:
https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-1
https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-2
美国联邦调查局犯罪数据是有趣的,是这个列表中最有趣的数据集之一。如果你对分析时间序列数据感兴趣,你可以用它来描绘20年间全国犯罪率的变化。或者,您可以从地理位置查看数据。
3、美国疾病控制与预防中心(CDC)死因:https://www.cdc.gov/datastatistics/index.html
疾病控制和预防中心维护着一个死因数据库 。数据几乎可以通过所有可以想象的方式进行细分:年龄,种族,年份等。
4、Medicare医院质量:http://seer.cancer.gov/faststats/selections.php?series=cancer
医疗保险和医疗补助服务中心(Centers for Medicare & Medicaid Services)在全美4,000多家经医疗认证的医院中维护着一个医疗质量数据库,提供了有趣的比较。
5、SEER癌症发病率:http://seer.cancer.gov/faststats/selections.php?series=cancer
美国政府也有关于癌症发病率的数据,再一次根据年龄、种族、性别、年份和其他因素进行细分。它来自国家癌症研究所的监测、流行病学和最终结果项目。
6、美国劳工统计局:http://www.bls.gov/data/
美国许多重要的经济指标(如失业率和通货膨胀率)都可以在劳工统计局的网站上找到。大部分数据可以按时间和地理位置进行分段。
7、经济分析局:http://www.bea.gov/national/index.htm
经济分析局也有国家和地区经济数据,包括国内生产总值和汇率。
8、IMF经济数据:http://archive.ics.uci.edu/ml/datasets/Dow+Jones+Index
预测股票价格是数据分析和机器学习的主要应用。加州大学尔湾分校(University of California, Irvine)机器学习与智能系统中心(Center for Machine Learning and Intelligent Systems)提供的道琼斯指数(Dow Jones Index)周回报率是需要研究的相关数据之一。
10、英国政府网站data .gov.uk:https://data.gov.uk/
英国政府的官方数据门户网站提供数以万计的有关犯罪、教育、交通和健康等主题的数据集。
11、安然电子邮件:http://www.cs.cmu.edu/~enron/
安然公司倒闭后,大约50万封包含信息文本和元数据的免费电子邮件被公布。这个数据集现在很出名,为文本相关的分析提供了一个很好的试验场。您还可以通过该页面探索该数据集的其他研究用途。
12、Google图书Ngrams:
如果有关世界各地儿童生活的数据值得关注,那么联合国儿童基金会是最可靠的来源之一。该组织的公共数据集涉及营养、免疫和教育等方面。 14、Reddit评论:
除了维基媒体基金会的其他项目外,维基百科还提供下载英文文章的说明。 16、Lending Club:
沃尔玛公布了美国各地45家商店的历史销售数据。 18、Airbnb:
Yelp维护一个用于个人、教育和学术目的的免费数据集。它包括了来自10个大都市地区18.9万家企业的600万条评论。欢迎学生参加Yelp的数据集挑战。