数据科学
此條目需要擴充。 (2013年7月15日) |
上级分类 | 科學 |
---|---|
研究對象 | 数据 |
从业者 | 數據科學家、data architect |
使用 | 統計學、应用数学、計算機科學 |
Stack Exchange子网站 | https://datascience.stackexchange.com |
机器学习与数据挖掘 |
---|
数据科学(英語:data science)又称资料科学,是一门利用数据(资料)学习知识的學科,其目标是透过从数据中提取出有价值的部分来生产数据产品[1],学科范围涵盖了:数据取得、数据处理、数据分析等过程,举凡与數據有关的科学均属数据科学。
数据科学结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学透过运用各种相关的数据来帮助非专业人士理解问题。 数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学、社会科学、人类学等领域进行研究调研。此外,数据科学也对商业竞争有极大的帮助[2]。
美国国家标准技术研究所于2015年发表七卷大數據参考框架(NIST Big Data Reference Architecture,NBDRA),于第一卷定义篇中将數據科學定为在理论科学、实验科学和计算科学之后的第四科学科学[3][4]。
数据科学家是把统计学知识和计算机程式设计知识相结合,并将其用于深度分析数据来获得数据见解的职业[5]。
歷史
[编辑]1960年代,彼得·諾爾就首次提議要用「數據科學(data science、Datalogy)」來替代「計算機科學(computer science)」,後來在上世紀九十年代中期為國際分類社團聯盟所用。
1997年11月,吴建福 发表了题为“统计=数据科学?”的就任演讲,[6] 因为他被任命为密歇根大学的 H. C.卡弗教授。[7] 在这次演讲中,他将统计工作描述为数据收集、数据建模和分析以及决策制定的三部曲。 在他的结论中,他开创了“数据科学”(而非“计算机科学”)这个术语的现代用法,并提倡将统计学重命名为数据科学,而统计学家则应重命名为数据科学家。[6] 后来,他发表了题为“统计=数据科学?”的演讲,作为他1998年的首个 P. C. 马哈拉诺比斯纪念演讲。[8] 这些讲座是为了纪念印度科学家、统计学家和印度统计学院 创始人P. C. 马哈拉诺比斯 。
2001年,William S. Cleveland 提議將其設立為一個新的學科,吸收「計算在數據方面取得的進展」作為統計學的延伸。《Data Science Journal》及《The Journal of Data Science》分別於2002年與2003年發行;2005年9月,美国国家科学基金会發表了《长存的数码数据收集:使21世纪的研究与教育成为可能》,文中將數據科學家定義為「信息与计算机科学家,数据库与软件工程师与程序员,跨学科专家,保管员以及专业注释者,图书馆员,档案馆员和其他人员,这些人对数码数据收集的成功管理至关重要。」[9] 2008年 Jeff Hamerbatcher 與 DJ Patil circa 分別在 Facebook、LinkedIn 領導全球第一支數據科學團隊,至此數據科學越來越被廣泛流行,並應用到公共衛生、市場、金融、社會等各個領域。
数据科学家
[编辑]數據科學家這個職位的頭銜則是1997年吴建福的报告 "Statistics = Data Science?"中首次提及[來源請求]的,他認為數據科學家就是能夠從大型数据集中析取出數據,並进行统计推断的统计学家。
2009 年 1 月,數位化數據跨機構工作組發表了一份名為《駕馭科學與社會數字化數據之力》的報告,Sadkowsky 從中了解到「數據科學家」這個詞,認為該詞是自己所從事工作的最好描述。
2012年,数据科学家被《哈佛商業評論》称为《二十一世纪最性感的职业》[10]後,數據科學逐漸成為一個時髦術語(Buzzword)。
2017年,由資料科學活動而衍生的資料經濟,也開始被關注。與資訊經濟不同的是,資訊經濟是由編譯過的資料而產生經濟價值,而資料經濟的資料價值則源自於資料本身,它可以不斷的被編譯而產生多樣化的價值。
数据科学家在美欧的需求巨大,麥肯錫公司宣布全世界上此职业人才短缺超过二十万工人[11]。
参考文献
[编辑]- ^ Dhar, Vasant. Data Science and Prediction. [2014-07-14]. (原始内容存档于2014-11-09).
- ^ AOL staff. Data Scientist: The Hottest Job You Haven't Heard Of. [2014-07-14]. (原始内容存档于2014-07-17).
- ^ 存档副本 (PDF). [2022-06-07]. (原始内容存档 (PDF)于2022-06-09).
- ^ 大数据, 2017, 3(4): 11-19 doi: 10.11959/j.issn.2096-0271.2017037
- ^ Davenport, Thomas H.; Patil, D. J. Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. 2012-10-01 [2017-06-17]. ISSN 0017-8012. (原始内容存档于2017-06-14).
- ^ 6.0 6.1 Wu, C. F. J. (1997). Statistics = Data Science? (PDF). [9 October 2014]. (原始内容存档 (PDF)于2014-10-14).
- ^ Identity of statistics in science examined. The University Records, 9 November 1997, The University of Michigan. [12 August 2013]. (原始内容存档于2013-10-29).
- ^ P.C. Mahalanobis Memorial Lectures, 7th series. P.C. Mahalanobis Memorial Lectures, Indian Statistical Institute. [18 Jul 2017]. (原始内容存档于29 October 2013).
- ^ Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century. (PDF). National Science Board, September 2005, National Science Foundation. [19 January 2020]. (原始内容存档 (PDF)于2017-05-05).
- ^ Data Scientist: The Sexiest Job of the 21st Century. [2017-06-17]. (原始内容存档于2017-06-14).
- ^ Big data: The next frontier for innovation, competition, and productivity. [2017-06-17]. (原始内容存档于2017-06-19).