在数据科学领域第一年学到的经验
![]() ebhooks来触发其他服务。 这些外围动作构成了机器学习的大部分工作,都需要扎实的计算机科学实践。 这些与开发代码有关的实践中,有一些编写短函数,每个短函数都做得很好,开发实现相关功能的类,正确的命名约定,对代码和数据编写单元测试,编写易于阅读,而不重复的代码。 另外,还有其他计算机科学实践可应用于代码本身,例如版本控制,代码审查,持续集成,代码覆盖和部署,这些实践现在催生了一个完全独立的机器学习操作(MLOps)领域。 尽管我设法完成了机械工程->数据科学家的过渡,但回想起来,进行工程->计算机科学->数据科学本来会更具有生产力。 第二种方法本来意味着我不必学习在数据科学课程中学习到的不良编码实践。 换句话说,我认为在扎实的计算机科学背景之上添加数据科学,要比先学习数据科学然后学习计算机科学要容易得多(但两种方法都是可行的)。 计算机科学涉及一种完全不同的系统思维方式,即在编码之前进行有计划的规划,缓慢地编写代码以及在编写代码后进行测试。 干净的代码与数十个半写笔记本(我们所有人都拥有名为Untitled12.ipynb的笔记本)的数据科学通常随心所欲的本质形成鲜明对比,并且强调获得即时结果,而不是编写相当无错误的代码, 可以重复使用。 所有数据科学家都可以从计算机科学最佳编码实践课程中受益。 结构化脚本和程序包,编写简洁的代码,测试和记录代码的能力,使从探索性数据科学到机器学习的过渡更加易于管理。 此外,他们灌输了一种思维模式,从而导致易于理解的可重用代码。 即使是通常会编写数据科学脚本以分析论文数据的学术数据科学家也将受益于更好的实践。 如果科学家编写更简洁的代码并包含用于验证输入,输出和功能行为的单元测试,则科学中的可再现性问题可能会得到改善。 数据科学中有很多主题需要学习,有时可能会感到不知所措。 但是,计算机科学不应被视为附加组件。 相反,对于希望看到其代码可操作的数据科学家来说,它应该被视为基础。 幸运的是,有很多资源,任何人都可以用来学习和应用这些实践。 由于数据科学取决于人类的判断力,所以我们需要意识到 数据科学仍然是高度主观的 (编辑:四平站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

