加入收藏 | 设为首页 | 会员中心 | 我要投稿 四平站长网 (https://www.0434zz.com.cn/)- 云服务器、对象存储、基础存储、视频终端、数据应用!
当前位置: 首页 > 大数据 > 正文

帮助你在2021年成为数据科学家的21个有用的小方法

发布时间:2021-06-03 21:18:08 所属栏目:大数据 来源:互联网
导读:1、最简单的解决方案往往是最好的解决方案 成为数据科学家并不意味着你必须使用机器学习模型解决所有问题。 如果CASE WHEN查询足以完成工作,则坚持这样做。 如果线性回归足以完成任务,则不要构建10层神经网络。 更简单的解决方案有很多好处,包括更快的实

1、最简单的解决方案往往是最好的解决方案

成为数据科学家并不意味着你必须使用机器学习模型解决所有问题。 如果CASE WHEN查询足以完成工作,则坚持这样做。 如果线性回归足以完成任务,则不要构建10层神经网络。

更简单的解决方案有很多好处,包括更快的实施时间,更少的技术负担以及总体上更容易的可维护性。

2、花点时间来发现和探索新的库和包

坚持使用你喜欢的工具很容易,但是使用创造新工具是有原因的——它们是用来填补现有的空白的。通过花时间探索新的库和包,我发现了一些令人难以置信的工具,它们为我节省了大量时间。以下是其中的一些:

Gradio是一个Python包,它允许你用三行代码就可以为你的机器学习模型构建和部署一个web应用。它的作用与Streamlit或Flask相同,但我发现它更容易部署模型。

Pandas Profiling是另一个自动进行探索性数据分析并将其整合到报告中的软件包。我发现当我使用较小的数据集时,这非常有用。最棒的是它只需要一行代码!

Kedro是一个开发工作流工具,允许你创建可移植的ML管道。它将软件工程最佳实践应用到你的代码中,使其可重现性、模块化和文档化良好。

3、高效并不意味着匆忙完成重要的步骤

有些步骤是不能匆忙的。特别是应该花时间深入理解试图解决的业务问题和正在使用的数据。

4、可以说,指标比模型本身更重要

这一点在某种程度上与前一点相联系,因为你必须对你要解决的问题有一个非常好的理解。除了理解这个问题,你还需要弄清楚你想优化的指标,因为归根结底,机器学习是统计和优化的花哨词汇。

举个例子,我可以有一个100%准确率的模型,但如果我试图开发一个异常检测模型,这是没有用的!

5、你的工作表现取决于你的沟通能力

人们会被他们不理解的东西吓倒,并倾向于避开它们。

你必须能够以非技术人员能够理解的方式交流技术术语和建模技术。如果你花时间构建了一个很棒的模型,你就应该花更多时间进行有效的沟通,这样人们才能认可你的努力!

(编辑:四平站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读