秦皇岛seo博主拥有多年seo,网络营销推广经验,曾服务于多家中大型企业,众多成功案例,可为您提供专业的网站seo,网络营销推广,网站建设等服务。点击这里给我发消息

Twitter 数据分析师独家披露他们的工作内容(上)

互联网动态 秦皇岛seo 1026℃ 0评论

什么是数据分析?许多人谈论它们,但很少有人真正见过它们。这是当前科技行业最热门的位置。今天,让我们走进推特的数据分析世界,看看科技公司需要什么样的数据分析师。他们的实际工作内容是什么?到今年6月17日,罗伯特·张已经在推特上工作了两年。根据他的个人工作经验,Twitter数据分析(以下简称DS)在以下三个层面发生了变化:

1.机器学习在推特的许多核心产品中扮演着越来越重要的角色,这是“机器学习”的禁区。最典型的例子是函数“当你离开的时候”。当用户离开页面或电脑并在做了其他事情后返回页面时,电脑会立即推出一些由您关心的人发送的“高质量内容”,您可能会错过这些内容。

2.开发工具越来越好。整个团队摆脱了对猪的依赖,新的数据管道是用滚烫的语言编写的。

3.在团队组织方面,推特已经转向嵌入式模式。其中,数据分析与产品/工程团队的关系比以往任何时候都更加密切。

在推特上工作真的很令人兴奋,因为你可以站在这个平台上,引领世界上最前沿的数据技术,创造最大的竞争优势。与此同时,人们对大数据的需求日益增长。

丹·艾瑞里曾经说得很好:

“大数据实际上有点像青少年的性行为。每个人都饶有兴趣地谈论它,但没有人真正知道该做什么。每个人都觉得周围的每个人都在努力。为了不落后,每个人都在外面。宣城已经有了“同伴”。

如今,太多的人表达了他们的观点,并就如何成为一名优秀的、有能力的数据分析师给出了自己的建议。罗伯特·张无疑是一个受益者。然而,当他回顾和思考讨论时,他会发现人们更倾向于谈论“技术”、“工具”和“技能组合”。在常看来,这些事情确实很重要,但对于新人来说,了解数据分析师每天的生活是什么样的,具体的工作内容是什么,也是非常重要的。

因此,常第一次以自己为例打开了Twitter数据分析师的神秘之门。

键入一个数据分析师VS B数据分析师

在来到Twitter之前,常总觉得数据分析师在任何领域都必须被视为“独角兽”,他们在数据和数学方面都是顶尖人才。除了技术过硬之外,书面写作和口头交流的能力也将特别强。更重要的是,他们可以区分当前工作的优先级,领导和管理项目团队。是的,如今,它是一种面向数据的文化。作为一名“数据分析师”,当然有必要给这种文化注入灵魂和活力!

常加入Twitter几个月后,他逐渐意识到“独角兽”符合上述描述确实存在,但对于大多数人来说,上述要求有点太不现实了。人们不可能什么都做。后来,常通过Quora中的一个答案对数据分析师的角色有了更深的理解。在那篇文章中,数据分析师分为两种类型:

a型数据分析师:他们主要负责“分析”。他们最关心数据背后的含义,经常使用统计数据来找出真相。事实上,他们的工作有点像“统计员”,但不同的是,他们掌握了统计学专业涉及的所有内容,但他们也知道一些统计学教科书中从未出现过的内容,如数据清洗、如何处理大数据集、数据可视化、数据层面上的报告编写等。

b类数据分析师:b类负责“构建”。他们与以前的分析师有相似的统计背景,但他们也是优秀的程序员或训练有素的软件工程师。b型数据分析师通常对“如何使用数据进行生产”感兴趣。他们建立一些可以与用户互动的模型,通常是以“推荐/推送”的形式,比如“你可能认识的人”、“广告”、“电影”、“搜索结果”等等。

看到这样一个清晰的划分,常感到遗憾的是,如果早年就有这样一个清晰的概念就好了。这样,他可以有选择地发挥自己的力量,并选择一方继续发展。这是数据分析师在职业规划中要考虑的第一个标准。

常的个人专业背景是“数学”、“运筹学”和“统计学”。因此,他更倾向于将自己定位为A类数据分析师,但同时,他也渴望B类分析师参与如此多的工程开发工作。

早期创业公司、快速成长的创业公司和实现大规模发展的创业公司中数据分析师职位的差异

当选择加入科技行业时,最常遇到的问题之一是加入一家大型科技公司是否更好。最好加入一家小科技公司。关于这个话题有很多争论,但关于“数据分析”的争论却不多。因此,在本章中,我们应该具体谈谈数据分析师在不同公司规模和发展阶段的不同角色。

处于不同发展阶段的技术公司的生产数据的数量和速度是不同的。一家仍在努力寻找“产品市场契合点”的初创公司根本不需要Hadoop,因为公司本身没有太多数据需要处理;一家快速成长的初创企业经常会遭遇更频繁的数据冲击。也许PostgreSQL或Vertica更适合这家公司的需要;没有Hadoop或地图简化框架,像推特这样的公司无法有效地处理所有数据。

常在Twitter上了解到的最有价值的事情是,数据分析师从数据中提取价值的能力与公司自身数据平台的成熟度密切相关。如果你想知道你从事的是什么样的数据分析工作,首先要做研究,看看这家公司的底层系统架构能在多大程度上支持你的目标,这不仅对你有好处,对公司也有好处,这样才能看看你的个人职业发展目标是否符合公司的需求。

在创业的早期,主要的分析重点是实现ETL过程,模块化数据,设计基本的模型架构,并将数据记录应用到其中。以便跟踪和存储数据。这里的目标是奠定分析工具的基础,而不是分析本身。,

在快速增长的初创企业的中间阶段,由于公司发展迅速,数据也在增长。数据平台需要适应不断发展的新形势和新条件。在打下良好基础的前提下,它开始逐步实现向分析领域的过渡。一般来说,此时的分析工作主要集中在制定关键绩效指标、促进增长和寻找下一个增长机会上。

实现规模增长的公司。当公司实现大规模增长时,数据开始以几何级数增长。此时,公司需要使用数据来创造或保持一些竞争优势,例如更好的搜索结果、更相关的推荐内容以及更高效合理的物流或运营。此时,如最大似然工程师、优化专家和实验设计者,可以参与并展示他们的技能。

常加入Twitter时,Twitter已经有了一个非常成熟的平台和非常稳定的底层结构。整个数据库内容非常干净可靠。ETL过程每天轻松处理数百个“任务调度”任务。(地图-缩小).更重要的是,数据分析领域的人才来自很多领域,如数据平台、产品分析、用户成长、实验研究等。,许多关键任务是齐头并进的。

关于常自己的经历

他是用户增长领域的第一位全职数据分析师。事实上,他们花了几个月的时间来研究如何整合产品、工程和数据分析,以实现这样的工作角色。常的工作与产品团队密切相关。根据他在这一领域的工作经验,他将工作职责分为以下几类:

产品分析

数据传输通道

实验(A/B测试)

造型

下面将按排列顺序逐一解释

产品分析

对于一家消费科技公司来说,产品分析意味着使用数据来更好地理解用户的声音和偏好。每当用户与产品互动时,推特都会记录下最有用的数据,并存储起来以供未来分析。

这一过程被称为“记录”或“仪器”,并且它自己也在不断发展。通常,在数据分析中很难实现特定的分析,因为数据要么是不正确的、缺失的,要么是格式错误的。在这里,有必要与工程师保持良好的关系,因为数据分析可以帮助工程师识别系统中的错误或一些意外行为的位置。反过来,工程师可以帮助数据分析弥合“数据鸿沟”,使数据内容丰富、相互关联且更加准确。

以下是常在Twitter上进行的一些产品相关分析案例:

推送通知分析:有多少用户可以获得推送通知?不同类型推送通知的具体点击率是多少?

短信发送率:推特在不同数字运营商上的短信发送率是如何计算的?发展中国家的汇款率相对较低吗?我们如何提高这个数字?

多账户:为什么在一些国家一个人持有多个账户的比例相对较高?一个人持有多个账户背后的动机是什么?

分析将采取多种形式。有时公司会要求你以最直接的方式解释一个简单的数据拉动,或者你需要想出一些新的方法和手段来选择一个全新的和重要的运营指标。(比如短信发送率),最后你会对用户的行为有更深的了解。(例如,一个人有多个帐户)

在产品分析中不断学习和获得洞察力是一个迭代进化的过程。它需要不断地提问,不断地了解业务情况,并找到最正确的数据集来回答相应的问题。随着时间的积累,你将成为数据领域的专家,你将正确地估计执行分析需要多长时间。更重要的是,你将逐渐从被动的响应状态过渡到主动的行动状态,这将涉及到许多有趣的分析,这些分析从来没有被产品领导者考虑过,因为他们不知道这些数据的存在,或者不同类型的数据以某种特殊的方式组合在一起得出如此惊人的结论。

这里需要的技能:

识别数字鸿沟。与工程部建立良好的合作关系;

能够指导和确认相关数据集,并知道如何正确使用它们;

理解不同形式的分析,并能够在执行不同分析之前正确估计难度和所需的时间长度;

掌握你的查询语言。一般来说,r或Python是用来实现数据再处理的;

数据管道

尽管A型数据分析师不太可能编写自己的代码并直接应用于用户,但令许多人惊讶的是,包括常在内的许多A型数据分析师实际上是在为一个目的编写代码:数据管道处理。

如果您听说过Unix的“执行一系列命令”,那么一个数据管道就意味着执行多个系列的命令,我们可以一次又一次地自动捕获、过滤和收集数据。

在谈到推特之前,常的分析主要是点对点的。在昌的本地机器上,代码被执行了一次或几次。这些代码很少被审查,也不太可能被版本化。但是当一个数据通道出现时,一系列的功能就出现了,如“依赖性管理”、“调度”、“资源分配”、“监控”、“错误报告”和“警告”。

以下描述了创建数据管道的标准过程:

你突然意识到,如果一个数据集能够一次又一次地自我复制,那么这个世界将会从中受益;

确认需求后,开始设计“生产数据集”的“数据架构”;

开始写你的代码,不管是用猪,烫伤,还是SQL。这取决于您的数据环境是什么;

提交代码,进行代码审查,准备后获得反馈,并进行相应的附加修改。要么你的设计逻辑不正确,要么你的代码没有为了速度和效率而优化;

应该有一个“测试”和“试运行”的环境,以确保所有的操作都在既定的轨道上。

将您的代码合并到主库中

建立“监控”、“错误报告”和“警告”等功能,以防止将来出现意外情况。

显然,数据通道比对等分析工具更复杂,但它的优势是显而易见的,因为它是自动运行的,而且它产生的数据可以进一步增强面板,以便更多的用户可以使用您的数据/结果。

此外,一个更重要但经常被忽视的结果是,如何创建最佳工程设计是一个很好的学习过程。如果你将来需要开发一个特别定制的数据通道,比如机器学习,前面的工作将成为一个坚实的基础。

这里要使用的技能:

版本控制,目前最流行的是Git;

知道如何进行“代码评审”以及如何有效地给出反馈;

知道如何测试,如何尝试运行,以及当出现错误时如何“调试”;

“依赖性管理、调度、资源分配、错误报告、警告”功能的设置。

资料来源:中译英,由TECH2PO/创见花满楼编辑

转载请注明:老街华纳公司开户-MD62333 » Twitter 数据分析师独家披露他们的工作内容(上)

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址