驯服大数据:使用App技术研究社交媒体上的组织行为(上)

这是社论前沿第S953期推送

微信号：shelunqianyan

编者按

Facebook和Twitter这样的社交网站为组织和集体行为研究提供了大量的质性数据。然而，这些新数据源缺少关于集体行为背后更广泛社会背景的关键信息——或将其掩盖在严密的隐私保护壁垒之下。本文分为两次推送，上半部分包括作者如何使用社交媒体站点和云计算技术为社交媒体调查应用程序（SMSA）构建互联网基础设施；向组织提出请求允许访问其社交媒体数据的过程；如何从社交媒体站点中提取此类数据；在组织与其他组织、公众互动过程中，如何将传统调查方法与应用程序相结合，收集组织背景和广泛社会背景相关信息；如何创建激励机制使社交媒体用户安装SMSAs；如何识别使用社交媒体站点的组织样本，并动员他们安装SMSA。

引言

近年来，社会科学家对使用社交媒体数据研究组织和集体行为表现出了极大热情。这种热情在很大程度上是由Facebook和Twitter等社交媒体网站提供的大量数据激发的。如果有足够的计算资源，学者们可以提取数十亿行文字来描述组织与用户之间的在线互动。与传统调查研究或通过与组织代表深入访谈获取的人工或回顾性数据相比，这些数据描述了组织之间 “自然发生”的互动，因而具有双重吸引力。这些数据的丰富性和纵向性使其有了解组织演变和集体行为的可能。越来越多的组织和公众使用社交媒体和相关技术，这些数据资源的价值只会不断增加。

然而，使用社交媒体来研究组织和集体行为存在方法论障碍。大多数可获得的公开数据缺乏关于组织及其受众以及他们之间互动的广泛社会背景的关键信息。这些基于社交媒体文本分析的研究，难以解决诸多组织行为理论的核心要素分析问题，如组织能力或外部机会结构等。虽然一些社交媒体网站收集了相关维度的详细信息，但由于公众对网络隐私普遍关注，这些数据受到了严密地保护。

本文中，作者介绍了社交媒体调查应用程序（social media survey apps ，简称SMSAs），该程序将计算社会科学方法与传统调查技术相连接，以便在线上进行较为全面的集体行为分析。SMSAs（1）需要维护社交媒体网页的组织提供大量的公开和非公开数据，（2）对这些组织进行调查，以便收集研究人员感兴趣的额外数据，（3）并将学术分析的结果返回给这些组织，以鼓励他们参与社会科学研究。因此，SMSAs提供了一种高效、经济、安全的方法，可以从那些使用社交媒体的组织的大量样本中提取详细数据。

本文为SMSAs的设计和实现提供了一个指南。作者对应用程序的研究建立在Facebook的用户上，这种方法也可以扩展到其他社交媒体站点。由于创建SMSAs需要大量的计算机编程技能，而这些技能在社会科学中并不常见，所以在本文的讨论中，没有关于软件语言或网络技术的详细介绍。为此，作者提供了带注释的软件代码，描述了如何通过以下链接实现这种技术：

https://github.com/cbail/App-for-StudyingOrganizational-Behavior-on-Social-Media

为SMSA创建在线基础设施

SMSAs需要跨多个网站进行大量的协调才能发挥其功能。在描述从组织获取社交媒体数据所需的软件工程步骤之前，作者描述了创建和托管此类软件所需的在线基础设施。第一步是请求允许从社交媒体站点创建应用程序（以下简称app）。在Facebook上，这需要app开发人员创建所谓的“canvas page”。 canvas page是一个网站，app开发人员必须输入与app有关的基本信息，包括app的名称、功能的简要说明、开发人员的名称和其他管理数据。canvas page不承载构建SMSA的软件代码或计算机脚本。相反，此类软件必须上传到外部网站。当前互联网上有大量的app托管网站，在可扩展性和成本方面提供各种便利。其中最受欢迎的是Google应用引擎。在该应用引擎上，app开发人员必须创建一个账户，或链接一个现有的谷歌账户，用于支付app用户创建互联网的流量成本。目前，app的托管成本非常低，通常每月不到几美元。当然，该成本取决于app所使用的互联网流量。

app软件必须用几种计算语言（如Python、Java或PHP）中的一种语言进行编写。该软件通常以多个脚本或文件的形式相互连接，软件开发人员在app承载网站上使用自己喜欢的语言进行启动或“部署”。app可以通过开发人员编写的附加计算机脚本或自动化工具来执行，如Google应用引擎启动器，这是一款可以安装在任何计算机上的“独立”软件。

访问组织的社交媒体数据

图1描述了一个SMSA的工作流程。创建SMSA所需软件工程的第一步，是向组织代表请求获得从其社交媒体页面访问数据的权限。这个过程通常被软件开发者称为“身份验证”。并不是每个认证请求都是相同的。身份验证请求在用户请求的信息类型上有所不同，本文为管理组织社交媒体站点的人。在Facebook上，由组织管理的页面被称为“fan pages”。以fan pages为目标的SMSAs可以获取两年以上的“insights data”，这些数据是非公开的。与网络监控工具“Google Analytics”不同，insights data使页面所有者能够对访问者进行监控。Google Analytics只提供了访客流量的原始统计，而Facebook的insights data包含了访问Facebook页面的用户年龄、性别和地理位置的汇总信息，以及他们与页面交互的详细信息，包括页面浏览量、点击量、评论数、喜爱数和地理位置。更重要的是，SMSA可以提取组织发布的所有帖子的所有内容，以及受众评论和页面上可公开查看的任何其他信息。

用于认证的软件代码很容易修改，便于从一个组织中请求获得不同类型信息。这些请求通过社交媒体站点内的在线对话方式，传递给管理组织社交媒体页面的人。很多读者可能已经熟悉了这类请求，在Facebook页面中通常以“弹出”窗口的形式出现，用于解释在安装新app时，用户需要同意共享的信息类型。如果用户同意这样的请求，Facebook就会创建一个名为“身份验证令牌”的加密密码，该密码允许app开发人员在有限的时间内访问他们的数据——通常是几个月。如果SMSA开发人员希望在较长的时间内收集数据，必须通过相同的弹窗对话方式，定期向管理组织社交媒体页面的人请求重新认证。由于Facebook的insights data可以追溯到两年以上，这种认证在研究中可能不需要。但是，如果需要重新认证，那么在app软件中就可以实现自动认证。

从社交媒体网站中提取数据

如果管理组织社交媒体站点的人授予权限，SMSA可以从应用程序编程接口(API)请求获得信息。API是一种相对较新的互联网技术，使app开发人员能够从Facebook或Twitter等社交媒体站点请求获得特定信息。API通常被称为信息的“消防水管”，因为它们能够高效处理大量数据的频繁请求。许多大型社交媒体站点和网站都开发了自己的专有API技术，如谷歌和纽约时代。在本文之后的讨论中，Facebook的API被称为“Graph API”。

不幸的是，每个社交媒体网站的API都有自己的数据请求语言——随着app技术的不断成熟，这些语言也会频繁变化。因此，在计算机程序中学习编写API请求，是app开发中最具挑战性的部分之一。幸运的是，Facebook已经创建了一个有用的学习工具，名为“Graph API Explorer”（参见http://developers.facebook.com/tools/explorer）。app开发人员可以用适当的查询语言，通过输入身份验证令牌和API请求，观察输出结果。

SMSAs需要存储APIs数据的基础设施。当前有多种云数据存储可供选择。Google提供了一些时下最流行的云存储选择，如Google驱动器（Google Drive），数据可以很容易地传递到矩阵或电子表格中。随后SMSA可以在这个位置请求数据，提供用户感兴趣的学术分析或供研究人员进行后续分析。

用SMSAs调查组织

虽然通过社交媒体APIs获取的数据量相当大，但大多数对此感兴趣的研究人员，仍需要在社交媒体网站不能提供有效数据时，通过补充数据来确定组织的其他特征或广阔的社会背景。使用app技术进行调查研究，在获取所需的大量信息方面，仅受研究者的想象力和安装app的组织代表耐心的限制。

同样，SMSA的调查部分需要更多的互联网基础设施来运行。一个理想的解决方案是SMSA软件将用户“重新定向”到一个URL，可以在提取他们的社交媒体数据后进行检测。此外，基于网络的研究可以有多种不同的选择，包括Qualtrics、Survey Monkey和Google Forms等等。SMSA还可以在社交媒体站点或移动设备上与用户进行交互。

激励组织安装SMSA

对于那些希望开发SMSAs的研究人员来说，一个重大挑战是如何鼓励组织使用这些软件。尽管每天有数亿人与app开发人员分享自己的个人信息，但公众仍在为隐私保护和网络身份盗用而担忧。此外，由于近年来app的激增，在获取用户关注度方面，这些app之间的竞争十分激烈，其中许多app没有要求用户回答调查问题或共享大量私人数据。尽管在用户选择时完成这种计算机或移动端的调查可能比传统的电话调查更方便，但从所有类型社会调查答复率的稳步下降现象可知，必须让公众感受到显著回报，才能抵消共享数据的风险和时间。

招募组织安装SMSA的一种方法是提供一些他们可能感兴趣的学术分析。例如，SMSA收集大量组织的数据，可以帮助用户了解他们的组织如何与其他同行进行比较，以及他们如何从他人的成功和失败中吸取经验。随后应用SMSA技术，例如，根据非营利组织在调查中的答复情况，将其Facebook中的insights data与同行数据进行比较，就如何优化他们的外联工作提出定制的建议，帮助他们吸引新的受众。如果app允许用户追踪竞争对手，帮助用户确定新的投资机会或其他创业形式，或者无论是否在用户所属的领域内，都可以根据其他组织的经验帮助其找出更有效的方法，那么营利性组织也可能会安装这一软件。专门为此类竞争性行业设计的SMSAs，必须确保其社交媒体数据和调查数据不会被公开，这种设定必须不受组织领域的影响。

向组织提供学术分析当然更需要计算。除了认证、提取社交媒体数据和调查分析之外，这类SMSAs还需要将某种形式的社会科学分析内置到软件中。在大多数情况下，组织不太可能会欣赏高度复杂的社会科学分析，例如多元回归模型。因此，只需要提供简单的描述性分析，帮助组织了解自己相对于其他同行的位置。从计算机编程的角度来看，这样的计算相对简单——人们只需点击一个感兴趣的用户数据点，通过调取存储在云服务器上的数据实现计算，就可以与其他所有安装该app的用户数据（同一变量的平均数）进行比较。

将提供社会科学分析作为激励因素的SMSA还必须包括一种机制，将此类信息返回给安装app的组织代表。一种选择是让组织代表重新定向到一个网站，在SMSA调查阶段后，该网站将分析结果显示在html表格中。另一种选择是将结果以电子邮件的形式发送给用户，该信息也是由SMSA软件自动化形成的。最后一种选择是在附加网站中创建用户帐户，组织代表可以根据自己感兴趣的项目在该网站上进行分析。但由于需要建立支持个人用户帐户和密码的基础设施，以确保数据不会被第三方侵犯，最后一种选择耗时较多。

文献来源：Christopher A. Bail. Taming Big Data: Using App Technology to Study Organizational Behavior on Social Media. Sociological Methods & Research, 2015,46:189-217.

文献编辑：杨阿诺

社论前沿

关注国际顶级刊物

聚焦前沿理论方法

追踪名家研究轨迹

推送最新学术论文

微信号：shelunqianyan

社论译介作品，欢迎投稿、个人转发朋友圈，自媒体、媒体、机构转载请申请授权，联系邮箱shelun2015@163.com，注明“机构名称+转载”。

驯服大数据:使用App技术研究社交媒体上的组织行为(上) | 社论前沿