01如何做“预测帝”?
关注事物的内在风险逻辑,而非紧跟新闻报道
你所做的预测和传统的舆情监测有什么区别?
沈阳:传统的舆情监测更多关注重大舆情,我们所说的风险弱信号有点像小微舆情。在研究范式上还是有区别的。在我看来,小微舆情、线索性的选题、风险弱信号三者之间是高度重叠的。
我们团队有一个弱信号发现组,专门收集老百姓在民生服务方面的吐槽,直接反馈给省内的相关领导做出改善。
假设市民去办事大厅办证,结果遇到工作人员消极怠工,他在网上吐槽了这件事。实际上,他发在网上后我们就能看到,这相当于“民生服务弱信号”,通过发现这些不良现象的信号,反馈给有关部门改进,营商环境就能越变越好。
当预测一件事物时,你们如何选取切入角度?
沈阳:我们分析了江西九江昌洲乡和广西河池龙岩乡的水灾情况。一个地方玩抖音的人越多,展现出的灾情就越详细。我们通过看朋友圈、微博等渠道,发现水灾中的细节,比较两地的情况。
我们关注一件事,不是通过媒体报道的方向,而是会根据救灾的逻辑去跟进,关注事物内在的风险逻辑。昌洲乡决堤之后水淹进来了,我们就比较在意父老乡亲们有没有得到及时救助。我们从短视频上看到,他们一部分人被安置在一个中学里,还有人做心理辅导工作。
由此,我们会主动对比两个地区的数据,比如这个地区有5条关于安置点的视频,另一个地区可能没有这么这么多。这可能意味着另一个地区在这方面工作上出问题的概率会更高。
你提到了很多具体的分析框架,这些框架需要先由有经验的研究者提出吗?预测的准确度如何?
沈阳:目前这个阶段还必须是人工为主,我们还没跨越到机器为主的阶段。从我们的角度看,“风险弱信号的发现和预测”还处在研究早期,需要不断努力。我们对一部分项目做了预测准确度评估,更多的项目还没做评估。
随着研究者意识到可能存在更多的变量,将其加入模型后,最终结果也将是一个不断进化的过程。
沈阳:对。我们在研究当中有一系列方法分析哪些变量比较重要,再把决定性的变量保留下来。在这个基础上,再做进一步优化。做预测最好玩的地方在哪?你可以对明天做一个预测,如果这件事明天没有发生,你当时就能看到预测的对错。
自然或者社会当中一定会发生的事,是不以人的意志为转移的。如果预测的不准,一定是模型里哪些要素考虑不对,第二天就可以做调整。新冠疫情加速了各种事物的变化,过去还需要很长的观测周期,现在可能隔几天就会看到结果。
2从1亿网络数据找到风险:
不提倡使用内部数据,要有挖掘公开数据的能力
要发现风险弱信号并实现预测,需要哪些数据支撑?是否需要政府或企业的内部数据?
沈阳:我们对风险的判断,全部是基于公开数据,包括微博、微信、网页、客户端、论坛、贴吧、短视频等。我们团队一贯提倡使用网络公开数据做发现、预测、预警。我们不提倡使用内部数据,这既会涉及到一系列管理规定,同时内部数据也会存在失真。
其实,我们做国际分析的时候,也只能拿到外部数据,这就需要有网络公开数据的挖掘和分析能力。目前,我们团队每天的数据量超过1亿多条。当然,这个数据量也意味着价值密度不高。比如,我们要预测一支股票的走势,但贴吧里有大量从事商业推广的水军在灌水,这部分是不能作为预测工具的,或者权重占比要非常低。
有一个比较现实的问题,全世界能接触网络、有网络使用习惯并会公开发表言论的人还是少数。这种情况下,基于公开数据做推断,有没有可能出现偏差?
沈阳:传统上做分析和预测,大多基于抽样调查。但从目前情况看,抽样调查的方法其准确性有时候也是要打问号的。未来可能要将小数据调查和大数分析结合起来。
确实,大部分人是不说话的。但我们也可以建模,根据喧哗的少数来推测沉默的大多数。有一些科学模型可以推测他们的逻辑,他们的想法是什么。随着技术手段增强,大家使用社交网络的时间越来越长,推测沉默大多数的能力也会越来越强。
在事件早期,互联网上可能还没有具体的“信号”,怎样作出预测?
沈阳:我们有一套热点发现系统,可以监测中国近3000个县的热点事件,从中筛选出可能存在的风险。除了固定地区的监测外,我们还会定义一批风险敏感者,如果他们说的一件事不在热搜里,且这件事可能有指数级的增长,就会纳入我们的观测范围。
风险敏感者是怎么找到的?
沈阳:我们研究舆论的时间也有10年了,所以积累了大量网络当中的意见领袖。我们的数据库中,微博上的风险敏感者超过10万人。他们一旦释放了新的信号,我们就会跟进。
例如,疫情之中医生就是我们的关注重点,因为他们对疾病比较敏感。跑医疗口的记者我们也会比较关注,有些事情医生不方便说,记者可能就会告诉你。此外,网络中很常见的个人看病吐槽我们也会关注。
3新冠疫情带来的风险变数:
历史进程加速与矛盾压缩爆发
作为风险预测者,你是怎么理解风险的?
沈阳:整体上看,随着技术进步,人类对地球环境的影响极大,社会风险在全球范围内有了比较明显的提升。
一是技术性能指数级增长风险。技术性能的指数级增长让全球技术风险大规模提升。二是自然灾害和社会行为风险。人为对自然环境改造所造成的自然灾害风险,有可能导致黑天鹅事件。三是各种风险叠加后形成的系统性风险。四是舆论欺诈导致的个体的人财物风险。五是国际博弈风险。
新冠肺炎对风险的形成有哪些影响?
沈阳:新冠肺炎疫情到来后我们提了三个理论来解释各种风险现象。
第一个是“新冠加速论”。新冠疫情让本该在未来到来的很多事情加速到来,这种加速度大幅增加了风险概率,也带来了许多机遇。例如,机器人对人的大规模替代原本可能若干年后才会发生,但疫情加速了这一天的到来,可能会导致一些失业现象。为了发现新冠疫情,也推动实现“弱隐私的大数据洞察”。
第二个是“新冠指数论”。新冠疫情是人类第一次整体性呈指数级增长的全球公共卫生危机。这种指数级影响表现为经济影响、政治影响(如冲突加剧)以及公众心态影响的指数级共振。在这样的情况下,线性应对措施难以应对指数级增长。因此,指数级危机需要有指数级的应对措施。
第三个是“新冠复演论”。新冠疫情以来各种矛盾冲突不断加剧,把原来需要很长时间积累才会爆发的矛盾压缩到短时间内出现。例如,美国的种族主义矛盾大面积激发。历史上,1929年的大萧条、1960年代的黑人平权运动、2008年的次贷危机等,都能看到在很短的时间内出现了一系列危机。
这说明,传统上的事件线性发展规律,在新冠疫情的背景下不完全适用了。我们要把疫情带来的变量加入到预测模型当中,这样才能对未来有比较有效的判断。
04风险弱信号的边界:
尚处研究初期,过早设定边界可能画地为牢
从初步具备一定预测能力,到真正落地应用还有哪些路要走?
沈阳:我第一个想做的是,进一步丰富理论框架、丰满研究范式,这可能要经历很多年。
第二个要做的是将理论研究和民生服务工作结合起来,为政府机构、企业、社会团体提供内部咨询服务,如果适合公开发布,也会考虑公开传播。
第三个就是完善我们的风险弱信号大数据平台的整体性。我们团队有各种子平台,包括舆论大数据、情绪大数据、8个语种的大数据等平台,但没有一个单独的风险弱信号发现和预测平台。未来要在这方面发力,进一步提高效率,优化发现和预测模式。
你觉得对风险弱信号的挖掘,其应用边界在哪?
沈阳:作为一门学科,我个人不太喜欢画地为牢。研究早期应当是开放性的,在多个领域尝试应用风险弱信号探索边界在哪。如果过早划定边界,也会限制你的很多灵感。显然,一个高度数据化,真实数据较多的领域可能更为有效。如果一个领域假数据太多,数据污染严重,且难以通过数学模型剔除,我们可能就会放弃。
现在基于公开数据的项目很多,很多企业、个人、政府机构都在做这方面的应用和研究,怎么保证公开数据不被滥用?
沈阳:大数据使用确实需要平衡,既要促进产业发展、促进技术进步,也要保护好产权和隐私权。有的国家对数据过分保护,对隐私权过分强调,带来的问题就是产业发展停滞。不过,我们使用数据时,也要严格限制使用隐私数据,这样才不会发生次生灾害。
在这方面,你的原则是什么呢?
沈阳:我们要在合理、合法、合规的情况下开展工作,要遵循基本的学术伦理。比如,我们做数据分析的时候,不能针对具体的个人分析他的喜好、兴趣、隐私并予以公布,这样是会出问题的。我们需要做数据脱敏、透明化。发布信息时也只针对一个群体,比如研究高校教师在网上的特征,针对某个个体肯定不行。这是一个最基本的逻辑。
从事风险弱信号研究,对团队成员有什么要求吗?
沈阳:我们是一个交叉学科团队,欢迎不同专业方向的成员。我们的博士后中,有社会心理学的,有研究地理信息系统的,也有中文、传播学方向的。我自己还很喜欢法学或历史学的学生,如果有这些人加入,对我们的研究也会有帮助。
我们对历史的理解和别的团队还不太一样,我们把历史也看做是人工智能的大语料库。人类历史发展到现在,通过学习史书中记载的所有内容,可以学习到人类社会运行的基本规则,了解人性最好的时候和最差的时候。人工智能把这些都学习到后,就可以针对性的做预测。
有观点认为,跨学科做预测的话,其可靠性是存在疑问的,你怎么看?
沈阳:我觉得可靠性确实有疑问,但学术研究就是要在多元思路中碰撞。最上层的研究成果肯定是真理:有发现、有结论、有事实、有观点、有数据、有工具,所有东西都是对的。
但我们不可能每次都做到最好,那次好的研究就可能存在一些谬误,但基本结论是对的。甚至我们的研究方法、思路还有创新,也可以给别人借鉴和启发。
第三种情况就更差一些,我的方法有问题,结论也有问题,但研究中也可能有可取之点。只要严格按照学术规范,没有故意造假,我觉得至少是可以供他人借鉴的。
学术研究要较真也要包容。你能指出他的错误时,一般来说他往往也有改正的机会。比如我们从传播学的角度研究疫情,我们可以组成一个跨学科团队,让传染病学的人员参与进来。舆论如何影响人的行为?社交媒体的信息如何影响我们戴口罩?戴口罩又会如何影响病毒传播?其实这些是高度关联的。
(作者为清华大学新闻学院教授博导、清华大学新媒体研究中心执行主任)
医疗机构发现基孔肯雅热疑似病例、临床诊断病例和确诊病例,应于24小时内通过中国疾病预防控制信息系统进行网络直报。
胜利背后暗藏隐忧
基孔肯雅病毒不会在人际传播,人通过被带毒的伊蚊叮咬而感染,无直接人传人的报道。伊蚊在叮咬有病毒血症的人或动物后,病毒在蚊虫体内繁殖并到达唾液腺内增殖,经8至12天的潜伏期再传播病毒。
坚持聚焦实质风险、解决实际问题,规范金融机构经营行为,加强金融消费者权益保护,不断增强监管针对性和有效性。
基孔肯雅热是由基孔肯雅病毒引起的急性传染病,临床症状以发热、皮疹及关节疼痛为主。