文/王禄生

来源/微信公众号 数说司法(justice_data)

 

1月20日,滴滴媒体研究院、第一财经商业数据中心和无界智库联合发布《中国智能出行2015大数据报告》。


在言必称大数据的时代,上述《报告》究竟是否为真正意义的大数据?它采用了哪些大数据思维范式?其对当前方兴未艾的司法大数据又有何启示?


本期数据和图片来自《中国智能出行2015大数据报告》,特此说明。



大数据的4V特征


作为智能出行的平台,滴滴整合大数据的方法并非行业首创。


优步Uber的推广也得益于成功的大数据战略。当然,优步也有很失败的大数据战略,比如让其受到广泛质疑的略微重口的“光荣之旅事件”


毋庸置疑,这是一个言必称大数据的时代。无论是工商业巨头还是小编这样的基层屌丝都张口闭口大数据。仿佛在这个时代,不讲大数据就彻底OUT了。


有趣的是,绝大多数说“大数据”的人其实讲的并非真正意义的大数据。


那么如何识别真假大数据呢?


通说认为,大数据有4V特征。以后,大家只要灵活套用4V特征就能立刻辨明真假大数据。


大数据的第一V是体量大,对应英文Volume


大数据时代是数据呈几何级增长的时代。大数据英文为big data,big最主要是指体量大。


下图数据显示,滴滴媒体研究院发布的《中国智能出行2015大数据报告》实际上是基于3亿用户在2015年内14.3亿份里程达128亿公里的订单的数据统计而成。

 


如果考虑到多年数据的积累和与订单匹配(如位置、滴米、积分)的其他数据,这个数据规模无疑是巨大的。并且在可以预期的未来,这个数据规模还会持续扩大。


大数据的第一个V决定了目前冠以“大数据”名称的相当部分法院工作报告(如某基层院年度工作报告)并不是真正意义的大数据。当然,“大”与“小”是相对的。对于多大体量才算大数据,学界有不同的观点,在此不深入。


大数据的第二V是速度快,对应英文Velocity。


天下武功,唯快不破。计算机运算速度的飞速发展为大数据时代的到来提供了技术保障。


在小数据时代,许多数据价值无法充分发挥的原因就在于无法处理。比如百度每天几十亿次的关键词检索对于小数据时代而言就是个天文数字。


大数据时代的Velocity不仅指速度快,更重要的在于实时运算。尽管滴滴在年终才发布大数据报告,但现有技术已经允许滴滴实时掌握并处理海量的复杂信息。这一点在阿里也已实现,其实时抓取经济数据的能力在业内首屈一指。


大数据的第二V决定那种空有海量数据,却用非实时、非动态、低速率的小数据处理方式,也不是完整意义的大数据。


大数据的第三V是多样性,对应英文为Variety。


小数据时代处理的通常是结构化的形式单一的数据。大致就相当于我们日常生活面对的EXCEL表格中那种方方正正的“姓名”、“年龄”、“工资”等格式化的数据。


大数据时代处理的却是形式多样的非结构化数据。有数据显示80%的大数据为非结构化的。

 


大数据运算的魅力就在于把各种各样形式各异的非结构化数据结构化从而实时运算,比如民众的情绪。


目前绝大多数司法统计对象仍然是高度结构化的单一数据类型(案件数据),尚未有效开发对多样化非结构化数据的处理能力。


大数据的第四V是价值性,对应英文为Value。


通过大数据的实时分析,可以获取小数据无法获取的价值。比如滴滴通过大数据分析,有效缓解城市出行难这一顽疾。除此之外,谷歌通过大数据预测流感(最近不灵)。大数据时代是数据的价值井喷的时代。


大数据的第四V决定了那种仅仅分析上诉率、调解率、发改率其实也不能被认为是大数据,因为它只挖掘出数据相当有限的价值。


当然,价值性的另一个方面是单体价值低。换言之,滴滴大数据报告来自海量的订单信息。其中缺少或者增加某份订单并不会对大数据分析产生影响。因此也有人认为大数据的个体价值被忽视的时代。


大数据思维的三大范式


空有大数据却没有对应的思维就好比面对宝山却只能空手而归。


近几十年,我国司法机关实际上沉淀了海量的数据,目前最缺乏的便是采用大数据思维来充分挖掘现有数据的价值。


大数据思维第一大范式是量化一切。


大数据学者有句口头禅——量化阳光下的一切事物。这并不夸张,要知道,在这个时代,那些您想到的东西已经被数据化,那些您根本想不到的事物也在被数据化。典型的例子就是优步Uber通过大数据量化“光荣之旅”(One Night Stand)。


滴滴大数据报告也很好诠释了量化一切的思维范式。那些传统上我们认为无法量化的“最奔波小学”、“最奔波中学”、“最拼的小学”、“最拼的中学”这样一些数据多借助订单的大数据分析而得以形成。

 


量化一切的思路被用到了极致。滴滴甚至可以借助量化“商圈热度”,来证明“优衣库事件”之后两周内三里屯优衣库成为热门景点。

 


所以,量化一切实际上是一种以传统思维无法发现的方式在进行,大数据分析的深入实际上会带给我们越来越多惊喜。


目前,司法数据管理过程中仍然主要积累传统意义上的数据,对于许多与司法相关的社会、经济、文化、生活大数据并未充分数据化。这也给司法大数据工作的推进带来了巨大的障碍。


大数据思维的第二大范式是分析相关、放弃因果。


大数据学者认为因果分析是典型的小数据思维范式。比如认为感冒是因为天冷、成绩差是因为没复习好、没有对象是因为长得胖等等。因果分析给予我们一种稳定的预期。


不过大数据学者发现许多因果分析实际上是虚假或倒置的。感冒真的是因为天冷吗?复习好一定会考好吗(可能因为笨)?没有对象真的因为胖吗(也许还因为不好看)?


所以大数据的思维范式强调放弃对因果的追求,而仅关注相关性——因果关系是无法穷尽,而相关性则是可以检验的。


所以如果您通篇阅读滴滴大数据报告就会惊讶的发现怎么没有分析原因呢?


比如滴滴发现,顺风车女性司机免单率是男性司机的1.4倍、夜间2-3点之间免单率最高。也许您的脑海中马上会问为什么?——小数据思维啊,亲!

 


对于大数据而言,我只要关注相关性并直接利用相关性就行——想要免单,尽量在凌晨2-3点找女性顺风车司机


至于为什么女性司机更愿意免单,那交给你们学者慢慢想把!反正也不一定想的对!


大数据的第二大思维范式决定了那种借助数据长篇大论分析成因的司法报告在很大程度上不是大数据。


大数据思维的第三大范式是全样本分析。


小数据时代由于获取数据和处理数据能力的局限,社会学发展出体系化的抽样调查方法。


目前上至最高人民法院下至基层人民法院,相当部分司法调研报告都是建立在抽样的基础之上。小编参编的《东南法学》每年也能收到大量司法调研报告的投稿。


不过在大数据学者看来,再精确的抽样也有失误的时候。所以从大数据技术产生之初,就强调全样本分析。


滴滴大数据就是建立在所有14.3亿订单的基础之上。微信大数据则是建立在每天接近6亿用户的数据基础之上。


所以要想撰写真正意义的司法大数据报告?先试试全样本分析吧。


大数据的应用——预测与挖掘


大数据的生命在于利用经过检验的相关性预测行为。基于行为预测而做出相应的决策是大数据分析的价值所在。


滴滴大数据分析正是基于预测而做出决策。


比如通过一段时间内某个城市某个区域订单响应率,滴滴可以大致得知某个区域的打车难度。同时,结合实时分析,滴滴可以充分调配出租车资源投入到最难打车的地点。(注意是实时的哦~)


又比如通过实时的特定路段车辆平均速度的大数据可以精确获取道路畅通情况,滴滴平台可以精确地指挥司机避开拥挤路段。(注意是实时的哦~)

 


大数据的第二大应用是数据挖掘。


下图显示,滴滴通过订单的数据分析可以获知用户是直接回家、商务应酬亦或是夜生活,甚至连夜生活的种类都能够获知。


有人可能会想,哇塞,滴滴是怎么知道哪是我家?方法有很多种,比如您在滴滴“常用地址栏”中标示某个地址为“家”。

 


其实,数据挖掘有很多精彩的功能,比如精确投送广告。


总而言之,目前冠以司法大数据的相当部分研究仍然只是小数据时代的分析范式,有制造噱头的嫌疑。


真正意义的司法大数据不仅需要建构体量庞大的数据库,更要借助大数据的思维、通过数据挖掘、采用前沿的分析技术,去处理大量非结构化的数据,从而预测司法行为,更好地服务审判、服务司法、服务决策。

 

实习编辑/张雨

为无讼投稿/tougao@wusongtech.com

<<<<<<< HEAD
======= >>>>>>> 96172cdab5db5d05644eea1a7a596661ab9491b1