Fork me on GitHub

内部对话

  最近察觉到自己知识上的漏洞,接下来的一个月去打基础去了,可能不频繁更新文章。

  不知道是个人原因还是一种现象,我总是对数据的私密性很敏感。我会尽量不在网络上留下自己的痕迹,避免成为被分析的数据分母。当我看到小米家电周年发布了大数据分析的报表时,我知道,又有未被用户允许的数据被收集了。

  曾经一个产品和我说,他认为数据收集没什么,只有大量用户行为数据分析,才能产生有效的数据现象,个人数据没什么用。我只能对他知道的稀少和自负感到无语。

  个人信息是多么的重要,刚流行社交软件的时候,大概高中的年纪,自己业余做的事情就是分析别人发布信息的内容,推测他们的生活和人际关系。(感觉暴露了自己的爱好)。我常常看别人发布的动态,就好像沉迷福尔摩斯或者柯南的少年,寻找蛛丝马迹,当然只是为了好玩,不会采取任何行动,仅仅是分析的乐趣。这时候我明白,发布了信息,其实是有被看的风险,并不是发布了就结束了。

  这样的信息包含了发布者想表达的信息内容,和被忽视的细节。我们做一个假设,假设有一个集合a,是无限容量的,当我不断往集合加入真实的信息,这时候就能大概组成一个时间链条,如此,常听到我妈爆发出:“你是怎么知道的?!”,其实是大量有效数据叠加的验证,增加了预测事物正确的概率。

  再后来,你会看到一些错误的信息,比如有时候人们会因为社交影响力,发布一些不那么真实的信息。比如去年旅行时的照片自己的身材比较好,然后今年发布,假装是今年发生的事情。或者不是自己做的事情,正好遇到了,假装是自己做的。类似于这种时空间错乱的信息出现,干扰了许多正确项,但是你仍然可以通过其他可靠的验证数据来预测。

  假设有集合b,c,d。这三个分别是你亲密关系人的集合,装了他们自己的数据,假设这里面的数据正确,那么就可以叠加排除你的错误集合。并且,对于你的数据集合A,仍然可以从里面挑选出可靠的信息去排除A里错误的信息,得到干净的集合a。大量信息的叠加验证,可以更准确的模拟行为,换句话说,你处于被监控的风险。

  我们不小心泄露的数据密码,比如我发文章的时间,可以推断我在的时区,我说的话,用的观点,观察的事物,更甚,我从来没有说的话,没有用的观点,可以反推我对这方面的兴趣爱好偏低或者有其他的原因,你很快会得到一张我的人物原型。所以在公众网络,也许你的形象有专门的人去运营,但不免我们会使用数据并且产生数据。

  这时候不得不提出一个词:“数据滥用”。我不能够在发生数据泄露或是产生数据风险的时候才思考这个问题,而是一开始就要思考。就像做系统不是最后考虑安全风险,而是一开始就要考虑。我们怎么做才能避免对用户造成伤害。用户不是人质,不要扣留他注销的自由,也不用用真实数据来换取这种自由(我是说支付宝注销某项功能时居然要提供个人有效证件信息的拍照),当然,我们自己的数据并没授权给谁,所以也要有从磁盘中抹掉的自由。

  感觉很讽刺,这些软件居然需要用这样卑劣的手段留存用户,我是说为什么不把心思放在创造性的支持上。合理的反馈方式能促进系统的完善,但是如何定义数据的合理取用,以什么方式,什么形态取用。我们需要建立道德产品,不能向盲目扩张换取高额利润妥协,我们需要建立人权和尊重在产品中。

  算法是有局限性的,比如推荐算法,他其实只在一定程度上满足用户要求,但是到了后来就会有瓶颈。当我满足了基本需求,其实还有精神需求。我看到给我推荐的商品确实很不错,是我的风格,但是总是看会腻。但当我看到朋友的购物界面,哇,和我的完全不一样,他的东西真好玩。我们的风格虽然被算法化了,但是他却不能推荐给我们精神上开拓的商品,在一定时间后会厌倦他的推荐,目前算法推理不出来好奇的新事物。就好像一种感觉,没看见的时候没觉得有什么,当看见的时候觉得很棒,可是算法个性化推荐之后,少了“看见”这一步,失去了很多乐趣。

  不仅是算法的局限性,数据也会有偏见的风险。坦白说数据会有一定程度上的歧视。比如性别上,数据分析会告诉你,工程师这一职位男性的概率是70%+,教育医疗上女性的概率是68%+。数据会显示宗教,种族,年龄,群体的倾向。这些倾向在实名制的网络世界里,也许会给人们带来麻烦,也许他们会被挑出来抨击。

  也不慌,圣经上记着说:属灵人参透万事,但人却看不透他。