文｜新闻实验室 方可成

一

前两天，一位广州的家长在微博上发来私信，他发现：在百度中搜索广州的很多小学和幼儿园的名字，结果中排在首位的一般都是百度百科，而进入百度百科页面之后，点击参考文献中的“广州上学网”，却会进入色情网站。

我测试了一下，的确如此。

通过搜索，我发现至少有这些学校的百度百科参考资料会指向色情网站：广州开发区第二小学、广州市海珠区星云幼儿园、广州市越秀区大沙头中英文幼儿园、沙河小学、北山小学、化龙中心小学、滨江东路第二小学、左边小学、复甦小学、五凤小学、芳华小学、协和小学、广州市海珠区江南西艺星幼儿园、广州市越秀区黄金实验幼儿园、小洲小学、侨乐小学、金影小学、培红小学、天河区龙洞小学、同福西路小学、聚德西路小学、博雅小学、天河区棠下小学、长安东街小学、增滘小学、禾丰小学、长湴小学、天河区骏景米洛英文幼儿园、瑞宝花园小学、黄村小学、广雅实验学校、横沙小学、花都区新华镇九潭小学、从化市从化英才幼儿园、乐贤坊小学、黄埔同仁小学、握山小学、三善小学。

二

为什么会出现这种荒唐的情况？

根据我的分析，原因是：“广州上学网”此前是一个真实的学校信息汇集网站，这些学校的百度百科页面在编写的时候，确实是指向了真正的“广州上学网”。

后来，这个网站关闭了，内容无法再访问。

再后来，“广州上学网”的域名被色情网站运营者买下，设置成了自动跳转色情网站。这样一来，所有原本指向“广州上学网”的链接，现在都会被跳转到色情网站。

所以，百度是躺枪了？都怪色情网站太狡猾，百度对此并无责任？

并非如此。百度百科自称“全球最大的中文百科全书”，是亿万中国人认知世界的渠道，并且在百度搜索结果中获得了极高的展现权重，这就要求它必须采取措施，保证内容质量。

虽然百度百科是人人都可以编辑的，但平台应该对最终呈现的内容负责。实际上，百度自身也对外强调：“参考资料要权威”，要杜绝色情、违法、广告、虚假、灌水、恶意编辑等现象。

杜绝色情违法内容，不仅是编写词条的时候要审核，在词条通过之后也应该时常检查：链接是否失效或被跳转到其他网站。

以百度高超的技术能力（前不久刚刚平稳应对了春晚红包的巨大流量），写一个程序检查百度百科中的失效链接和可疑跳转，是一件再简单不过的事情。

然而遗憾的是，百度并没有做这件事情，而是让色情网站的运营者钻了空子，让部分查询小学和幼儿园信息的家长（乃至学生）被导向了色情网站。

三

过期链接问题是互联网面临的一大挑战，我们可以对比一下维基百科是怎么做的。

为了处理过期链接问题，维基百科特别制定了如何处理过期链接的详细规则。

过去几年中，在互联网档案馆（Internet Archive）的帮助下，维基百科还利用机器人自动检测失效链接，并替换为有效的历史存档链接，抢救了多达900万个失效链接。

这里就不得不提一嘴互联网档案馆这个高能的资料库。它最有名的“馆藏”，就是互联网时光机（Wayback Mahince），通过它，你可以看到很多网站过去的样子，也可以找回现在已经不存在的网站之前的模样。

比如，我在互联网时光机中输入“广州上学网”的网址，就能看到：从2011年下半年开始，就有了这个网站。

点进2013年的一个快照，可以看到当时这个网站长这样：

从2015年开始的快照，就显示这个网站不再正常运转。2018年的快照，抓下来的就是色情网站。

互联网时光机这个神奇工具的社会意义，怎么说都不为过。它保留下了珍贵的档案资料，供我们探索和研究。

正是在时光机的帮助下，维基百科上的几百万失效链接，都被重新指向了正确的历史版本。

为了防止今后再出现链接过期现象，现在，每当用户在维基百科上添加了一个外部的引用链接，互联网时光机就自动会把这个页面爬取下来储存到自己的服务器上，以保证之后一定可以追溯得到。

互联网档案馆的“馆藏”还不止于此，它还收录了巨量的图书、音频、影像、软件、游戏等资料，还开设了专门的“川普数据库”等主题馆藏，收集了和川普有关的电视新闻、演讲、辩论等。如果你喜欢翻阅资料，你一定会在其中找到自己感兴趣的内容，很可能陷入其中无法自拔。

维基百科和互联网档案馆，都能够让你感受到互联网最美好的样子：丰富、优质的信息，悉心的编辑整理，无偿开放的使用，借助技术解决最紧要的问题。

最最重要的是：对信息负责任的态度。

重金投入人工智能的百度，不妨分出一点点资源解决失效链接问题，以免小学生误入色情网站？

最后想说，我和百度并无私人恩怨，我只希望通过对问题的揭示，以及对国外解决问题的方法的介绍，来告诉大家：我们的互联网信息环境很不理想，我们的互联网平台本来是可以做得更好的，它们也应该做得更好，而这需要我们每一位用户向它们施加更大的压力，大声说出自己的不满，告诉它们用户真正的需求是什么，更加在意地挑选手机中安装的app。

我会继续观察和监督，希望你也是。