东东东 陈煜东的博客

月份存档: 二月 2017

分享一个不用验证码的阻止垃圾机器人提交留言表单算法

spam-evil

每个博客主或者网站都会受到各式各样的垃圾留言骚扰。如果网站不及时清理这些垃圾留言,那么整个网站的可读性将会变得越来越糟糕,最后完全被垃圾浏览给占领了。

现在博客使用的是 WordPress,使用的是一个官方的插件 Akismet,这个程序还不错,通过后台大数据分析来识别垃圾评论。

不过除了 Akismet,我还有安装另外一个插件,这个插件很小巧,并且我觉得思路很不错。通过这两个插件来可以过滤很多的垃圾评论。

作者的思路是这样的:

为什么人类应该通过填充验证码(CAPTCHA)证明他们是人类?应该是让机器人通过 JavaScript 来证明他们不是机器人!

下面说说这个插件 anti-spam 使用的算法。

这个算法是基于 2 个方法:不可见的 JS 验证码(invisible js-captcha)不可见的输入框陷阱(invisible input trap)

不可见的 JS 验证码 invisible js-captcha

不可见的 JS 验证码(invisible js-captcha)方法基于一个事实:机器人在他们的在程序中不会执行 JavaScript 代码。

所以默认在输出 HTML 评论框的时候,加入了一个隐藏的问题和输入框,问题是今年是公元 xxxx 年。

如果用户访问网站,这个输入框答案会被 JavaScript 自动回答,并且会被 JavaScript 和css 的手段隐藏起来,不让用户看到。

如果机器人去填写答案没有填写正确,那么就会被判定是垃圾信息。

作者实现很鸡贼,其实这里有两个输入框,一个输入框是正确的答案,一个输入框是错误的答案。

<p class="antispam-group antispam-group-q" style="clear: both;">
    <label>Current ye@r <span class="required">*</span></label>
    <input type="hidden" name="antspm-a" class="antispam-control antispam-control-a" value="'.date('Y').'" />
    <input type="text" name="antspm-q" class="antispam-control antispam-control-q" value="'.ANTISPAM_PLUGIN_VERSION.'" autocomplete="off" />
</p>

如果用户没有开启 JavaScirpt ,那么需要在这里情况内容,输入正确的答案。否者在后台就被判断是无效留言。

JS 自动回答答案

// 对表单答案添加答案,答案已经在 antispam-control-a 提供出来了。
elements = document.querySelectorAll('.antispam-control-q');
len = elements.length;
for (i = 0; i < len; i++) { // set answer into other input instead of user
    elements[i].value = answer;
}

...

// 这里利用 JavaScript 添加一个动态的表单
// 如果没有开启
dynamic_control = document.createElement('input');
dynamic_control.setAttribute('type', 'hidden');
dynamic_control.setAttribute('name', 'antspm-d');
dynamic_control.setAttribute('class', 'antispam-control antispam-control-d');
dynamic_control.setAttribute('value', current_year);
...
elements[i].appendChild(dynamic_control);

后台判断逻辑片段

if ( $antspm_q != date('Y') ) { // year-answer is wrong - it is spam
    if ( $antspm_d != date('Y') ) { // extra js-only check: there is no js added input - it is spam
        $spam_flag = true;
        if (empty($antspm_q)) { // empty answer - it is spam
            $antispam_error_message .= 'Error: empty answer. ['.esc_attr( $antspm_q ).']<br> '.$rn;
        } else {
            $antispam_error_message .= 'Error: answer is wrong. ['.esc_attr( $antspm_q ).']<br> '.$rn;
        }
    }
}

如果用户没有启用 JavaScript 会怎么样呢?

用户会在提交表单中看到今天是公元多少年的问题,然后需要将错误的答案修改成正确的答案。这样在上面的后台检测脚本中就会发现,这里填写是正确的。就不用再关心 JavaScript 动态的答案了。

不可见的输入框陷阱 invisible input trap

不可见的输入框陷阱(invisible input trap)是基于一个事实:大多数机器人遇到 email 或者 url 关键字表单会自动填充一些信息。

因此在评论框中增加一个隐藏字段,正常用户是看不到这个字段,所以也不会去填写它。

// 默认不展示给用户看。
<p class="antispam-group antispam-group-e" style="display: none;">
    <label>Leave this field empty</label>
    <input type="text" name="antspm-e-email-url-website" class="antispam-control antispam-control-e" value="" autocomplete="off" />
</p>

但是机器人是可以看到这个字段的,如果在这里填写了任何东西,那么就会被判定为机器人。

后台的判断逻辑片段

// 如果填写了这个表单,那么就被判定是垃圾信息了
if ( ! empty($antspm_e)) { // trap field is not empty - it is spam
    $spam_flag = true;
    $antispam_error_message .= 'Error: field should be empty. ['.esc_attr( $antspm_e ).']<br> '.$rn;
}

总结一下

目前从后台效果来看,这个插件的效果很好,很少遇到垃圾留言。

目前的一些垃圾机器人无法执行 JavaScript,所以很多利用这个特性就可以做一些排除了。很多的第三方评论都是利用 JS 展示出来了。

不过很优秀的 Disqus 在国内经常抽风,甚至不可用

声明:未经允许禁止转载 东东东 陈煜东的博客 文章,谢谢。如经授权,转载请注明: 转载自东东东 陈煜东的博客

本文链接地址: 分享一个不用验证码的阻止垃圾机器人提交留言表单算法 – https://www.chenyudong.com/archives/anti-spam-comments-algorithm.html

分类: WordPress

docker 容器自定义 hosts 网络访问

在搭建 Drone CI 服务的时候,拉取git代码出现了网络不通。

+ git init
Initialized empty Git repository in /drone/src/testgit.com/root/demo1/.git/
+ git remote add origin http://testgit.com:10080/root/demo1.git
+ git fetch --no-tags origin +refs/heads/master:
fatal: unable to access 'http://testgit.com:10080/root/demo1.git/': Couldn't resolve host 'testgit.com'
exit status 128

也是到 Drone 的论坛问了 http://discourse.drone.io/t/help-git-clone-with-custom-extra-hosts/217。 看来需要自己设置网络问题,没有办法通过 docker-compose.yml 文件来进行设置。

普通的 Docker 容器解决方案

在 docker-compose.yml 中增加 extra_hosts 关键字就可以将数据写入到容器的 /etc/hosts

version: '2'

services:
  drone-server:
    image: drone/drone:latest
    ports:
      - 8100:8000
    extra_hosts:
      - "mygit.com:10.123.123.130"
    volumes:
      - ./drone:/var/lib/drone/
    restart: always
    environment:
      - DRONE_OPEN=true
      - DRONE_DEBUG=true

Drone CI 的情况

Drone CI这个情况比较麻烦。是在Drone agent容器里面又启动了一个容器,这个时候没有关于extra_hosts设置给子容器。于是子容器无法访问特定的域名。

修改 hosts 文件失败

本来想设置添加一个 hosts 文件到镜像中的。但是发现一只失败,无法写入成功。

FROM plugins/git

ADD ./hosts /etc/
RUN cat /etc/hosts

不过这条路走失败了。

hosts文件其实并不是存储在Docker镜像中的,/etc/hosts, /etc/resolv.conf/etc/hostname,是存在/var/lib/docker/containers/(docker_id)目录下,容器启动时是通过mount将这些文件挂载到容器内部的。因此如果在容器中修改这些文件,修改部分不会存在于容器的top layer,而是直接写入这3个文件中。容器重启后修改内容不存在的原因是每次Docker在启动容器的时候,Docker每次创建新容器时,会根据当前docker0下的所有节点的IP信息重新建立hosts文件。也就是说,你的修改会被Docker给自动覆盖掉。

摘录自:https://wongxingjun.github.io/2016/04/06/Docker%E4%BF%AE%E6%94%B9hosts/

问了同事,一般很多容器的做法是,通过将hosts 文件写入容器,然后在容器启动后, cat /data/hosts > /etc/hosts到,然后再执行命令。

我觉得这个方法不适合我,因此我重新寻找新的方法。后面找到了利用 DNS 服务来规避。

搭建 dnsmaq DNS 服务

将需要配置的 hosts 写入到 /etc/hosts 中。

在虚拟机或者特定服务安装 dnsmaq 服务。

yum install dnsmasq -y

touch /etc/dnsmasq.hosts

# 重启
service dnsmasq restart

# 测试一下是否可以查询到域名
dig @127.0.0.1 testdomain.com

使用 Docker 的 DNS 解决

vim /etc/docker/daemon.json

{
    "dns": ["10.123.12.14", "8.8.8.8"]
}

将刚刚的 DNS 服务器 IP 写入到配置中,追加一个字段 dns。如果还有其他的 DNS 服务器,那么就写入在数组中写入其他的 IP。

重启一下 Docker 服务。

service docker restart

Docker 容器测试网络

这个是我的容器
docker run --rm -e DRONE_REMOTE_URL=http://mydomain.com:10080/root/demo1.git plugins/git

或者
docker run busybox nslookup google.com

参考文章

声明:未经允许禁止转载 东东东 陈煜东的博客 文章,谢谢。如经授权,转载请注明: 转载自东东东 陈煜东的博客

本文链接地址: docker 容器自定义 hosts 网络访问 – https://www.chenyudong.com/archives/docker-custom-hosts-network-via-dns.html

分类: DevOps

Copyright © 2017 东东东 陈煜东的博客 粤ICP备13059639号-1

SITEMAP回到顶部 ↑