澎湃新闻报道,武筱林的研究团队首先进行了半自动化的样本采集,在百度图片上“单纯美女”、“甜美少女”等关键词进行检索,并把照片分为S+和S-两组。
据了解,S+包含带有以下标签的美女照片:清纯、柔美、甜美、秀美、单纯、大方;S-则包含以下标签:娇艳、俗气、张扬、风骚、轻佻、轻浮、妩媚。
然后,所有搜索结果又由中国男性研究生进行了人工排查,去掉一些由于复杂语义造成的错误搜索结果,比如有些照片带有反讽性质的标签。
研究团队最后得到了共3954张中国美女照片,其中“褒义组”2000张,“贬义组”1954张。
实验的结果是,经过训练的机器鉴别“褒义组”和“贬义组”的准确率达到了80%。
以下为人工智能鉴别出的“褒义组”和“贬义组”样张: