我发现最接近的问题是这个或这个
我想写一个函数或类,接受一个字符串,然后根据任何标准可以编程到它将返回它是一个真实的人的名字的概率。目前,我预计它会严重偏向于英语或欧洲名字或其他名字的英文音译。(例如,"bob"、"bob smith"answers"smith"都应该返回1.0,而"sfgoisxdzzg"应该返回类似于。001甚至。0000001的东西)
有谁知道这是否已经完成/正在完成?(即使是另一种语言)我的第一个想法是,我必须做一些机器学习脚本。我的问题是我对任何机器学习理论都一无所知。
所以,我的问题的第二部分是:机器学习是解决这个问题的可行选择吗?如果是这样,我应该从哪些资源开始学习如何做到这一点?如果不是,你能给我指出正确的方向吗?我使用这种贝叶斯方法来过滤联系人提交和报价表单请求,并取得了相当大的成功。该表单使用评分并处理来自世界各地的各种语言的请求。如果它们在不同领域的测试中失败了3到4次,那么我就把它们标记为垃圾邮件。很明显,像"123456"这样的数字会立刻给电话号码带来危险。另外,评论中的BBCode是一个致命的泄露。
<?php
function nameCheck($var) {
$nameScore = 0;
//If name < 4 score + '3'
$chars_count = strlen($var);
$consonants = preg_replace('![^BCDFGHJKLMNPQRSTVWXZ]!i','',$var);
$consonant_count = strlen($consonants);
$vowels = preg_replace('![^AEIOUY]!i','',$var);
$vowel_count = strlen($vowels);
//We're expecting first and last name.
if ($chars_count < 4){
$nameScore = $nameScore + 3;
}
//if name > 4 and no spaces score + '4'
if (($chars_count > 4)&& (!preg_match('![ ]!',$var))){
$nameScore = $nameScore + 4;
}
if (($chars_count > 4)&&(($consonant_count==0)||($vowel_count==0))){
$nameScore = $nameScore + 5;
}
//if name > 4 and vowel to consonant ratio < 1/8 score + '5'
if (($consonant_count > 0) && ($vowel_count > 0) && ($chars_count > 4) && ($vowel_count/$consonant_count < 1/8)){
$nameScore = $nameScore + 5;
}
//Needs at least 1 letter.
if (!preg_match('![A-Za-z]!',$var)){
$nameScore = $nameScore + 10;
}
return $nameScore;
}
//added for testing
$var = $_GET['email'];
echo nameCheck($var);
?>
即使有人冲,我让它复制我的尝试,所以我可以修复我的得分。通常在中文或韩语中会有一些误报,但大多数情况下,用英语填写表格的人都会通过。像"吴兮"这样的名字确实存在。