对于一个项目,我需要在数据库中获得一些单词定义。所有的定义都可以在多个数据库文件中找到,但我得到的数据库文件是用于C语言程序的,并且是ASCII形式的(我相信)。我需要以某种方式彻底地整理文件,一行一行地将数据添加到MySQL数据库中。
我更喜欢使用PHP和/或MySQL。
我试着写一个PHP脚本来完成它,但它超时了,对我的系统来说是密集的,在大多数情况下都没有完成。
我从MySQL听说了LOAD DATA INFILE,但不知道如何使用它。
每个文件的文件名都会更改,并且没有特定的扩展名,但是,所有文件都可以从文本文件中读取,我相信它们在内容方面都是相同的。
我在这里上传了一个文件的内容。
你可以看到,有些行是无用的,但以{
开头的行是好的,模式本质上是第一个单词是字典术语,()
中的内容是定义。""
中的部分是示例语句。
我所需要提取的只是术语、定义和句子。
这些定义由普林斯顿大学提供,许可证是开源的(我会把它们归功于此)。
除非你想重新发明轮子,否则我会使用类似wordnet2sql的东西。它将输出一个SQL脚本,您可以使用该脚本创建MySQL表。
你可以在普林斯顿大学的网站上找到数据库规范。
LOAD DATA对于csv文件很有用,但对于特殊的数据库格式则不那么有用。