我正在尝试获取大量数据(大约3M行),而我只有两种选择。
- 调用API,然后恢复3M JSON对象
- 导入包含3M行的CSV文件
我还没有测试这些解决方案中的任何一个,以判断哪一个在速度方面最好。
如果您想检索简单数据作为带有某些列的列表或行,选项#2是一个不错的选项,您可以阅读下面的一组优点和缺点:
优点
- 需要更少的带宽,因为JSON需要更多的语法字符来保持格式,而CSV就像使用字符分隔符一样简单
- 处理数据更快,因为只需要通过分隔符进行拆分,而JSON需要解释语法
- Hadoop等大数据技术具有CSV格式的集成解析功能,同时需要解析JSON的特定功能(例如使用Hive语言)
缺点
- 非结构化数据,更难被人类读取
- 您必须小心,因为分隔符不能出现在数据字段中
如果数据将包含复杂数据作为元组,数组和结构JSON会更好,因为:
- 保持清晰且结构化的格式
- 不重复引用数据,因为一个标签可能包含多个数据