Java上传csv文件踩坑记

简介: ## 前言 最近在做交通优化分析工具的产品时,有一个需求是用户上传一份包含路段信息的csv文件,后端需要解析csv的文件内容并将信息插入数据库中。这是一个常规的操作,也不复杂,但是在实现的过程中却踩到了一个utf-8 BOM的坑,随手记录一下。 ## 实现方式 完整的实现方式如下: 1. 在spring中通过`MultipartFile file`这个对象来接受前端传过来的文件

前言

最近在做交通优化分析工具的产品时,有一个需求是用户上传一份包含路段信息的csv文件,后端需要解析csv的文件内容并将信息插入数据库中。这是一个常规的操作,也不复杂,但是在实现的过程中却踩到了一个utf-8 BOM的坑,随手记录一下。

实现方式

完整的实现方式如下:

  1. 在spring中通过MultipartFile file这个对象来接受前端传过来的文件
  2. 获取file对象的InputStream输入流
  3. 将上一步的输入流和定义好的DTO对象传给opencsv的CsvToBeanBuilder方法, CsvToBeanBuilder方法会自动解析输入流中的内容并生成对应的DTO List
  4. 最后根据业务需求,生成相应的DO对象存入数据库

前面有坑

csv文件样例:

path_id,path_name
1,文一路
2,文二路

DTO定义:

@Data
public class CsvDTO {
    @CsvBindByName(column = " path_id", required = true)
    private String pathId;
    @CsvBindByName(column = "path_name")
    private String pathName;
}

其中, @CsvBindByName注解中的require = true表明这是一个必须存在的字段

当我上传了这个样例文件后,代码报错了:

java.lang.RuntimeException: Error capturing CSV header!
...
Caused by: com.opencsv.exceptions.CsvRequiredFieldEmptyException: Header is missing required fields [PATH_ID]. The list of headers encountered is [ path_id,rid,path_name].

我上传的csv文件里明明有path_id这个字段,为什么报的错是字段找不到。这个错误十分的迷惑,以至于我拼命的在找csv文件的首行有什么问题。

找了半天之后没有发现什么问题,于是我就换了个思路,毕竟csv文件只是用逗号分隔的纯文本,我可以自己手写一个csv文件,于是我在编辑器里敲了一个新的csv出来,重新上传。结果代码正常的跑完了,没有报错。

那么问题会在哪里

我分别用excel打开这2个csv文件,结果发现

一开始的样例文件

image.png

手打的csv文件

image.png

看到这样的结果想起来在Windows上经常遇到的文件乱码问题,原因是文件头不存在BOM,那时是用notepad++来转换格式:

image.png

那么我现在遇到的这个报错会不会是因为文件头存在BOM呢?

为了验证这个想法,我把服务器接收到的文件内容按字符打出来:

image.png

果真,文件的第一个字符不是p,而是\uFEFF,正是utf-8 BOM。

于是,这个问题的答案已经有了,我指定了path_id列必须存在,而opencsv按“逗号分隔”的标准定义,认为文件里有一列叫\uFEFFpath_id,却找不到path_id,于是就报错了。而报错的迷惑性在于\uFEFF是不可见字符,其实报错的时候有打出来,只是看不见而已:

The list of headers encountered is [ path_id,rid,path_name].
                                    ^ 看似空格,其实是\uFEFF

解决问题

问题的原因已经找到,接下来就是如何解决这个问题,一般到这个时候的解决办法也不会太复杂,一种方法是每次读文件的时候做一个判断是否存在BOM,如果存在就去掉,然后把结果再交给opencsv处理。另一种方法是apache提供了一个BOMInputStream类,能自动识别是否存在BOM以及去除BOM:

// ...
BOMInputStream bomInputStream = new BOMInputStream(file.getInputStream());

new CsvToBeanBuilder(new InputStreamReader(bomInputStream))
// ...

改完之后,服务器就能欢快的接收各种带BOM和不带BOM的文件了。

references

相关文章
|
23天前
|
Java
有关Java发送邮件信息(支持附件、html文件模板发送)
有关Java发送邮件信息(支持附件、html文件模板发送)
25 1
|
27天前
|
Java
java中替换文件内容
java中替换文件内容
13 1
|
28天前
|
Java API
Java中文件与输入输出
Java中文件与输入输出
|
29天前
|
Java
java实现遍历树形菜单方法——映射文件VoteTree.hbm.xml
java实现遍历树形菜单方法——映射文件VoteTree.hbm.xml
9 0
|
1月前
|
Java
java程序导出堆文件
java程序导出堆文件
|
1月前
|
SQL Oracle Java
sql文件批处理程序-java桌面应用
sql文件批处理程序-java桌面应用
25 0
|
1月前
|
存储 Java 文件存储
如何用 Java 压缩 ZIP 文件?
【2月更文挑战第21天】
29 1
|
1月前
|
Java
Java实现文件和目录的管理
Java实现文件和目录的管理
24 0
|
25天前
|
Java 数据库连接 API
Java 学习路线:基础知识、数据类型、条件语句、函数、循环、异常处理、数据结构、面向对象编程、包、文件和 API
Java 是一种广泛使用的、面向对象的编程语言,始于1995年,以其跨平台性、安全性和可靠性著称,应用于从移动设备到数据中心的各种场景。基础概念包括变量(如局部、实例和静态变量)、数据类型(原始和非原始)、条件语句(if、else、switch等)、函数、循环、异常处理、数据结构(如数组、链表)和面向对象编程(类、接口、继承等)。深入学习还包括包、内存管理、集合框架、序列化、网络套接字、泛型、流、JVM、垃圾回收和线程。构建工具如Gradle、Maven和Ant简化了开发流程,Web框架如Spring和Spring Boot支持Web应用开发。ORM工具如JPA、Hibernate处理对象与数
90 3
|
28天前
|
Java
使用java将字符串写入到指定的文件中
使用java将字符串写入到指定的文件中
11 0