中文文件名提取

很多匹配、提取的操作都是和正则表达式挂钩。熟练掌握正则表达式,有时候能帮你解决一些之前可能需要手动操作的问题。

对于 folder 内不同的 .docx 文件,想要提取出 word 文件名中的中文,除了手动复制粘贴文件名,是不是有更好的方式提取?这个时候,我们就可以借助正则表达式。
get_name= function(loc){
name= list.files(loc, full.names = TRUE) |> str_match_all('[\\p{Han}]') |>
sapply(function(x){
as.vector(x) |>
str_c(collapse = '')
})
return(name)
}
其中,[\\p{Han}]
则是为了直接提取出文件名中的全部中文。因而,最后应当得到这样的字符串向量:c('陆震', '陆震同学', '陆震')
。有兴趣的同学可以自己尝试下自己folder下的文件中文名称提取。
对于正则表达式的学习,可以由浅入深,平时在合适的场景多多使用,非常有助于对不同 pattern 规律的掌握。另外,后台回复正则表达式可以收到 stringr 的 cheat sheet,同学们可以自己了解学习下。

非常感谢你能看到这里,如果你觉得写得还不错的话,求转发求关注,我们下篇文章再见👨🏻💻