SCI写作之text2vec包

一起因
起因其实很简单,就是有时候进行SCI写作的时候没有办法找到合适的语句进行模仿,那么寻找一个合适的可以用于语料分析的模块必然是一件十分重要的事情啦(读万卷书形成自己的风格也是一种方式)。因此,在笔者的寻寻觅觅之下,找到了一个还不错的语料分析包,下面也分享给大家。PS:这里只是提供一个思路,但是目前看起来,与专业的写作辅助平台还是有不小的差距。也希望有越来越多的大佬能够分享深度学习或者机器学习的方法来帮助SCI小白进行科研写作。
二详细介绍
首先,介绍一个python包:text2vec
官方文档的介绍: text2vec文本向量表征工具,把文本转化为向量矩阵,是文本进行计算机处理的第一步。text2vec实现了Word2Vec、RankBM25、BERT、Sentence-BERT、CoSENT等多种文本表征、文本相似度计算模型,并在文本语义匹配(相似度计算)任务上比较了各模型的效果。
那么,接下来,笔者就用最简单的例子来向读者示例如何使用这一包进行语料分析。2.1 运行代码
需要注意的是,embedder = SentenceModel()这句代码需要提前下载语料库。然而,由于国内网络的限制,我们其实是没有办法下载下来的,因此,这里教给大家一个小tip。
Tips: 我们可以在安装text2vec的安装目录下(如笔者安装的目录是F:\Postdoc_analysis\Custom_program),找到sentence_model.py文件,将其中的模型搜索目录修改,即将shibing624/修改为指定的目录F:\\Postdoc_analysis\\pretrain_model。具体的修改方式如下
原代码
修改后的代码
2.2 下载预训练模型
然后呢,在指定目录下载好作者已经训练好的模型文件。如本模块的地址就在:https://huggingface.co/shibing624/text2vec-base-chinese
需要注意的是,在该目录下的所有文件都需要下载(除了那个.gitattributes和README.md文件外)

2.3 运行
之后,就可以快乐的运行起来啦。官方示例的结果为
2.4 项目地址
该项目的github地址为:https://github.com/shibing624/text2vec需要注意的是本项目的训练基于PyTorch实现的,所以读者在使用这一项目的时候最好是有个高性能显卡,从而可以基于GPU运算,否则,语料太大,在CPU下可能需要数倍到数十倍时间才能完成运算。
2.6 同类型项目
现在市面上其实也提供了一些可用的工具,用来辅助我们进行写作,比如最常见的就是你输入一个句子,然后系统返回一个在其他文章中类似的语句,你再对这个语句进行修改,从而实现快速写作的目的(笔者可可以自行搜索)。
三 惯例小结
其实,会渐渐有种预感,以后的科研写作可能更多的可以靠机器完成,而真正让我们需要熟练掌握的是说故事的能力与逻辑,而不是着眼于语法等细节。当然,现在无论是翻译还是语义相似度识别,仍然无法做到信达雅的地步,但是不可否认,机器已经越来越接近这一步了,就从ChatGPT就能够看出了。
不过,不管怎样,不能好高骛远,该看的文献还是得看,该熟悉语法还是得熟悉(说不定,机器翻译的信达雅还得十几二十年才能到来呢,而你苦苦等待,换来的可能是机会的错失)。
另外,最近有看到一个UP主认为AI只是一种炒作,然后用着非常不合理的解释去理解这一(炒作)现象,让我觉得哭笑不得。虽然,我也不认为通用AI快到来了,但是错误的理解趋势却会让部分看视频的人看不清未来(当然。我也看不清,但是不是错误的看不清),无法在可能即将到来的趋势中押对方法,而这,无疑是可以避免的。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
Multi-omics Hammer软件下载地址:
https://github.com/wangjun258/Multi-omics-Hammer
Multi-omics Visual软件下载地址:https://github.com/wangjun258/Multi_omics_Visual/releases/tag/Multi_omics_Visual_v1.03
PS:因为本软件是用python脚本撰写,调用了部分依赖包,用户首次使用需要安装python以及对应的包,安装之后便可永久使用。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
简书:WJ的生信小院
公众号:生信小院
博客园:生信小院
最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。
另外,怎么说呢,投币也可,不强求,但奢求。
四 每日一图(源自Stable-diffuse创作)

果然,人工智能目前还脱不开智障的地步


