-
1.建立平行语料库,需要收集双语法律文本,必须是官方版本,才具有权威性。
2.采集完成后,对文字进行处理和降噪,简单来说就是把它放在word里然后一键清除格式,或者放在txt里,去掉特殊格式。
3.文本对齐。 对齐工具可用于创建并行语料库格式(TMX 或 TXT)的双语文本,可以使用 Paraconc 进一步分析。 这里的对齐工具推荐tmxmall**对齐,非常简单,直接将双语文档导入其中,点击对齐按钮,然后从头到尾勾选,准确率很高。
Web 链接。 这样,他们自己的小型法律语料库就建成了。 如果文字资源有限,也可以前往TMXMALL语料库**购买语料库。 进入**后,搜索“法律”,即可搜索所有与法律相关的语料库。
Web 链接。 <>
-
数据库构建的方法具有通用性,只要准备了不同域类型的语料库即可。
1)准备(法律)双语文件。需要注意的是,原文和译文需要严格比对,这是后续软件识别的重要依据。
3) 在 CAT 工具(如 Trados)中创建新的翻译记忆库,并导入之前保存的 TMX 文件。
关于可以购买的法律语料库:1)第一个建议是购买其他用户在“tmxmall语料库**”上传的法律语料库,后台可以预览和查看;2)去一些用户多、比较活跃的译者**搜索精华帖子和热门帖子,看看能不能免费买一些,但要注意检查质量;3)找其他做法律翻译的大神,购买他们的语料库档案资源,现在语料库数据已经是翻译人员或翻译公司的核心资本,一般不免费传输。
-
有两种方法可以做到这一点,供您参考:
1. 直接访问法律语言专业委员会,然后申请会员资格,你就可以开始了。
2、是自己创建数据,即自己动手;
这两种方法各有利弊,希望对您有所帮助。
-
我害怕去拉萨。
-
基本上没有办法建立相应的语料库,高质量的原创语料库是高质量语料库的前提。
动态变化的语料库:大众传播**的情况在不断变化,语料库也需要相应地变化。 (例如:.)
1978年,我国只有186种报纸,基本上是单一的党委机关报,但到1995年底,报纸数量增加到2202种,平均印刷期数增加了4倍,印刷总量增加了3.5倍。
-
3.如果公司之前做过翻译语料库,可以直接使用tmxmall对之前的翻译进行对齐和复用。
4.使用TMROBOT管理语料库,防止语料库过于杂乱和语料库丢失的最大任务就是做好对齐,对齐效率越高,准确率越高,有用性越大。
TMXMALL对齐是先基于段落对齐,再细化为句子对齐,提高了工作效率和准确性。
-
至少五年以上的翻译才有意义,否则根本就只是杯水车薪,积累的也太少了。 一个领域没有数以万计的语料库,所以根本没有使用它们。
-
最好在 trados 中使用 winalign,然后其实没问题 参考文章: 1.使用翻译记忆系统构建自己的双语并行语料库。
2. 使用翻译记忆系统构建双语平行语料库。
看完这两篇文章就可以明白了
-
您可以准备英汉、中英双语素材,导入准备好的双语素材进行语料对齐tmxmall**对齐,导入后tmxmall**对齐会将双语素材对齐段落,稍微调整段落,然后点击“对齐”对齐句子。 勾选一次,即可直接导出双语并行对齐语料库
-
TMXMALL**对齐非常方便使用,你只需要将采集到的文字进行降噪后清理干净,导入到TMXMALL**对齐中,第一段对齐,然后句子对齐,检查是否正确,可以导出到本地,也可以导入Yicat的内存库。
-
方法 1:使用向导调用方法 您可以使用“文件”菜单“新建”或“工具”菜单“向导” 方法 2:使用数据库设计器 1 并使用向导建立数据库 特征:
可以快速轻松地创建数据库,但仅适用于常用数据库。
-
要形成语料库,您必须先准备语料库,然后才能准备语料库。
-
构建同义词库的第一个条件是,您需要将单词的所有内容归纳起来并将它们放在一个包中,以便于制作。
-
形成语料库需要很多东西,你要知道你组织的语料库有合格的人、营业执照和你哥哥的证书。
-
如果中间有一个语料库,如果需要大量的资源,就可以形成一个语料库。
-
你需要的东西很多,首先你要有材料,然后你要有一个仓库,但你也要有一个地方,时间、人力和物力都需要,最重要的是钱。
-
建立一个语料库需要很多东西,至少应该有很多材料。
-
形成语料库的条件是手机数据。
-
语料库 语料库包含实际在语言实际使用中实际出现的语言材料,因此例句语料库一般不算作语料库;
语料库是承载语言知识的基础资源,但它并不等于语言知识。
真正的语料库需要经过处理(分析和处理),然后才能成为有用的资源。
-
您只需要一台电脑、鼠标和键盘。
-
只有一篇课文肯定是不够的,必须有很多课文,而且为了保证课文的真实性(不能凭空编造),所以在做科研的时候,需要建立在语料库的基础上,所以就是以语料库为基础。 例如,当我研究一个作家的语言风格时,我必须建立在他创作的文本之上。 如果我想研究汉语中的一些语言现象,我通常必须建立在一个平衡的语料库上,我也想学习其他语言。 语料库通常是由某人创建的,不需要自己完成。
-
过程值不足。 查看进程值是多少,如果值不够大,则增加它。 另外,要注意服务器的连接方式,无论是专用的还是共享的。
在共享模式下,如果线条不畅通,很容易发生大量工序,导致工序值不足。
-
构建双语并行语料库,关键是首先要进行双文档和单文档的双语对齐,对齐完成后将语料库导出为TMX格式,然后应用到CAT软件中。
有两种常见的对齐方法
abbyy aligner。在本地对齐,需要时间才能开始。
-
免费不行,我这里有付费资源,**不高。 这是京东万象提供的中译英翻译平行语料库,10级,中译英翻译平行语料库用于人工智能培训,全人工翻译、校对和对齐工作。
博客:所有大**现在都为注册会员提供博客,如新浪、网易等,这类博客只需要注册一个用户名即可拥有自己的博客,以及相册空间等,也可以应用固定模板制作个性化主页。 优点: >>>More
法律分析:放宽注册资本登记条件,取消有限责任公司、一人有限责任公司、股份****最低注册资本分别达到3万元、10万元、500万元的限制,不再规定公司成立时股东(发起人)的初始出资额和出资额比例限制。 >>>More
我总觉得团队这个词不好,我说不出确切的原因。 团队,在中文中,一个团体的概念,可能是几十人或几百人,这不适合两个人的团体。 我们经常谈论团队合作,这意味着你想与小组成员合作和协作。 >>>More