如何建立自己的小型法律双语语料库?

发布于 科技 2024-08-03
24个回答
  1. 匿名用户2024-01-31

    1.建立平行语料库,需要收集双语法律文本,必须是官方版本,才具有权威性。

    2.采集完成后,对文字进行处理和降噪,简单来说就是把它放在word里然后一键清除格式,或者放在txt里,去掉特殊格式。

    3.文本对齐。 对齐工具可用于创建并行语料库格式(TMX 或 TXT)的双语文本,可以使用 Paraconc 进一步分析。 这里的对齐工具推荐tmxmall**对齐,非常简单,直接将双语文档导入其中,点击对齐按钮,然后从头到尾勾选,准确率很高。

    Web 链接。 这样,他们自己的小型法律语料库就建成了。 如果文字资源有限,也可以前往TMXMALL语料库**购买语料库。 进入**后,搜索“法律”,即可搜索所有与法律相关的语料库。

    Web 链接。 <>

  2. 匿名用户2024-01-30

    数据库构建的方法具有通用性,只要准备了不同域类型的语料库即可。

    1)准备(法律)双语文件。需要注意的是,原文和译文需要严格比对,这是后续软件识别的重要依据。

    3) 在 CAT 工具(如 Trados)中创建新的翻译记忆库,并导入之前保存的 TMX 文件。

    关于可以购买的法律语料库:1)第一个建议是购买其他用户在“tmxmall语料库**”上传的法律语料库,后台可以预览和查看;2)去一些用户多、比较活跃的译者**搜索精华帖子和热门帖子,看看能不能免费买一些,但要注意检查质量;3)找其他做法律翻译的大神,购买他们的语料库档案资源,现在语料库数据已经是翻译人员或翻译公司的核心资本,一般不免费传输。

  3. 匿名用户2024-01-29

    有两种方法可以做到这一点,供您参考:

    1. 直接访问法律语言专业委员会,然后申请会员资格,你就可以开始了。

    2、是自己创建数据,即自己动手;

    这两种方法各有利弊,希望对您有所帮助。

  4. 匿名用户2024-01-28

    我害怕去拉萨。

  5. 匿名用户2024-01-27

    基本上没有办法建立相应的语料库,高质量的原创语料库是高质量语料库的前提。

    动态变化的语料库:大众传播**的情况在不断变化,语料库也需要相应地变化。 (例如:.)

    1978年,我国只有186种报纸,基本上是单一的党委机关报,但到1995年底,报纸数量增加到2202种,平均印刷期数增加了4倍,印刷总量增加了3.5倍。

  6. 匿名用户2024-01-26

    3.如果公司之前做过翻译语料库,可以直接使用tmxmall对之前的翻译进行对齐和复用。

    4.使用TMROBOT管理语料库,防止语料库过于杂乱和语料库丢失的最大任务就是做好对齐,对齐效率越高,准确率越高,有用性越大。

    TMXMALL对齐是先基于段落对齐,再细化为句子对齐,提高了工作效率和准确性。

  7. 匿名用户2024-01-25

    至少五年以上的翻译才有意义,否则根本就只是杯水车薪,积累的也太少了。 一个领域没有数以万计的语料库,所以根本没有使用它们。

  8. 匿名用户2024-01-24

    最好在 trados 中使用 winalign,然后其实没问题 参考文章: 1.使用翻译记忆系统构建自己的双语并行语料库。

    2. 使用翻译记忆系统构建双语平行语料库。

    看完这两篇文章就可以明白了

  9. 匿名用户2024-01-23

    您可以准备英汉、中英双语素材,导入准备好的双语素材进行语料对齐tmxmall**对齐,导入后tmxmall**对齐会将双语素材对齐段落,稍微调整段落,然后点击“对齐”对齐句子。 勾选一次,即可直接导出双语并行对齐语料库

  10. 匿名用户2024-01-22

    TMXMALL**对齐非常方便使用,你只需要将采集到的文字进行降噪后清理干净,导入到TMXMALL**对齐中,第一段对齐,然后句子对齐,检查是否正确,可以导出到本地,也可以导入Yicat的内存库。

  11. 匿名用户2024-01-21

    方法 1:使用向导调用方法 您可以使用“文件”菜单“新建”或“工具”菜单“向导” 方法 2:使用数据库设计器 1 并使用向导建立数据库 特征:

    可以快速轻松地创建数据库,但仅适用于常用数据库。

  12. 匿名用户2024-01-20

    要形成语料库,您必须先准备语料库,然后才能准备语料库。

  13. 匿名用户2024-01-19

    构建同义词库的第一个条件是,您需要将单词的所有内容归纳起来并将它们放在一个包中,以便于制作。

  14. 匿名用户2024-01-18

    形成语料库需要很多东西,你要知道你组织的语料库有合格的人、营业执照和你哥哥的证书。

  15. 匿名用户2024-01-17

    如果中间有一个语料库,如果需要大量的资源,就可以形成一个语料库。

  16. 匿名用户2024-01-16

    你需要的东西很多,首先你要有材料,然后你要有一个仓库,但你也要有一个地方,时间、人力和物力都需要,最重要的是钱。

  17. 匿名用户2024-01-15

    建立一个语料库需要很多东西,至少应该有很多材料。

  18. 匿名用户2024-01-14

    形成语料库的条件是手机数据。

  19. 匿名用户2024-01-13

    语料库 语料库包含实际在语言实际使用中实际出现的语言材料,因此例句语料库一般不算作语料库;

    语料库是承载语言知识的基础资源,但它并不等于语言知识。

    真正的语料库需要经过处理(分析和处理),然后才能成为有用的资源。

  20. 匿名用户2024-01-12

    您只需要一台电脑、鼠标和键盘。

  21. 匿名用户2024-01-11

    只有一篇课文肯定是不够的,必须有很多课文,而且为了保证课文的真实性(不能凭空编造),所以在做科研的时候,需要建立在语料库的基础上,所以就是以语料库为基础。 例如,当我研究一个作家的语言风格时,我必须建立在他创作的文本之上。 如果我想研究汉语中的一些语言现象,我通常必须建立在一个平衡的语料库上,我也想学习其他语言。 语料库通常是由某人创建的,不需要自己完成。

  22. 匿名用户2024-01-10

    过程值不足。 查看进程值是多少,如果值不够大,则增加它。 另外,要注意服务器的连接方式,无论是专用的还是共享的。

    在共享模式下,如果线条不畅通,很容易发生大量工序,导致工序值不足。

  23. 匿名用户2024-01-09

    构建双语并行语料库,关键是首先要进行双文档和单文档的双语对齐,对齐完成后将语料库导出为TMX格式,然后应用到CAT软件中。

    有两种常见的对齐方法

    abbyy aligner。在本地对齐,需要时间才能开始。

  24. 匿名用户2024-01-08

    免费不行,我这里有付费资源,**不高。 这是京东万象提供的中译英翻译平行语料库,10级,中译英翻译平行语料库用于人工智能培训,全人工翻译、校对和对齐工作。

相关回答
9个回答2024-08-03

博客:所有大**现在都为注册会员提供博客,如新浪、网易等,这类博客只需要注册一个用户名即可拥有自己的博客,以及相册空间等,也可以应用固定模板制作个性化主页。 优点: >>>More

3个回答2024-08-03

请看如何构建它:

在贴纸的主页上。 >>>More

6个回答2024-08-03

法律分析:放宽注册资本登记条件,取消有限责任公司、一人有限责任公司、股份****最低注册资本分别达到3万元、10万元、500万元的限制,不再规定公司成立时股东(发起人)的初始出资额和出资额比例限制。 >>>More

11个回答2024-08-03

我总觉得团队这个词不好,我说不出确切的原因。 团队,在中文中,一个团体的概念,可能是几十人或几百人,这不适合两个人的团体。 我们经常谈论团队合作,这意味着你想与小组成员合作和协作。 >>>More

7个回答2024-08-03

安排学生学习相关资料,采用考试相结合的方式,更好地掌握员工的培训情况; >>>More