现在,集合已经可以用定制的注释器处理文档,并将结果存储在它的搜索索引中。
在某些情况下,有必要从更细的级别获取UIMA日志消息来调试注释器的问题。
在开发注释器期间,您可能想在一些样例文本上测试它。
这将涵盖在注释器的UIMA代码中发生的问题,以及在定制注释器的注释器代码中发生的问题。
可以修改和评估规则,而不需要重新启动CVD——只需重新装载注释器描述符并重新运行注释器。
请使用注释者方面方法,参与只发生在对注释类型的共同理解这一级别。
这个文件包含一组规则,这些规则定义注释器应该处理的字符和数字序列的类型以及处理的方式。
为了按要求的方式来裁剪Web页面,注释代码转换程序执行外部注释程序中的指令。
通过扩展正则表达式注释器的规则,可以执行许多文本分析任务。
现在,安装的正则表达式注释器已经配置了所需的规则集。
PEAR文件实际上是一个ZIP存档文件,其中按照定义良好的目录结构包含注释器代码和配置。
PEAR格式包含运行打包注释器组件所需的所有信息。
将注释器和映射文件链接到集合之后,就可以对文档进行爬行、解析和编制索引。
在注释器代码中确保创建注释时不超过特定长度是非常有用的。
定制开发的注释器可以替换正则表达式注释器,或者与它部署在一起。
InfoSphereWarehouse将在注释器代码中发生的错误消息转发到执行分析流跟踪中。
在这个例子中,我使用了Participant模式类型的协作,每个类有一个注释者方面。
对于更复杂的文本分析任务,可能需要开发定制的注释器。