CER and commonvoice

Hi

I’ve been playing with the CommonVoice seq2seq recipe (with Welsh) and I’m noticing that the WER looks right in comparison with the other languages listed in the README, but the CER is way off. For Welsh, it’s typically around 80, even though WER is down around 20.

Does anybody know why this might be so?

My guess is that CER is only valid if the token type is char, not unigram. Could this be it?

thanks,

mike h

Hey, the first thing to consider to see what happens is to actually look at the transcription that you obtain with the .evaluate() call. This way you have all the statistics computed for each utterance. CER should work for any subword unit as it’s just computing everything at character level. That’s weird.

Ah, I just noticed something. The wer_test.txt file reports an SER that looks right.

The log.txt file reports the CER that looks wrong.

In terms of parameters in the YAML file, I have token_type set to unigram.

My guess is that the log file is defaulting to characters even though it’s calculating SER correctly in the test file.

mike h.

oops. Just figured out that SER is “sentence error rate”, so back to the drawing board.

I may just run it again with token_type set to char.

O.k., I think I have it figured out.

I have a test set of 1000 sentences. In maybe 10 of them the system seems to just wig out and spit out a bunch of characters. In these cases, the sentence might be 20 characters, but the output is maybe 300 random characters.

My guess is that these are inflating the CER.

mike h.

Interesting ! Could you share these sentences (truth and prediction) ?

Will do.

I deleted the relevant file, but am rerunning it now and should have them for you in a few days.

mike h

Hi

O.k., here’s an exerpt from the latest wer_test.txt file. You can see the cases where it goes crazy. The letter sequences aren’t random. They make sense given Welsh spelling conventions.

mike h

%WER 27.35 [ 2337 / 8545, 93 ins, 1489 del, 755 sub ]
%SER 33.60 [ 336 / 1000 ]
Scored 1000 sentences, 0 not present in hyp.
================================================================================
ALIGNMENTS

Format:
<utterance-id>, WER DETAILS
<eps> ; reference  ; on ; the ; first ;  line
  I   ;     S      ; =  ;  =  ;   S   ;   D  
 and  ; hypothesis ; on ; the ; third ; <eps>
================================================================================
common_voice_cy_17889725, %WER 0.00 [ 0 / 2, 0 ins, 0 del, 0 sub ]
Dyma ; chi.
 =   ;  =  
Dyma ; chi.
================================================================================
...
================================================================================
common_voice_cy_18976221, %WER 0.00 [ 0 / 8, 0 ins, 0 del, 0 sub ]
frithgraig, ; Cernywiaid, ; geuffordd, ; Pontsenni, ; Castellnewydd, ; Lowri, ; myw, ; frowngoch
     =      ;      =      ;     =      ;     =      ;       =        ;   =    ;  =   ;     =    
frithgraig, ; Cernywiaid, ; geuffordd, ; Pontsenni, ; Castellnewydd, ; Lowri, ; myw, ; frowngoch
================================================================================
common_voice_cy_19009980, %WER 0.00 [ 0 / 8, 0 ins, 0 del, 0 sub ]
teithiwr, ; baich, ; fewn, ; Huws, ; pnawn, ; rhythm, ; fawr, ; grongaer
    =     ;   =    ;   =   ;   =   ;   =    ;    =    ;   =   ;    =    
teithiwr, ; baich, ; fewn, ; Huws, ; pnawn, ; rhythm, ; fawr, ; grongaer
================================================================================
common_voice_cy_18924055, %WER 0.00 [ 0 / 8, 0 ins, 0 del, 0 sub ]
Caerhun, ; llew, ; arllwysiad, ; ieithoedd, ; ehangdir, ; ceulan, ; Bontddu, ; nhrwyn
   =     ;   =   ;      =      ;     =      ;     =     ;    =    ;    =     ;   =   
Caerhun, ; llew, ; arllwysiad, ; ieithoedd, ; ehangdir, ; ceulan, ; Bontddu, ; nhrwyn
================================================================================
common_voice_cy_18193295, %WER 0.00 [ 0 / 8, 0 ins, 0 del, 0 sub ]
Magdalen, ; cewri, ; ffeuen, ; clwyfau, ; Puw, ; sipsiwn, ; llai, ; Fronhaul
    =     ;   =    ;    =    ;    =     ;  =   ;    =     ;   =   ;    =    
Magdalen, ; cewri, ; ffeuen, ; clwyfau, ; Puw, ; sipsiwn, ; llai, ; Fronhaul
================================================================================
common_voice_cy_18256329, %WER 11.11 [ 1 / 9, 0 ins, 0 del, 1 sub ]
Gareth ; F. ; Williams, ; Gaynor ; Morgan ; Rees, ; Gerallt ; Lloyd ; Owen
  =    ; S  ;     =     ;   =    ;   =    ;   =   ;    =    ;   =   ;  =  
Gareth ; F  ; Williams, ; Gaynor ; Morgan ; Rees, ; Gerallt ; Lloyd ; Owen
================================================================================
common_voice_cy_18183576, %WER 100.00 [ 16 / 16, 0 ins, 15 del, 1 sub ]
                                                                                                                                                                                                                                                                                                                                                         Rydw                                                                                                                                                                                                                                                                                                                                                         ;   i   ;  wedi ; blino ;   o   ;  bob  ;  dim  ;   ac  ;   yn  ; teimlo ;  fel  ;  mynd ;  adre ;   i   ;   fy  ; ystafell.
                                                                                                                                                                                                                                                                                                                                                          S                                                                                                                                                                                                                                                                                                                                                           ;   D   ;   D   ;   D   ;   D   ;   D   ;   D   ;   D   ;   D   ;   D    ;   D   ;   D   ;   D   ;   D   ;   D   ;     D    
Maeyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddydd ; <eps> ; <eps> ; <eps> ; <eps> ; <eps> ; <eps> ; <eps> ; <eps> ; <eps>  ; <eps> ; <eps> ; <eps> ; <eps> ; <eps> ;   <eps>  
================================================================================
common_voice_cy_18995322, %WER 0.00 [ 0 / 13, 0 ins, 0 del, 0 sub ]
Gair ; o ; gyngor, ; gwisga ; dy ; got ; achos ; mae'n ; rhy ; oer ; yn ; y ; tŷ.
 =   ; = ;    =    ;   =    ; =  ;  =  ;   =   ;   =   ;  =  ;  =  ; =  ; = ;  = 
Gair ; o ; gyngor, ; gwisga ; dy ; got ; achos ; mae'n ; rhy ; oer ; yn ; y ; tŷ.
================================================================================
common_voice_cy_18371378, %WER 100.00 [ 12 / 12, 0 ins, 11 del, 1 sub ]
                                                                                                                                                                                                                                                                                                                                                                Oes                                                                                                                                                                                                                                                                                                                                                                  ; unrhyw ;  beth ; gwahanol ;  neu  ; newydd ;  yna  ;   yn  ; lle'n ;  holl ;  hen  ; bethau?
                                                                                                                                                                                                                                                                                                                                                                 S                                                                                                                                                                                                                                                                                                                                                                   ;   D    ;   D   ;    D     ;   D   ;   D    ;   D   ;   D   ;   D   ;   D   ;   D   ;    D   
Maeyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddydd ; <eps>  ; <eps> ;  <eps>   ; <eps> ; <eps>  ; <eps> ; <eps> ; <eps> ; <eps> ; <eps> ;  <eps> 
================================================================================
common_voice_cy_18274089, %WER 100.00 [ 8 / 8, 0 ins, 7 del, 1 sub ]
                                                                                                                                                                                                                                                                                                                                                              Lleucu,                                                                                                                                                                                                                                                                                                                                                               ; Felinheli, ; Gwrhyd, ; llyw, ; nawddsant, ; rheibiwr, ; Pwllmeurig, ;  hewl
                                                                                                                                                                                                                                                                                                                                                                 S                                                                                                                                                                                                                                                                                                                                                                  ;     D      ;    D    ;   D   ;     D      ;     D     ;      D      ;   D  
LlMaeyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddydd ;   <eps>    ;  <eps>  ; <eps> ;   <eps>    ;   <eps>   ;    <eps>    ; <eps>
================================================================================
common_voice_cy_18994052, %WER 100.00 [ 10 / 10, 0 ins, 9 del, 1 sub ]
                                                                                                                                                                                                                                                                                                                                                                i                                                                                                                                                                                                                                                                                                                                                                  ;  ti,  ; newydd, ; ysgrifennu, ;   y   ; gwaith, ; darllen, ; fyddai, ; addysg, ; daeth
                                                                                                                                                                                                                                                                                                                                                                S                                                                                                                                                                                                                                                                                                                                                                  ;   D   ;    D    ;      D      ;   D   ;    D    ;    D     ;    D    ;    D    ;   D  
iMaeyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddydd ; <eps> ;  <eps>  ;    <eps>    ; <eps> ;  <eps>  ;  <eps>   ;  <eps>  ;  <eps>  ; <eps>
================================================================================
common_voice_cy_17638817, %WER 100.00 [ 11 / 11, 0 ins, 10 del, 1 sub ]
                                                                                                                                                                                                                                                                                                                                                               er                                                                                                                                                                                                                                                                                                                                                                ; enghraifft, ; bron, ;   yn  ;  fwy, ;   ar  ; gael, ; sylw, ; edrych ; arno, ; arall
                                                                                                                                                                                                                                                                                                                                                               S                                                                                                                                                                                                                                                                                                                                                                 ;      D      ;   D   ;   D   ;   D   ;   D   ;   D   ;   D   ;   D    ;   D   ;   D  
erMaeyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddydd ;    <eps>    ; <eps> ; <eps> ; <eps> ; <eps> ; <eps> ; <eps> ; <eps>  ; <eps> ; <eps>
================================================================================
common_voice_cy_17791368, %WER 100.00 [ 9 / 9, 0 ins, 8 del, 1 sub ]
                                                                                                                                                                                                                                                                                                                                                            Morgan,                                                                                                                                                                                                                                                                                                                                                             ;  eto, ;  yma, ; ddefnyddio, ; bach, ;   yn  ;  wir, ; diwedd, ; llenyddiaeth
                                                                                                                                                                                                                                                                                                                                                               S                                                                                                                                                                                                                                                                                                                                                                ;   D   ;   D   ;      D      ;   D   ;   D   ;   D   ;    D    ;      D      
MMaeyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddydd ; <eps> ; <eps> ;    <eps>    ; <eps> ; <eps> ; <eps> ;  <eps>  ;    <eps>    
================================================================================
common_voice_cy_22371450, %WER 41.67 [ 5 / 12, 1 ins, 0 del, 4 sub ]
Dyma ;  ddôl ;  wastad ; eto, ; a ; choed ; o ; boptu ; iddi, ; <eps> ; lle ; hyfryd ; ddigon.
 =   ;   S   ;    S    ;  =   ; = ;   =   ; = ;   =   ;   S   ;   I   ;  =  ;   =    ;    S   
Dyma ; gyfo, ; nhwstad ; eto, ; a ; choed ; o ; boptu ;   i   ;  fi,  ; lle ; hyfryd ;  digon.
================================================================================
common_voice_cy_17705032, %WER 100.00 [ 8 / 8, 0 ins, 7 del, 1 sub ]
                                                                                                                                                                                                              ddoe,                                                                                                                                                                                                                ; secco, ; hirhoedlog, ; tywyll, ; fywyd, ; carnguwch, ; barhaus, ;  haul
                                                                                                                                                                                                                S                                                                                                                                                                                                                  ;   D    ;      D      ;    D    ;   D    ;     D      ;    D     ;   D  
ddoeMaeyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMaeMae ; <eps>  ;    <eps>    ;  <eps>  ; <eps>  ;   <eps>    ;  <eps>   ; <eps>
================================================================================
common_voice_cy_18217792, %WER 0.00 [ 0 / 17, 0 ins, 0 del, 0 sub ]
Dylai ; fod ; tri ; neu ; bedwar ; car ; ar ; gael ; felly ; hen ; ddigon ; i ; ni ; gyd ; gyrraedd ; ar ; amser.
  =   ;  =  ;  =  ;  =  ;   =    ;  =  ; =  ;  =   ;   =   ;  =  ;   =    ; = ; =  ;  =  ;    =     ; =  ;   =   
Dylai ; fod ; tri ; neu ; bedwar ; car ; ar ; gael ; felly ; hen ; ddigon ; i ; ni ; gyd ; gyrraedd ; ar ; amser.
================================================================================
common_voice_cy_19012554, %WER 0.00 [ 0 / 9, 0 ins, 0 del, 0 sub ]
ei ; gilydd, ; cyffredin, ; hunain, ; lle, ; cymdeithasol, ; y ; lle, ; unwaith
=  ;    =    ;     =      ;    =    ;  =   ;       =       ; = ;  =   ;    =   
ei ; gilydd, ; cyffredin, ; hunain, ; lle, ; cymdeithasol, ; y ; lle, ; unwaith
================================================================================
common_voice_cy_17635761, %WER 0.00 [ 0 / 8, 0 ins, 0 del, 0 sub ]
duwynt, ; moreau, ; rhywfaint, ; ddwfn, ; rhyw, ; powdwr, ; sioeau, ; Loegr
   =    ;    =    ;     =      ;   =    ;   =   ;    =    ;    =    ;   =  
duwynt, ; moreau, ; rhywfaint, ; ddwfn, ; rhyw, ; powdwr, ; sioeau, ; Loegr
================================================================================
common_voice_cy_18165621, %WER 0.00 [ 0 / 8, 0 ins, 0 del, 0 sub ]
frithgraig, ; Cernywiaid, ; geuffordd, ; Pontsenni, ; Castellnewydd, ; Lowri, ; myw, ; frowngoch
     =      ;      =      ;     =      ;     =      ;       =        ;   =    ;  =   ;     =    
frithgraig, ; Cernywiaid, ; geuffordd, ; Pontsenni, ; Castellnewydd, ; Lowri, ; myw, ; frowngoch
================================================================================
common_voice_cy_19018507, %WER 0.00 [ 0 / 8, 0 ins, 0 del, 0 sub ]
ychydig, ; glin, ; wrth, ; Huw, ; at, ; nhw, ; bod, ; bydd
   =     ;   =   ;   =   ;  =   ;  =  ;  =   ;  =   ;  =  
ychydig, ; glin, ; wrth, ; Huw, ; at, ; nhw, ; bod, ; bydd
================================================================================
common_voice_cy_22194732, %WER 63.64 [ 7 / 11, 3 ins, 0 del, 4 sub ]
"Fe'i ; hetholwyd ; i ; Academi'r ; Celfyddydau ; Ymerodraethol ;    <eps>    ;      <eps>      ; ychydig ; fisoedd ;   <eps>   ; cyn ; ei ; farwolaeth."
  =   ;     =     ; = ;     S     ;      S      ;       S       ;      I      ;        I        ;    =    ;    S    ;     I     ;  =  ; =  ;      =      
"Fe'i ; hetholwyd ; i ;     ac    ;      yn     ;     demur,    ; celfyddydau ; ymerddodraethol ; ychydig ;    o    ; feiysoedd ; cyn ; ei ; farwolaeth."
================================================================================
common_voice_cy_18938170, %WER 0.00 [ 0 / 9, 0 ins, 0 del, 0 sub ]
Cafodd ; gweinidog ; dros ; dro ; ei ; benodi ; ar ; yr ; eglwys.
  =    ;     =     ;  =   ;  =  ; =  ;   =    ; =  ; =  ;    =   
Cafodd ; gweinidog ; dros ; dro ; ei ; benodi ; ar ; yr ; eglwys.
================================================================================
common_voice_cy_19067683, %WER 100.00 [ 8 / 8, 0 ins, 6 del, 2 sub ]
Porthcawl, ;                                                                                                                                                                                                                                                                                                                                                                                                 twpsyn,                                                                                                                                                                                                                                                                                                                                                                                                 ; Nantlle, ; tabloid, ; Nhywyn, ; amhleidiol, ; ddoi, ; ddrewllyd
    S      ;                                                                                                                                                                                                                                                                                                                                                                                                    S                                                                                                                                                                                                                                                                                                                                                                                                    ;    D     ;    D     ;    D    ;      D      ;   D   ;     D    
   Pawl    ; cawlMaeyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddyddydd ;  <eps>   ;  <eps>   ;  <eps>  ;    <eps>    ; <eps> ;   <eps>  

This looks like a CommonVoice dataset problem. Because the output format isn’t even standard. Could you look at these samples in the official test.tsv to see what is their transcript ? Better, you could also try to listen to the mp3 file to see if there is anything weird (it looks like it)

HI

I listened to a couple of them and nothing weird.

mh

@mravanelli do you remember who did the WER export ? I feel like even the output formatting is broken here :o

I think the problem here is that decoding doesn’t work well for some sentences, right?
This might happen especially when we don’t have a lot of data for training. One suggestion is to start from the librispeech model and fine-tune it. As an alternative, you can try to play a bit with the beamsearch parameters (usually tuning them a bit might help mitigating some issues like the one you see).

Insufficient data is my guess too.

There may be a data quality issue as well. My understanding is that they crowdsourced the recordings and many of the recordings are just a series of random words pronounced in isolation.

I’m working on mitigating this.

mike h